ElevenLabsをローカルで置き換える——オープンソース音声エージェントの全体設計
ElevenLabsをローカルで置き換える——オープンソース音声エージェントの全体設計
出典: note.com / 2026-05-03
ElevenLabsをローカルで置き換える——オープンソース音声エージェントの全体設計
ElevenLabs Agentsがコールセンター業界を揺るがしている。$0.08/min、70+言語対応、GPT/Claude/Geminiと接続可能。RevolutやCiscoが導入済み。
しかし、この仕組みは完全にローカルで再現できる。月額コストはゼロ。すべてオープンソースで実現可能だ。
本記事では、ElevenLabs互換のローカル音声エージェントを構築するためのアーキテクチャ設計図を提示する。
全体アーキテクチャ
音声エージェントは4つのレイヤーで構成される。
①イングレス層(入力)
SIP/VoIPゲートウェイ(Asterisk)またはWebSocketサーバー(FastAPI)で通話を受ける。電話回線とも接続可能。
②音声認識層(STT)
音声をテキストに変換する。MistralのVoxtral 4Bが最有力候補。レイテンシ約70msで9言語に対応する。Apple Silicon(MLX)でそのまま動く。faster-whisperやMoonshineも選択肢。
③推論エンジン(LLM)
Ollama経由でQwen 2.5、Llama 3.x、DeepSeekなどを実行する。ローカルGPU(Apple Siliconの統合メモリ)で動作。APIキー不要。
④音声合成層(TTS)
テキスト応答を音声に変換する。Kokoro 82M(高品質・多言語)、CosyVoice 2(声のクローン対応)、Voxtral TTS(超低遅延70ms)、Piper TTS(超軽量)から選択する。
データフロー:リアルタイム通話の流れ
通話中のデータの流れは以下の通りだ。
-
ユーザーが話す → 音声ストリームがイングレス層に到達
-
VAD(Silero VAD)が発話区間を検出 → 無音部分をカット
-
STT(Voxtral)が音声をテキストに変換(~70ms)
-
LLM(Qwen/Ollama)が応答を生成(~200ms)
-
TTS(Kokoro)が応答テキストを音声に変換(~100ms)
-
音声がユーザーに届く
総合レイテンシ目標:500ms以下。ElevenLabsとほぼ同等の応答速度だ。
TTSエンジン比較表
主要なTTSエンジンを比較する。
Kokoro 82M — 品質★★★★★、遅延~100ms、8+言語対応、VRAM 2GB、GitHub ⭐6,849
最もバランスが良い。音質が非常に高く、軽量。
CosyVoice 2(アリババ) — 品質★★★★★、遅延~150ms、10+言語対応、声クローン10秒で可能、VRAM 4GB、GitHub ⭐20,844
声のクローン機能が強力。10秒の音声サンプルで任意の声を再現できる。
Voxtral TTS(Mistral) — 品質★★★★☆、遅延~70ms、9言語対応、VRAM 8GB
最も低遅延。リアルタイム対話に最適。ただしVRAM要求が大きい。
Piper TTS — 品質★★★☆☆、遅延~30ms、30+言語対応、VRAM 200MB
最も軽量。Raspberry Piでも動く。品質は控えめだが、十分実用的。
XTTS v2(Coqui) — 品質★★★★☆、遅延~200ms、17言語対応、声クローン対応、VRAM 4GB
コミュニティが成熟している。utorialsや統合例が多い。
コスト比較:ElevenLabs vs ローカル
ElevenLabsの$0.08/minは、1日8時間利用で月額約$1,152(約17万円)。年間で約$13,824(約200万円)。
ローカル構築の場合、月額コストはゼロ。ハードウェアは既にあるApple Silicon Macを使えば追加投資なし。GPUサーバーを立てるなら初期投資で数十万円だが、1年で元が取れる計算だ。
M1 Max 64GBでの推奨構成
4号機(M1 Max 64GB)で実行する場合の推奨構成。
STT: Voxtral 4B(MLX版)— メモリ約8GB
LLM: Qwen 2.5 14B(Q4_K_M量化) — メモリ約8GB
TTS: Kokoro 82M — メモリ約2GB
合計メモリ使用量は約20GB。64GBあるので余裕を持って同時動作する。
フレームワークはHuggingFaceの「speech-to-speech」を使う。オープンソースで、STT→LLM→TTSのパイプラインをまとめて構築できる。GitHub ⭐4,704。
主要プロジェクト一覧
音声エージェントプラットフォーム
・huggingface/speech-to-speech(⭐4,704)— HF公式。ローカル音声エージェント構築フレームワーク
・rapidaai/voice-ai(⭐593)— エンドツーエンド。STT+TTS+VAD+エージェント管理
・dograh-hq/dograh(⭐428)— オープンソース音声エージェントプラットフォーム
・echokit_server(⭐562)— オープンソース音声エージェントプラットフォーム
STT(音声認識)
・Voxtral 4B — Mistral。70ms遅延。mlx対応
・RealtimeSTT(⭐9,757)— 低遅延。VAD+ウェイクワード対応
・Moonshine — 超低遅延。音声エージェント向け設計
・faster-whisper — OpenAI Whisperの最適化版
TTS(音声合成)
・Kokoro 82M(⭐6,849)— 最高品質バランス
・CosyVoice 2(⭐20,844)— 声クローン最強
・RealtimeTTS(⭐3,889)— リアルタイム合成特化
・Piper TTS — 超軽量
・TTS-WebUI(⭐3,106)— 全TTSエンジン統合WebUI
実装のポイント
レイテンシが最重要。ユーザー体験を決めるのは応答速度だ。STTとTTSは低遅延モデルを優先選択すべき。
Voxtral 4Bが新時代の鍵。STTとTTSの両方を70msで処理できるモデルは初めて。Mistralの力作だ。
声のクローンが必要ならCosyVoice。10秒の音声サンプルで任意の声を再現できる。ブランドボイスや特定人物の声が必要なケースで有効。
最小構成ならPiper + faster-whisper。Raspberry Piでも動く超軽量構成。コスト重視ならこれで十分。
おわりに
ElevenLabsの技術は素晴らしいが、オープンソースコミュニティが急速に追いついている。2026年現在、ローカルで同等の品質を実現できるレベルに達した。
$0.08/minを払い続ける必要はない。あなたのマシンの上で、今すぐ音声エージェントを動かせる。
設計図のMermaid版は以下で公開している。
GitHub: voice-agent-architecture
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nefdce6df251e