2026年、電話対応はもう人類の仕事じゃない…電話格闘血風録
2026年、電話対応はもう人類の仕事じゃない…電話格闘血風録
出典: note.com / 2026-06-01
──中高生でも1時間で作れるAI電話自動化──
僕が実際に1ヶ月間、電話の向こうと格闘して得た結論を、技術資料として完全公開する。
1. なぜ電話なのか
ある地方の移動支援事業で、予約受付の電話が1日20本〜30本鳴るようになった。高齢の利用者が多く、Webフォームの入力は難しい。「ボタンひとつで電話する」以外の選択肢が、彼らには存在しない。
最初は人間が受話器を取っていた。しかしシフトの夜間、昼休み、人手不足……「ここを自動化したい」は、誰もが一度は通る道だ。
2026年の今、その答えはすでに存在する。
2. 最初の選択──Vapi AI との出会い
最初に選んだのは Vapi AI だった。「APIを叩くだけで電話着信→音声認識→LLM応答→音声合成」のフローが全部入り。プロトタイプは数時間で動いた。「これで解決する」と思った。
2.1 Vapi で見えた光
ブラウザだけで音声通話のテストができる
LLMのプロンプトはダッシュボードから編集可能
通話ログが自動で保存される
ナレッジが SOP(記事)が追加される
デモとしては十分だった。しかし実運用に入ると、三つの壁が立ちはだかった。
3. 三つの壁
壁①:コスト
Vapiの請求額を見て、目を疑った。
項目: 月額
Vapi 基本料: 約4,000円
Deepgram(音声認識): 約3,000円
GPT-4.1-mini(LLM応答): 約9,000円
OpenAI TTS(音声合成): 約5,000円
合計: 約21,500円
「電話1本あたり何円?」と計算すると、通話1分で約15〜20円。1日30本、1本3分の通話で、月に約27,000円にも達する計算だ。
壁②:ブラックボックス化
Vapiのダッシュボードから触れる範囲には、限りがある。
音声認識の誤りを改善したい → モデル変更くらいしかできない
応答の口調を変えたい → プロンプト調整だけ
応答速度を上げたい → サーバー地域を変えるくらい
細かいところまで手が届かない。「ここを直したい」が、実装レベルで叶わないストレスが蓄積した。
壁③:ベンダーロックイン
向こうの都合で仕様が変わる。値上げのリスク。APIが廃止されたら、全部作り直し。
「実験」としては十分でも、「設備」として運用するには不安が残った。
4. 決断──全部、自分で持つ
2026年5月、Vapiを完全に停止した。TwilioのSIPトランク(050番号)を、直接自分のマシン(4号機)に流す構成に切り替えた。
以降、月額はこうなった。
項目: 月額
Twilio 050番号: 550円
Macの電気代: 約1,000円
合計: 1,550円
**月20,000円の固定費が消えた。**しかも「使えば使うほど得」という逆転構造になった。
5. 新しいスタック
レイヤー: 使った技術 | 種別
電話回線: Twilio SIP Trunk | クラウド(最小限)
WebRTCサーバー: LiveKit Server | OSS
エージェント制御: LiveKit Agents | OSS
音声認識(STT): faster-whisper large-v3 | OSS・ローカル
対話解析(LLM): Qwen3.5 4B(Ollama) | OSS・ローカル
音声合成(TTS): Qwen3-TTS | OSS・ローカル
**クラウド依存はTwilio(電話番号だけ)に絞った。**AI部分は全部、手元のMac mini(M2 Pro)で動いている。
6. 技術的に抑えるポイント
6.1 faster-whisper の最適化
Whisperのオープンソース版 faster-whisper は、CTranslate2エンジンで高速化されている。モデルサイズは large-v3 で、日本語の誤認識率が劇的に低い。
pip install faster-whisper
from faster_whisper import WhisperModelmodel = WhisperModel(“large-v3”, device=“cpu”, compute_type=“int8”)
M2 Proでは1秒あたり約0.3リアルタイム倍率。つまり 3秒の音声が10秒で処理 される。リアルタイム通話には十分だ。
6.2 Ollama × Qwen3.5 4B
ollama pull qwen3.5:4b
通話の「意図理解」は、この4Bモデルで十分に動く。「予約したい」「キャンセルしたい」「時間を変更したい」という分類と、日付・時間・人数の抽出は、Prompt一発で安定する。
import ollamaresponse = ollama.chat(model=“qwen3.5:4b”,messages=[{“role”: “user”, “content”: transcript}])
6.3 Qwen3-TTS の採用
日本語TTSでは、Qwen3-TTSが自然さと速度のバランスが最も良い。
女性らしい自然な声
方言や抑揚の学習が進んでいる
ローカル実行でレイテンシ500ms以下
LiveKit Agents の TTS フックに組み込むだけで、通話が成立する。
7. 実際に直面した問題と解決
7.1 「電話が鳴らない」問題
最初、TwilioSIP→LiveKitへの着信が届かなかった。原因は NATの扱い だった。
LiveKit Server は Docker Compose で動かしていたが、ポート 7880〜7881 がUFWで塞がれていた。
sudo ufw allow 7880:7881/tcp
で解決。音声ストリームメディアは WireGuard 経由で安全に通している。
7.2 音声が途切れる
faster-whisper が1采样ごとに処理していると、CPUが詰まる。対策として「音声のバッファを0.5秒ためてからまとめて推論」するキューイングを追加。これだけで途切れがほぼ消えた。
7.3 深夜の誤動作
夜22時以降は自動応答を「メッセージ預かり」モードに切り替えるルールを追加。「夜間対応は翌朝折り返し」という業務ルールを、システムに明示的に埋め込んだ。
8. セキュリティと個人情報
8.1 050番号の選び方
050番号は「個人のSIP番号」として利用されることが多い。事業で使う場合は、事業者名義で取得するか、業務委託契約 を結ぶ。
注意点:
SIP対応を明記しているプロバイダだけを選ぶ
音声通信の暗号化(TLS/SRTP)が必須
発信元番号を詐称されないよう、TwilioのA2P認証を取得する
8.2 通話ログの管理
AIが処理した通話の内容は、サーバー内にJSON形式で保存される。エンジニアリング上都合が良い反面、漏洩リスクがゼロではない。
僕の運用では:
通話ごとの 文字起こしは7日間だけ保持
予約情報(名前・電話番号)は暗号化してDB保存
ログは定期的に暗号化・アーカイブ
「個人情報の最小化」と「業務に必要な範囲だけ保存」を線引きしている。
8.3 システムの分離
4号機は事務所LAN内に置き、SSHは鍵認証のみ。外部から直接アクセスできるポートは、TwilioのWebhook(HTTPSのみ)に限定。Ansibleでプロビジョニングし、変更はGitで追跡する運用にしている。
9. 省エネと実運用コスト
機器: 消費電力 | 月額電気代
Mac mini M2 Pro: 約15W(平均) | 約160円
モニター: 約8W | 約90円
ネットワーク機器: 約5W | 約50円
Twilio 050番号: — | 550円
合計: 約28W | 約800円
実際は冷却やバックアップ分も含めて 月1,000円強 に落ち着いている。
10. 「これからどうするの?」という人へ
もし君が電話対応の自動化を始めたいなら、以下のステップをおすすめする。
Step 1:最小構成で試す(1時間)
brew install livekit-server ffmpegollama pull qwen3.5:4bpip install faster-whisper livekit-agents
LiveKit Server をローカル起動し、ブラウザから通話テストまでやる。音声が通ることを確認できたら、次にTwilio。
Step 2:050番号を取得(30分)
Twilio または ブラスパ(Brastel) でSIP番号を借りる。Web申し込み+身分証アップロードで、最短で即日発行される場合もある。
Step 3:通話ログを分析(1週間)
本番運用を始めたら、最初の1週間は全通話のログを精査する。
聞き間違いの多い表現
誤った予約の抽出
不自然な応答の拍子
これを洗い出して、プロンプトと言語モデルを改善する。
Step 4:運用を安定化(1ヶ月)
エラーハンドリング、夜間モード、障害時のフォールバックを追加。これで「実験」が「設備」になる。
11. 結論
Vapiは素晴らしいプロダクトだ。しかし「自分で全部持つ」選択肢が、2026年には現実的になった。
月額21,500円 → 1,550円
ブラックボックス → 全部自分のコード
ベンダー依存 → OSS標準
これが、5月に実際に起きたこと。**人類が電話を取らなくても、コミュニティは回る。**そのための道具が、今、手元にある。
12. 補足:OSSの先輩たちに感謝
このスタックを成立させたのは、無数のオープンソース開発者たちだ。
faster-whisper:Systran とコミュニティ
Qwen3.5 / Qwen3-TTS:Alibaba のオープンソース貢献
LiveKit:リアルタイムインフラをOSS化したチーム
Ollama:ローカルLLMを民主化したプロジェクト
彼らがいたおかげで、月2万円のサブスクリプションを切ることができた。
13. なぜ、今までこうならなかったのか?
この構成が可能であるにもかかわらず、なぜ今まで「企業に高額な電話システムを売り付ける」構造が続いてきたのか。
答えは簡単だ。儲かるからだ。
大手企業は、顧客を「囲い込み」、ロックインし、月額を徴収し続ける。仕組みを複雑にし、「専門家に任せるべき」という物語を作り上げる。顧客が自分たちでシステムを組めないように、ドキュメントを隠し、APIを支配し、互換性を奪う。
不便さは、利益の源泉だ。
「電話くらい自分でできる」という事実は、彼らの収入モデルを崩す。だからこそ、Vapiのような便利な道具が広まった後も、彼らは「クラウドの柔軟性」「専門的なサポート」「常に最新のモデル」といったセールストークで顧客を縛り続ける。実際、月2万円は高い。しかし「自分でやるなんて無理」という前提が、支払いを正当化してきた。
13.1 変わったもの
2025年から2026年にかけて、状況が一変した。
モデルがオープンソース化された。Qwen3.5、Qwen3-TTS、faster-whisper——どれも性能面で商用APIに引けを取らない。
ローカル推論が現実的になった。Apple SiliconのCPU/ANEで、リアルタイム通話が成立する。
WebRTCが標準になった。LiveKitのようなOSSが、ブラウザとサーバーの架け橋を無料で提供する。
もはや「企業に頼む理由」は「時間がない」「知識がない」くらいだ。
13.2 個人や小規模事業者こそ、自前を持つべきだ
大企業は数百億円の売上を守るために、自前主義を妨害する。
しかし、地方の移動支援事業、個人開業のクリニック、小規模なNPO——そうした組織には、月2万円のランニングは重い。予約1件あたりの利益が数百円である可能性を考えれば、電話代だけで事業が傾く。
オープンソースの時代において、「自前で持つ」は選択肢ではなく、生存戦略だ。
知識は無料で手に入る(ドキュメント、コミュニティ、GitHub)
マシンは数万円で買える(Mac mini M2 Proは10万円台)
コードは書ける人を雇えばいい(外注費は月数千円)
ランニングは月1,550円(050番号代だけ)
計算しないほうが異常だ。
13.3 結論2:電話は、誰かの利益のために不便になっている
2026年5月、僕が学んだことはこれだ。
電話受付の自動化は、技術的に可能である
にもかかわらず、多くの事業者が高額なクラウドサービスを契約し続けている
理由は「情報格差」と「ロックイン」によるものだ
不便さは、誰かの利益のために意図的に維持されている場合がある。
オープンソースと自分たちの手で、その仕組みを解き放つことができる。
月額1,550円の電話システムは、絵空事ではない。今、ここで動いている。
「電話対応はAIに任せる」2026年5月、その決断は、**コスト削減」ではなく「自立」への第一歩だった。
必要なのはコードを書く勇気と、550円の電話代だけだ。
付録:最少手順書
LiveKit Server 起動
docker compose up -d
faster-whisper テスト
from faster_whisper import WhisperModelmodel = WhisperModel(“large-v3”, device=“cpu”, compute_type=“int8”)segments, info = model.transcribe(“test.wav”)for seg in segments:print(f”[{seg.start:.1f}s→{seg.end:.1f}s] {seg.text}“)
Ollama 対話テスト
ollama run qwen3.5:4b
注意
ローカルLLMは検閲しない。プロンプトを工夫して、必要な範囲で安全に使う
050番号は事業者名義で取得する。個人名義は法規制の対象になる可能性あり
通話記録は7日間保存。これ以上は暗号化アーカイブ or 削除
「電話対応はAIに任せる」2026年5月、その言葉は絵空事ではなくなった。
必要なのはコードを書く勇気と、550円の電話代だけだ。
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nfc883a4f1d01