2026年、電話対応はもう人類の仕事じゃない…電話格闘血風録

出典: note.com / 2026-06-01

──中高生でも1時間で作れるAI電話自動化──

僕が実際に1ヶ月間、電話の向こうと格闘して得た結論を、技術資料として完全公開する。

1. なぜ電話なのか

ある地方の移動支援事業で、予約受付の電話が1日20本〜30本鳴るようになった。高齢の利用者が多く、Webフォームの入力は難しい。「ボタンひとつで電話する」以外の選択肢が、彼らには存在しない。

最初は人間が受話器を取っていた。しかしシフトの夜間、昼休み、人手不足……「ここを自動化したい」は、誰もが一度は通る道だ。

2026年の今、その答えはすでに存在する。

2. 最初の選択──Vapi AI との出会い

最初に選んだのは Vapi AI だった。「APIを叩くだけで電話着信→音声認識→LLM応答→音声合成」のフローが全部入り。プロトタイプは数時間で動いた。「これで解決する」と思った。

2.1 Vapi で見えた光

ブラウザだけで音声通話のテストができる

LLMのプロンプトはダッシュボードから編集可能

通話ログが自動で保存される

ナレッジが SOP（記事）が追加される

デモとしては十分だった。しかし実運用に入ると、三つの壁が立ちはだかった。

3. 三つの壁

壁①：コスト

Vapiの請求額を見て、目を疑った。

項目: 月額

Vapi 基本料: 約4,000円

Deepgram（音声認識）: 約3,000円

GPT-4.1-mini（LLM応答）: 約9,000円

OpenAI TTS（音声合成）: 約5,000円

合計: 約21,500円

「電話1本あたり何円？」と計算すると、通話1分で約15〜20円。1日30本、1本3分の通話で、月に約27,000円にも達する計算だ。

壁②：ブラックボックス化

Vapiのダッシュボードから触れる範囲には、限りがある。

音声認識の誤りを改善したい → モデル変更くらいしかできない

応答の口調を変えたい → プロンプト調整だけ

応答速度を上げたい → サーバー地域を変えるくらい

細かいところまで手が届かない。「ここを直したい」が、実装レベルで叶わないストレスが蓄積した。

壁③：ベンダーロックイン

向こうの都合で仕様が変わる。値上げのリスク。APIが廃止されたら、全部作り直し。

「実験」としては十分でも、「設備」として運用するには不安が残った。

4. 決断──全部、自分で持つ

2026年5月、Vapiを完全に停止した。TwilioのSIPトランク（050番号）を、直接自分のマシン（4号機）に流す構成に切り替えた。

以降、月額はこうなった。

項目: 月額

Twilio 050番号: 550円

Macの電気代: 約1,000円

合計: 1,550円

**月20,000円の固定費が消えた。**しかも「使えば使うほど得」という逆転構造になった。

5. 新しいスタック

レイヤー: 使った技術 | 種別

電話回線: Twilio SIP Trunk | クラウド（最小限）

WebRTCサーバー: LiveKit Server | OSS

エージェント制御: LiveKit Agents | OSS

音声認識（STT）: faster-whisper large-v3 | OSS・ローカル

対話解析（LLM）: Qwen3.5 4B（Ollama） | OSS・ローカル

音声合成（TTS）: Qwen3-TTS | OSS・ローカル

**クラウド依存はTwilio（電話番号だけ）に絞った。**AI部分は全部、手元のMac mini（M2 Pro）で動いている。

6. 技術的に抑えるポイント

6.1 faster-whisper の最適化

Whisperのオープンソース版 faster-whisper は、CTranslate2エンジンで高速化されている。モデルサイズは large-v3 で、日本語の誤認識率が劇的に低い。

pip install faster-whisper

from faster_whisper import WhisperModelmodel = WhisperModel(“large-v3”, device=“cpu”, compute_type=“int8”)

M2 Proでは1秒あたり約0.3リアルタイム倍率。つまり 3秒の音声が10秒で処理 される。リアルタイム通話には十分だ。

6.2 Ollama × Qwen3.5 4B

ollama pull qwen3.5:4b

通話の「意図理解」は、この4Bモデルで十分に動く。「予約したい」「キャンセルしたい」「時間を変更したい」という分類と、日付・時間・人数の抽出は、Prompt一発で安定する。

import ollamaresponse = ollama.chat(model=“qwen3.5:4b”,messages=[{“role”: “user”, “content”: transcript}])

6.3 Qwen3-TTS の採用

日本語TTSでは、Qwen3-TTSが自然さと速度のバランスが最も良い。

女性らしい自然な声

方言や抑揚の学習が進んでいる

ローカル実行でレイテンシ500ms以下

LiveKit Agents の TTS フックに組み込むだけで、通話が成立する。

7. 実際に直面した問題と解決

7.1 「電話が鳴らない」問題

最初、TwilioSIP→LiveKitへの着信が届かなかった。原因は NATの扱い だった。

LiveKit Server は Docker Compose で動かしていたが、ポート 7880〜7881 がUFWで塞がれていた。

sudo ufw allow 7880:7881/tcp

で解決。音声ストリームメディアは WireGuard 経由で安全に通している。

7.2 音声が途切れる

faster-whisper が1采样ごとに処理していると、CPUが詰まる。対策として「音声のバッファを0.5秒ためてからまとめて推論」するキューイングを追加。これだけで途切れがほぼ消えた。

7.3 深夜の誤動作

夜22時以降は自動応答を「メッセージ預かり」モードに切り替えるルールを追加。「夜間対応は翌朝折り返し」という業務ルールを、システムに明示的に埋め込んだ。

8. セキュリティと個人情報

8.1 050番号の選び方

050番号は「個人のSIP番号」として利用されることが多い。事業で使う場合は、事業者名義で取得するか、業務委託契約 を結ぶ。

注意点：

SIP対応を明記しているプロバイダだけを選ぶ

音声通信の暗号化（TLS/SRTP）が必須

発信元番号を詐称されないよう、TwilioのA2P認証を取得する

8.2 通話ログの管理

AIが処理した通話の内容は、サーバー内にJSON形式で保存される。エンジニアリング上都合が良い反面、漏洩リスクがゼロではない。

僕の運用では：

通話ごとの 文字起こしは7日間だけ保持

予約情報（名前・電話番号）は暗号化してDB保存

ログは定期的に暗号化・アーカイブ

「個人情報の最小化」と「業務に必要な範囲だけ保存」を線引きしている。

8.3 システムの分離

4号機は事務所LAN内に置き、SSHは鍵認証のみ。外部から直接アクセスできるポートは、TwilioのWebhook（HTTPSのみ）に限定。Ansibleでプロビジョニングし、変更はGitで追跡する運用にしている。

9. 省エネと実運用コスト

機器: 消費電力 | 月額電気代

Mac mini M2 Pro: 約15W（平均） | 約160円

モニター: 約8W | 約90円

ネットワーク機器: 約5W | 約50円

Twilio 050番号: — | 550円

合計: 約28W | 約800円

実際は冷却やバックアップ分も含めて 月1,000円強 に落ち着いている。

10. 「これからどうするの？」という人へ

もし君が電話対応の自動化を始めたいなら、以下のステップをおすすめする。

Step 1：最小構成で試す（1時間）

brew install livekit-server ffmpegollama pull qwen3.5:4bpip install faster-whisper livekit-agents

LiveKit Server をローカル起動し、ブラウザから通話テストまでやる。音声が通ることを確認できたら、次にTwilio。

Step 2：050番号を取得（30分）

Twilio またはブラスパ（Brastel）でSIP番号を借りる。Web申し込み＋身分証アップロードで、最短で即日発行される場合もある。

Step 3：通話ログを分析（1週間）

本番運用を始めたら、最初の1週間は全通話のログを精査する。

聞き間違いの多い表現

誤った予約の抽出

不自然な応答の拍子

これを洗い出して、プロンプトと言語モデルを改善する。

Step 4：運用を安定化（1ヶ月）

エラーハンドリング、夜間モード、障害時のフォールバックを追加。これで「実験」が「設備」になる。

11. 結論

Vapiは素晴らしいプロダクトだ。しかし「自分で全部持つ」選択肢が、2026年には現実的になった。

月額21,500円 → 1,550円

ブラックボックス → 全部自分のコード

ベンダー依存 → OSS標準

これが、5月に実際に起きたこと。**人類が電話を取らなくても、コミュニティは回る。**そのための道具が、今、手元にある。

12. 補足：OSSの先輩たちに感謝

このスタックを成立させたのは、無数のオープンソース開発者たちだ。

faster-whisper：Systran とコミュニティ

Qwen3.5 / Qwen3-TTS：Alibaba のオープンソース貢献

LiveKit：リアルタイムインフラをOSS化したチーム

Ollama：ローカルLLMを民主化したプロジェクト

彼らがいたおかげで、月2万円のサブスクリプションを切ることができた。

13. なぜ、今までこうならなかったのか？

この構成が可能であるにもかかわらず、なぜ今まで「企業に高額な電話システムを売り付ける」構造が続いてきたのか。

答えは簡単だ。儲かるからだ。

大手企業は、顧客を「囲い込み」、ロックインし、月額を徴収し続ける。仕組みを複雑にし、「専門家に任せるべき」という物語を作り上げる。顧客が自分たちでシステムを組めないように、ドキュメントを隠し、APIを支配し、互換性を奪う。

不便さは、利益の源泉だ。

「電話くらい自分でできる」という事実は、彼らの収入モデルを崩す。だからこそ、Vapiのような便利な道具が広まった後も、彼らは「クラウドの柔軟性」「専門的なサポート」「常に最新のモデル」といったセールストークで顧客を縛り続ける。実際、月2万円は高い。しかし「自分でやるなんて無理」という前提が、支払いを正当化してきた。

13.1 変わったもの

2025年から2026年にかけて、状況が一変した。

モデルがオープンソース化された。Qwen3.5、Qwen3-TTS、faster-whisper——どれも性能面で商用APIに引けを取らない。

ローカル推論が現実的になった。Apple SiliconのCPU/ANEで、リアルタイム通話が成立する。

WebRTCが標準になった。LiveKitのようなOSSが、ブラウザとサーバーの架け橋を無料で提供する。

もはや「企業に頼む理由」は「時間がない」「知識がない」くらいだ。

13.2 個人や小規模事業者こそ、自前を持つべきだ

大企業は数百億円の売上を守るために、自前主義を妨害する。

しかし、地方の移動支援事業、個人開業のクリニック、小規模なNPO——そうした組織には、月2万円のランニングは重い。予約1件あたりの利益が数百円である可能性を考えれば、電話代だけで事業が傾く。

オープンソースの時代において、「自前で持つ」は選択肢ではなく、生存戦略だ。

知識は無料で手に入る（ドキュメント、コミュニティ、GitHub）

マシンは数万円で買える（Mac mini M2 Proは10万円台）

コードは書ける人を雇えばいい（外注費は月数千円）

ランニングは月1,550円（050番号代だけ）

計算しないほうが異常だ。

13.3 結論2：電話は、誰かの利益のために不便になっている

2026年5月、僕が学んだことはこれだ。

電話受付の自動化は、技術的に可能である

にもかかわらず、多くの事業者が高額なクラウドサービスを契約し続けている

理由は「情報格差」と「ロックイン」によるものだ

不便さは、誰かの利益のために意図的に維持されている場合がある。

オープンソースと自分たちの手で、その仕組みを解き放つことができる。

月額1,550円の電話システムは、絵空事ではない。今、ここで動いている。

「電話対応はAIに任せる」2026年5月、その決断は、**コスト削減」ではなく「自立」への第一歩だった。

必要なのはコードを書く勇気と、550円の電話代だけだ。

付録：最少手順書

LiveKit Server 起動

docker compose up -d

faster-whisper テスト

from faster_whisper import WhisperModelmodel = WhisperModel(“large-v3”, device=“cpu”, compute_type=“int8”)segments, info = model.transcribe(“test.wav”)for seg in segments:print(f”[{seg.start:.1f}s→{seg.end:.1f}s] {seg.text}“)

Ollama 対話テスト

ollama run qwen3.5:4b

注意

ローカルLLMは検閲しない。プロンプトを工夫して、必要な範囲で安全に使う

050番号は事業者名義で取得する。個人名義は法規制の対象になる可能性あり

通話記録は7日間保存。これ以上は暗号化アーカイブ or 削除

「電話対応はAIに任せる」2026年5月、その言葉は絵空事ではなくなった。

必要なのはコードを書く勇気と、550円の電話代だけだ。

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nfc883a4f1d01