← Back to Home
note.com ·

電話予約受付のAIを完全自前で動かすまで——Vapiをやめた理由と、月額1,550円の代替スタック

電話予約受付のAIを完全自前で動かすまで——Vapiをやめた理由と、月額1,550円の代替スタック

電話予約受付のAIを完全自前で動かすまで——Vapiをやめた理由と、月額1,550円の代替スタック

出典: note.com / 2026-05-24

ある地方の移動支援事業で、電話による予約受付の自動化に取り組んできた。高齢化が進む地域で、買い物や通院の足を確保するためのサービスだ。これまではWebフォームと人力で受け付けていた予約を、AIに置き換える試みは2026年初頭に始まった。

最初に選んだのはVapi AIだった。APIを叩くだけで電話着信→音声認識→LLM応答→音声合成のフローが一発で組める。プロトタイプは数時間で動いた。ところが問題はその後だった。

なぜVapiをやめたか

Vapiには大きく三つの問題があった。

一つはコスト。音声認識にDeepgram、LLMにGPT-4.1-mini、音声合成にOpenAI TTSと、すべてのコンポーネントがAPI課金だった。電話1本あたりの従量課金に月額基本料が乗り、合計で月2万円を超えた。予約件数が増えれば増えるほどコストは膨らむ構造で、持続可能性に疑問があった。

二つ目は制御の限界。応答の微妙なニュアンスを調整したいとき、Vapiのダッシュボードからいじれる範囲には限りがある。音声認識の品質、LLMのプロンプト、応答速度のトレードオフ——すべてのレイヤーがブラックボックスに近かった。

三つ目はベンダーロックイン。APIが変われば追従するしかない。値上げも、仕様変更も、向こうの都合で決まる。持続的に運用する仕組みとしては不安が残った。

何に置き換えたか——完全ローカルOSSスタック

architecture flow

Vapiを全部剥がして、ローカルマシン一台に全てを押し込むことにした。

音声ストリーミングにはLiveKit ServerとLiveKit Agentsを採用した。WebRTCベースのオープンソースで、Pythonでエージェントを書ける。電話の着信から切断までのフローを、自分のコードで完全に制御できる。

音声認識はfaster-whisperのlarge-v3モデルだ。CTranslate2最適化版で、Apple Silicon上でも実用的な速度が出る。GPUを使わずCPU/ANE推論で回している。

対話の解析はOllamaで動かすQwen3.5 4Bに任せた。予約の意図理解と必要な情報の抽出が仕事だ。電話での受け答えには十分な性能で、ローカルで動くから応答のレイテンシも安定している。

音声合成はQwen3-TTS。日本語の韻律が自然なレベルに達していて、不自然なロボット声にはならない。同じくローカルマシンで動く。

電話回線だけはTwilioのSIPトランクを使う。050番号を月550円で借りて、そこからの着信をLiveKit Serverに流す構成だ。

どのぐらい安くなったか

cost comparison

Vapiを使っていた頃の月額は約21,500円だった。内訳はVapiの基本料とAPI使用量、Deepgram、OpenAI、Twilioの合計。

新しい構成の月額は1,550円。Twilioの電話番号代550円と、マシンの電気代約1,000円だけだ。すべてのAIコンポーネントはOSSで、ローカルで動くから追加の課金は一切発生しない。

月2万円の削減——この差額をより強力なマシンへの投資に回せば、実質負担ゼロで応答品質の向上が狙える。現行のマシンでも問題なく動いているが、より大きなモデルを載せたいという余裕も生まれた。

完全自営の効能

コストだけが利点ではない。すべてのロジックを自分のコードで書けるようになったことで、チューニングの自由度が桁違いに上がった。応答の声色、予約情報の抽出精度、エラーハンドリング——気になる部分はすべて自分で直せる。Vapiのダッシュボードに依存していた頃には考えられなかったことだ。

さらに、月2万のランニングが月1,550円になったことで、このシステムを「実験」ではなく「インフラ」として考えられるようになった。予約件数が増えてもコストはほぼ変わらない。スケールする設計に変わった。

移行の実際

移行は段階的に進めた。Vapiを生かしたまま、ローカルマシンでLiveKitスタックを並行開発する。テスト着信で精度を確認し、問題なければTwilioの転送先をVapiからLiveKitに切り替える。最後にVapiを停止する——ただそれだけだ。

しばらくは両方のログを比較しながら、見落としがないかを確認する期間を設けた。予約情報の抽出漏れ、音声認識の誤り、応答の不自然さ——そうしたチェックを一通り終えてから本番に移した。

なぜ今、ローカルなのか

一年前には考えられなかった選択だ。ローカルLLMと言えば精度が追いつかないのが常識だった。ところが2025年から2026年にかけて、Qwen3.5レベルの小型モデルが実用的な日本語性能を獲得し、faster-whisperの最適化がApple Siliconを現実的な選択肢に変えた。Qwen3-TTSの登場で音声合成までローカルで揃うようになった。

OSSの進化が、API依存のアーキテクチャを逆転させたと言える。クラウドAPIではなく、手元のマシン一台で電話予約のAIが動く。そんな時代に入っている。

予約システムの自動化はまだ始まったばかりだ。電話受付が落ち着いたら、運転手への通知、複数予約の経路最適化、定期便の自動処理——やることは山ほどある。だが、月額1,550円のインフラの上でなら、それらの実験も気軽に積み上げていける。


この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n92e611e0e117