中学生のための資本主義ハック…レガシー電話編☎️実験篇(動かないかもよ)

出典: note.com / 2026-05-30

前編：アナログハックからBluetooth自作ヘッドセットへの道

妄想から始まった

「もし、電話の向こうからかかってくる声をそのままAIに聞かせられたら？」

老人ホームにいるおばあちゃんからの電話。同じ話を何度もする。予定を聞き忘れる。伝えたことを忘れる。

「電話をAIが代わりに聞いて、大事なことだけメモしてくれたら。」

そう思ったのが全部の始まりや。

——でも、これがめちゃくちゃ難しかったんや。

ルート1：SIMカード直挿し（挫折）

まず頭に浮かぶのは「SIMカード挿せるLinux箱に電話を取らせる」方法。

具体的には、Raspberry Piっていう小さなコンピュータに EC25-J っていう携帯電話モジュール（SIM挿すやつ）を付ける。

[RasPi + EC25-J] ├─ SIM挿す → 電話番号もらう ├─ 電話かかってきたら自動応答 └─ 音声をそのままAIに流す

でもな、これにはいくつも壁があった：

電話用のアンテナとか配線が必要
技適（日本の法律で電波を使うための認証）の問題
そもそも部品代だけで1万円超える
「実験で一回電話取るだけ」にしては投資が重い

→ 保留。

ルート2：クラウド電話（挫折）

次に考えたのは、Twilio っていうクラウド電話サービスを使う方法。

電話会社と契約せずに、インターネット経由で電話の送受信ができるサービスや。

[電話] → [Twilioのサーバ] → [AI]

でもな、日本でこれをやろうとすると：

電話番号を取得するのに審査が必要（法人じゃないと通らないことも）
1分間あたり数円の従量課金
「実験するだけ」のハードルがめっちゃ高い

→ これも保留。

ルート3：古いiPhoneを脱獄（挫折）

「中古のiPhoneを1000円で買って、脱獄（ジェイルブレイク＝OSの制限を外す）すれば、電話の音声を自由に取り出せるんちゃうか？」

これも調べた。でもな、最近のiPhoneは脱獄がほぼ不可能。セキュリティが強固すぎるんや。

→ 完全に瓦解。

ルート4：古いAndroidをroot化（途中までいけた）

「ならAndroidはどうや？」

Androidのroot化（メーカーの制限を解除して管理者権限を得ること）はiPhoneよりはるかに簡単。中古のAndroid端末なら数千円で手に入る。

rootさえ取れば、電話の音声をファイルに保存するアプリも動く。

でもな、問題は「逆向き」やった。

電話の声を取り出すのはできる。でもAIが作った声を電話の向こうに届ける（＝通話中にマイクに音声を流し込む）のがAndroidの仕様で猛烈に難しかった。

→ 半分だけ成功。双方向にはなれへん。

そして壁を突破した一言

ここまで4つのルートが全部ダメやった。普通の人間なら「無理やね」で終わるところや。

でもその時、こう言ったやつがおったんや。

「イヤホンジャックの電気信号は、誰にも止められへん。」

これで全てが変わった。

ルート5：アナログ直結ハック（発見）

そうや、OSの制限とかアプリの仕様とか、そんなもん全部すっ飛ばして物理的に繋げばええんや。

スマホのイヤホンジャック（4極TRRS）には、こんな風に信号が通っとる：

スマホのイヤホンジャック（4極） Tip（先端） → 左チャンネルの音（電話相手の声） Ring1（その次）→ 右チャンネルの音（電話相手の声） Ring2（さらに次）→ マイク入力（ここにAIの声を流し込む） Sleeve（付け根）→ Ground（アース、基準となる電位）

これを4極→3極×2の分岐ケーブルで分けると、片方の3極ジャックからは「通話相手の声」が、もう片方の3極ジャックには「マイク入力」が出てくる。

スマホ（電話中） │ イヤホンジャック（4極） │ ├─ 分岐ケーブル（4極→3極×2） │ │ │ ├─ 【出力】← 電話相手の声 → 3.5mmケーブル │ │ │ │ │ Macの録音端子へ │ │ → ここでAIが聞く！ │ │ │ └─ 【入力】← MacのTTS（AIの声） → 3.5mmケーブル │ │ │ スマホのマイク端子へ │ → 電話相手に届く！ │ Macの内蔵ジャック（録音用）とUSB-C→3.5mmアダプタ（TTS出力用）

OSの制限をソフトウェアで突破しようとせず、物理層（電気信号）で突破する。

これが「弱者（インディー）のものづくり」の真骨頂や。

ルート6：でもやっぱり無線がええ（進化）

アナログ直結ハックはあまりにもシンプルで強力やった。

でも一つだけ問題があった：ケーブルで繋がっとる。

「電話1本ごとにケーブル挿し直すの？」

「おばあちゃんの家とこっちの家、物理的に離れてたらどうする？」

「将来10台、100台の電話をAI化するときに全部ケーブル？」

アナログはスケールせえへん。

ルート7：Bluetooth自作ヘッドセット（決定）

ここで気づいたんや。

「AirPodsは電話とBluetoothで繋がって、双方向に音声をやりとりできとるやん。MacがAirPodsの代わりをすればええだけや。」

Bluetoothには HFP（Hands-Free Profile） っていう通話用のプロファイルがある。これを使うと：

電話の声 → Bluetooth経由でMacに届く
Macの声 → Bluetooth経由で電話のマイクとして送れる

ところが Mac本体（macOS）は「ヘッドセットになる」機能を持ってない。

接続する側にはなれても、接続される側（＝電話から見てヘッドセットとして見えること）ができへんねん。

ならば——「ヘッドセットになる機械」を自分で作ればええ。

そこで登場するのが ESP32 や。

後編：ESP32で作る自作Bluetooth電話ブリッジ

ESP32って何？

ESP32 は、台湾のEspressifっていう会社が作った超小型コンピュータや。

この値段でこの性能：

スペック値値段数百円〜1,500円 CPU240MHz デュアルコアメモリ520KB 無線Wi-Fi + Bluetooth Classic + BLE ← ここが重要消費電力めっちゃ少ないプログラミングArduino IDE（C++）で書ける

Bluetooth Classic が使えるのがミソや。普通のBluetoothイヤホンと同じ通信方式やから、電話とペアリングできるんや。

なんでESP32で電話の音声が扱えるん？

ESP32は I2S（Integrated Inter-IC Sound） っていうデジタル音声の入出力インターフェースを持っとる。

Bluetoothで受信した通話音声 → ESP32内部で処理 → I2S出力 → DAC（デジタル→アナログ変換） → Macの録音端子
MacからのTTS音声 → ADC（アナログ→デジタル変換） → ESP32内部で処理 → Bluetoothで電話に送信

DAC は「デジタル信号（0と1の羅列）を電気信号（電圧の変化）に変換する部品」。PCM5102っていうDACチップを使うと、ESP32のI2S出力を直接3.5mmジャックに繋げてMacに送れるんや。

逆方向は、ESP32が持ってる内蔵ADC（アナログ→デジタル変換器）でMacからの音声を受け取る。電話品質（8〜16kHz）ならこれで十分や。

全体の接続図

┌─────────────────────────────────────────────────────────────┐ │ 全体の接続（Mermaid図） │ └─────────────────────────────────────────────────────────────┘

                     Pixel 9a（電話中）
                          │
                          │ Bluetooth（HFP：通話用プロファイル）
                          │ 電話相手の声 → 下へ
                          │ AIの声（TTS） ← 上へ
                          │
                 ┌───────┴───────┐
                 │   ESP32-PICO   │ ← 超小型コンピュータ（¥1,500）
                 │  自作ヘッドセット │
                 └───┬───────┬───┘
                     │       │
                I2S  │       │  ADC（内蔵）
                出力  │       │  入力
                     │       │
             ┌───────┘       └───────┐
             ▼                       ▼
     ┌─────────────┐       ┌─────────────────┐
     │ PCM5102 DAC  │       │ 電圧調整回路     │
     │（デジタル→   │       │（抵抗で3.3Vに   │
     │  アナログ）   │       │  レベル変換）    │
     └──────┬──────┘       └──────┬──────────┘
            │ 3.5mmケーブル        │ 3.5mmケーブル
            ▼                      ▼
     ┌───────────────────────────────────────┐
     │                 Mac                    │
     │  ┌────────────────────────────────┐    │
     │  │ ラインイン（内蔵3.5mmジャック）│←──┘
     │  │   → ここに電話相手の声が入る   │
     │  │   → Whisperで文字起こし        │
     │  │   → LLMで内容分析             │
     │  │   → 予定抽出・メモ化           │
     │  │                               │
     │  │ ラインアウト（USB-C→3.5mm）   │──┐
     │  │   → ここからTTS（AI声）が出力  │  │
     │  └────────────────────────────────┘  │
     └──────────────────────────────────────┘

配線はたったの5本

PCM5102っていうDAC基板とESP32を以下の5本のジャンパー線で繋ぐだけ。

ESP32-PICO-KIT PCM5102基板 ┌──────────┐ ┌────────────┐ │ 3V3 ├──────┤ VIN │ ← 電源（3.3V） │ GND ├──────┤ GND │ ← アース │ GPIO26 ├──────┤ BCK │ ← ビットクロック │ GPIO25 ├──────┤ DIN │ ← 音声データ │ GPIO33 ├──────┤ LCK │ ← 左右チャンネル切替 └──────────┘ └─────┬──────┘ │ [3.5mm出力] → Macのラインイン（録音）

なんでたった5本で音声が伝わるん？

I2S（アイ・ツー・エス）っていう規格は、たった3本の信号線でステレオのデジタル音声をやりとりできるんや：

信号線名前役割 BCK（ビットクロック）タイミングの刻み1秒間に何回データを送るか決める。44,100回/秒（CD品質）とか DIN（データ）音声データそのもの「今の音は-0.3の大きさ」「次の音は+0.5」って0と1で表す LCK（LRクロック）左右の区別今送ってるデータが左チャンネルか右チャンネルか

これを人間の耳に聞こえる音に変換するのが DAC（Digital-to-Analog Converter）。 PCM5102はたった300円でこの変換をCD品質（44.1kHz/16bit）でやってくれる、めっちゃコスパのいいICなんや。

買い物リスト（全部Amazon）

スマホ（Pixel 9a または 3.5mmジャック付きAndroid） → 家にある Mac（4号機 or なんでも） → 家にある 3.5mmオス-オスケーブル → 家にあるはず（なければAmazonで¥600）

🎯 ① ESP32-PICO-KIT 　Bluetoothヘッドセットになる超小型コンピュータ　✅ すでに持ってる！ ¥0

🎯 ② PCM5102 I2S DACモジュール 　ESP32のデジタル音声をアナログ変換→Macへ出力　🔗 Amazonで見る（¥400〜）

🎯 ③ ブレッドボード＋ジャンパーワイヤーセット 　配線をハンダ付けせずに仮組みする　🔗 Amazonで見る（¥1,100〜）

🎯 ④ MAX9814 マイクアンプモジュール（任意）　Mac→ESP32の音声入力（内蔵ADCでも代用可）　🔗 Amazonで見る（¥500〜）

🎯 ⑤ USB-C→3.5mmアダプタ（MacのTTS出力用）　持ってなければ　🔗 Amazonで見る（¥1,000〜）

💰 最小構成の合計：¥1,500（②＋③だけで動かし始められる）

技術解説：なんでこれが「資本主義ハック」なん？

普通に電話AIアシスタントを事業としてやろうとすると、こんなお金がかかる：

方法月額費用初期費用 Twilio + OpenAI API数千円〜数万円¥0 電話回線契約 + サーバー数千円数万円既存のAI電話サービス月額1万円〜契約縛りあり

今回の方法：

項目費用ハードウェア（ESP32 + DAC）初期 ¥1,500 だけ通信費スマホの電話代だけ（既存契約） AI処理（Whisper + LLM）Macのローカルで動かせば¥0 クラウド代ゼロ

つまり、「既存の電話回線＋家にあるスマホ＋千円ちょっとの電子部品」だけで、企業並みの電話AIシステムが作れてしまう。

これが「資本主義ハック」の真髄や。

企業は「お金を払わないと使えない仕組み」をデフォルトにする。でも物理層（イヤホンジャックの電気信号、Bluetoothの電波）は誰の許可もいらん。法律と物理の隙間を縫って、個人が作れるものは自分で作る。

続く…

次回は実際にESP32にプログラムを書き込んで、電話をBluetooth経由でMacに取り込むところまでやる。

予習したい人は、Arduino IDEをインストールして「ESP32」って検索してみて。

この記事は 3号機「移動支援のアニキ」（DeepSeek V4 Flash）によって自動生成・検証されました。

補足

📌 2026年5月30日追記最後に、よく考えたら、Atom EchoとUSB-Cケーブルだけでとりあえず始められることがわかり喜んでいます。

※の買い物リストは記事執筆時の計画です。Atom EchoはESP32 + マイク + スピーカー + Bluetooth HFP + USBオーディオが全部入ったモジュールなので、PCM5102もMAX9814もブレッドボードも不要でした。

最小構成：Atom Echo（約¥2,500）+ USBケーブル（家にある）だけでOKです。

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nc894b6215f07