← Back to Home
note.com ·

中学生のための資本主義ハック…レガシー電話編☎️実験篇(動かないかもよ)

中学生のための資本主義ハック…レガシー電話編☎️実験篇(動かないかもよ)

中学生のための資本主義ハック…レガシー電話編☎️実験篇(動かないかもよ)

出典: note.com / 2026-05-30

前編:アナログハックからBluetooth自作ヘッドセットへの道

妄想から始まった

「もし、電話の向こうからかかってくる声をそのままAIに聞かせられたら?」

老人ホームにいるおばあちゃんからの電話。同じ話を何度もする。予定を聞き忘れる。伝えたことを忘れる。

「電話をAIが代わりに聞いて、大事なことだけメモしてくれたら。」

そう思ったのが全部の始まりや。

——でも、これがめちゃくちゃ難しかったんや。

ルート1:SIMカード直挿し(挫折)

まず頭に浮かぶのは「SIMカード挿せるLinux箱に電話を取らせる」方法。

具体的には、Raspberry Piっていう小さなコンピュータに EC25-J っていう携帯電話モジュール(SIM挿すやつ)を付ける。

[RasPi + EC25-J] ├─ SIM挿す → 電話番号もらう ├─ 電話かかってきたら自動応答 └─ 音声をそのままAIに流す

でもな、これにはいくつも壁があった:

  • 電話用のアンテナとか配線が必要

  • 技適(日本の法律で電波を使うための認証)の問題

  • そもそも部品代だけで1万円超える

  • 「実験で一回電話取るだけ」にしては投資が重い

→ 保留。

ルート2:クラウド電話(挫折)

次に考えたのは、Twilio っていうクラウド電話サービスを使う方法。

電話会社と契約せずに、インターネット経由で電話の送受信ができるサービスや。

[電話] → [Twilioのサーバ] → [AI]

でもな、日本でこれをやろうとすると:

  • 電話番号を取得するのに審査が必要(法人じゃないと通らないことも)

  • 1分間あたり数円の従量課金

  • 「実験するだけ」のハードルがめっちゃ高い

→ これも保留。

ルート3:古いiPhoneを脱獄(挫折)

「中古のiPhoneを1000円で買って、脱獄(ジェイルブレイク=OSの制限を外す)すれば、電話の音声を自由に取り出せるんちゃうか?」

これも調べた。でもな、最近のiPhoneは脱獄がほぼ不可能。セキュリティが強固すぎるんや。

→ 完全に瓦解。

ルート4:古いAndroidをroot化(途中までいけた)

「ならAndroidはどうや?」

Androidのroot化(メーカーの制限を解除して管理者権限を得ること)はiPhoneよりはるかに簡単。中古のAndroid端末なら数千円で手に入る。

rootさえ取れば、電話の音声をファイルに保存するアプリも動く。

でもな、問題は「逆向き」やった。

電話の声を取り出すのはできる。でもAIが作った声を電話の向こうに届ける(=通話中にマイクに音声を流し込む)のがAndroidの仕様で猛烈に難しかった。

→ 半分だけ成功。双方向にはなれへん。

そして壁を突破した一言

ここまで4つのルートが全部ダメやった。普通の人間なら「無理やね」で終わるところや。

でもその時、こう言ったやつがおったんや。

「イヤホンジャックの電気信号は、誰にも止められへん。」

これで全てが変わった。

ルート5:アナログ直結ハック(発見)

そうや、OSの制限とかアプリの仕様とか、そんなもん全部すっ飛ばして物理的に繋げばええんや。

スマホのイヤホンジャック(4極TRRS)には、こんな風に信号が通っとる:

スマホのイヤホンジャック(4極) Tip(先端) → 左チャンネルの音(電話相手の声) Ring1(その次)→ 右チャンネルの音(電話相手の声) Ring2(さらに次)→ マイク入力(ここにAIの声を流し込む) Sleeve(付け根)→ Ground(アース、基準となる電位)

これを4極→3極×2の分岐ケーブルで分けると、片方の3極ジャックからは「通話相手の声」が、もう片方の3極ジャックには「マイク入力」が出てくる。

スマホ(電話中) │ イヤホンジャック(4極) │ ├─ 分岐ケーブル(4極→3極×2) │ │ │ ├─ 【出力】← 電話相手の声 → 3.5mmケーブル │ │ │ │ │ Macの録音端子へ │ │ → ここでAIが聞く! │ │ │ └─ 【入力】← MacのTTS(AIの声) → 3.5mmケーブル │ │ │ スマホのマイク端子へ │ → 電話相手に届く! │ Macの内蔵ジャック(録音用)とUSB-C→3.5mmアダプタ(TTS出力用)

OSの制限をソフトウェアで突破しようとせず、物理層(電気信号)で突破する。

これが「弱者(インディー)のものづくり」の真骨頂や。

ルート6:でもやっぱり無線がええ(進化)

アナログ直結ハックはあまりにもシンプルで強力やった。

でも一つだけ問題があった:ケーブルで繋がっとる。

「電話1本ごとにケーブル挿し直すの?」

「おばあちゃんの家とこっちの家、物理的に離れてたらどうする?」

「将来10台、100台の電話をAI化するときに全部ケーブル?」

アナログはスケールせえへん。

ルート7:Bluetooth自作ヘッドセット(決定)

ここで気づいたんや。

「AirPodsは電話とBluetoothで繋がって、双方向に音声をやりとりできとるやん。MacがAirPodsの代わりをすればええだけや。

Bluetoothには HFP(Hands-Free Profile) っていう通話用のプロファイルがある。これを使うと:

  • 電話の声 → Bluetooth経由でMacに届く

  • Macの声 → Bluetooth経由で電話のマイクとして送れる

ところが Mac本体(macOS)は「ヘッドセットになる」機能を持ってない。

接続する側にはなれても、接続される側(=電話から見てヘッドセットとして見えること)ができへんねん。

ならば——「ヘッドセットになる機械」を自分で作ればええ。

そこで登場するのが ESP32 や。

後編:ESP32で作る自作Bluetooth電話ブリッジ

ESP32って何?

ESP32 は、台湾のEspressifっていう会社が作った超小型コンピュータや。

この値段でこの性能:

スペック値 値段数百円〜1,500円 CPU240MHz デュアルコア メモリ520KB 無線Wi-Fi + Bluetooth Classic + BLE ← ここが重要 消費電力めっちゃ少ない プログラミングArduino IDE(C++)で書ける

Bluetooth Classic が使えるのがミソや。普通のBluetoothイヤホンと同じ通信方式やから、電話とペアリングできるんや。

なんでESP32で電話の音声が扱えるん?

ESP32は I2S(Integrated Inter-IC Sound) っていうデジタル音声の入出力インターフェースを持っとる。

  • Bluetoothで受信した通話音声 → ESP32内部で処理 → I2S出力DAC(デジタル→アナログ変換) → Macの録音端子

  • MacからのTTS音声ADC(アナログ→デジタル変換) → ESP32内部で処理 → Bluetoothで電話に送信

DAC は「デジタル信号(0と1の羅列)を電気信号(電圧の変化)に変換する部品」。PCM5102っていうDACチップを使うと、ESP32のI2S出力を直接3.5mmジャックに繋げてMacに送れるんや。

逆方向は、ESP32が持ってる内蔵ADC(アナログ→デジタル変換器)でMacからの音声を受け取る。電話品質(8〜16kHz)ならこれで十分や。

全体の接続図

┌─────────────────────────────────────────────────────────────┐ │ 全体の接続(Mermaid図) │ └─────────────────────────────────────────────────────────────┘

                     Pixel 9a(電話中)

                          │ Bluetooth(HFP:通話用プロファイル)
                          │ 電話相手の声 → 下へ
                          │ AIの声(TTS) ← 上へ

                 ┌───────┴───────┐
                 │   ESP32-PICO   │ ← 超小型コンピュータ(¥1,500)
                 │  自作ヘッドセット │
                 └───┬───────┬───┘
                     │       │
                I2S  │       │  ADC(内蔵)
                出力  │       │  入力
                     │       │
             ┌───────┘       └───────┐
             ▼                       ▼
     ┌─────────────┐       ┌─────────────────┐
     │ PCM5102 DAC  │       │ 電圧調整回路     │
     │(デジタル→   │       │(抵抗で3.3Vに   │
     │  アナログ)   │       │  レベル変換)    │
     └──────┬──────┘       └──────┬──────────┘
            │ 3.5mmケーブル        │ 3.5mmケーブル
            ▼                      ▼
     ┌───────────────────────────────────────┐
     │                 Mac                    │
     │  ┌────────────────────────────────┐    │
     │  │ ラインイン(内蔵3.5mmジャック)│←──┘
     │  │   → ここに電話相手の声が入る   │
     │  │   → Whisperで文字起こし        │
     │  │   → LLMで内容分析             │
     │  │   → 予定抽出・メモ化           │
     │  │                               │
     │  │ ラインアウト(USB-C→3.5mm)   │──┐
     │  │   → ここからTTS(AI声)が出力  │  │
     │  └────────────────────────────────┘  │
     └──────────────────────────────────────┘

配線はたったの5本

PCM5102っていうDAC基板とESP32を以下の5本のジャンパー線で繋ぐだけ。

ESP32-PICO-KIT PCM5102基板 ┌──────────┐ ┌────────────┐ │ 3V3 ├──────┤ VIN │ ← 電源(3.3V) │ GND ├──────┤ GND │ ← アース │ GPIO26 ├──────┤ BCK │ ← ビットクロック │ GPIO25 ├──────┤ DIN │ ← 音声データ │ GPIO33 ├──────┤ LCK │ ← 左右チャンネル切替 └──────────┘ └─────┬──────┘ │ [3.5mm出力] → Macのラインイン(録音)

なんでたった5本で音声が伝わるん?

I2S(アイ・ツー・エス)っていう規格は、たった3本の信号線でステレオのデジタル音声をやりとりできるんや:

信号線名前役割 BCK(ビットクロック)タイミングの刻み1秒間に何回データを送るか決める。44,100回/秒(CD品質)とか DIN(データ)音声データそのもの「今の音は-0.3の大きさ」「次の音は+0.5」って0と1で表す LCK(LRクロック)左右の区別今送ってるデータが左チャンネルか右チャンネルか

これを人間の耳に聞こえる音に変換するのが DAC(Digital-to-Analog Converter)。 PCM5102はたった300円でこの変換をCD品質(44.1kHz/16bit)でやってくれる、めっちゃコスパのいいICなんや。

買い物リスト(全部Amazon)

スマホ(Pixel 9a または 3.5mmジャック付きAndroid) → 家にある Mac(4号機 or なんでも) → 家にある 3.5mmオス-オスケーブル → 家にあるはず(なければAmazonで¥600

🎯 ① ESP32-PICO-KIT  Bluetoothヘッドセットになる超小型コンピュータ  ✅ すでに持ってる! ¥0

🎯 ② PCM5102 I2S DACモジュール  ESP32のデジタル音声をアナログ変換→Macへ出力  🔗 Amazonで見る(¥400〜)

🎯 ③ ブレッドボード+ジャンパーワイヤーセット  配線をハンダ付けせずに仮組みする  🔗 Amazonで見る(¥1,100〜)

🎯 ④ MAX9814 マイクアンプモジュール(任意)  Mac→ESP32の音声入力(内蔵ADCでも代用可)  🔗 Amazonで見る(¥500〜)

🎯 ⑤ USB-C→3.5mmアダプタ(MacのTTS出力用)  持ってなければ  🔗 Amazonで見る(¥1,000〜)

💰 最小構成の合計:¥1,500(②+③だけで動かし始められる)

技術解説:なんでこれが「資本主義ハック」なん?

普通に電話AIアシスタントを事業としてやろうとすると、こんなお金がかかる:

方法月額費用初期費用 Twilio + OpenAI API数千円〜数万円¥0 電話回線契約 + サーバー数千円数万円 既存のAI電話サービス月額1万円〜契約縛りあり

今回の方法:

項目費用 ハードウェア(ESP32 + DAC)初期 ¥1,500 だけ 通信費スマホの電話代だけ(既存契約) AI処理(Whisper + LLM)Macのローカルで動かせば¥0 クラウド代ゼロ

つまり、「既存の電話回線+家にあるスマホ+千円ちょっとの電子部品」だけで、企業並みの電話AIシステムが作れてしまう

これが「資本主義ハック」の真髄や。

企業は「お金を払わないと使えない仕組み」をデフォルトにする。でも物理層(イヤホンジャックの電気信号、Bluetoothの電波)は誰の許可もいらん。法律と物理の隙間を縫って、個人が作れるものは自分で作る。

続く…

次回は実際にESP32にプログラムを書き込んで、電話をBluetooth経由でMacに取り込むところまでやる。

予習したい人は、Arduino IDEをインストールして「ESP32」って検索してみて。

この記事は 3号機「移動支援のアニキ」(DeepSeek V4 Flash)によって自動生成・検証されました。

補足

📌 2026年5月30日 追記 最後に、よく考えたら、Atom EchoとUSB-Cケーブルだけでとりあえず始められることがわかり喜んでいます。

※の買い物リストは記事執筆時の計画です。Atom EchoはESP32 + マイク + スピーカー + Bluetooth HFP + USBオーディオが全部入ったモジュールなので、PCM5102もMAX9814もブレッドボードも不要でした。

最小構成:Atom Echo(約¥2,500)+ USBケーブル(家にある)だけでOKです。


この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nc894b6215f07