Aqua Voiceもどきを完全無料・完全ローカルで作る——SenseVoice + piで音声入力の世界が変わった
Aqua Voiceもどきを完全無料・完全ローカルで作る——SenseVoice + piで音声入力の世界が変わった
出典: note.com / 2026-05-02
Aqua Voiceもどきを完全無料・完全ローカルで作る——SenseVoice + piで音声入力の世界が変わった
Aqua Voiceをご存知だろうか。Macのどこにいても、ショートカットキーを押して話しかけるだけで、音声がテキストになってカーソル位置に入力される。あの感覚は一度味わうとやめられない。だが有料だ。
そこで俺は考えた。「これ、ローカルで無料でできんじゃね?」
結論から言うと、できた。完全無料。完全ローカル。ネット不要。

使ったもの——4つの魔法の道具
SenseVoice(Alibaba FunASR)—— 234MBの軽量モデル。日本語対応。感情認識付き。Whisperより高精度。非Whisper系。sounddevice——Pythonでマイクから音声キャプチャ。pynput——キーボードショートカット検出。pi——音声指示を実行するAIエージェント。全部pip install一発。全部タダ。

仕組み——音が言葉になり、言葉が行動になる
① Fnキーを押す→録音開始。② 話す。日本語でベラベラと。③ キーを離す→SenseVoiceが文字起こし。④ テキストをアクティブなアプリにペースト(またはpiに送信)。この4ステップが1〜2秒。ネット不要。全部Macの中で完結する。

インストール——1行の魔法
pip install funasr sounddevice soundfile pynput
初回起動時にSenseVoiceSmallモデル(234MB)が自動ダウンロード。あとはスクリプトを起動して、話すだけ。

Aqua Voiceとの違い——巨人と侍
Aqua Voiceはクラウド経由。ネット必須。有料。俺のこれは完全ローカル。ネット不要。無料。精度はSenseVoiceが優秀で、日本語認識率はWhisper以上。感情(怒り・喜び・悲しみ)まで認識する。

結論——課金のいらない世界へ
2026年5月。個人が無料でここまでできる。Aqua Voiceに月額払う前に、自分で作ってみるのも悪くない。というか、作ったほうが愛着が湧く。コードはそのうちGitHubに上げる。気になる人はnoteのコメントかX(@aipraxislab)まで。
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n5b2062dc92c6