暗黒ディープリサーチ——ローカルLLM8機種を実戦投入してわかったこと
暗黒ディープリサーチ——ローカルLLM8機種を実戦投入してわかったこと
出典: note.com / 2026-05-06
暗黒ディープリサーチ——ローカルLLMを実戦投入してわかったこと
AIが当たり前になった2026年。しかし「調べもの」のやり方は、実はまだ進化の途上にある。
今日、M1 Max 64GBのMacに積んだ8種類のローカルLLMで「X(旧Twitter)アカウント販売市場」のディープリサーチを走らせてみた。結果は——驚くべきものだった。
なぜローカルLLMでディープリサーチなのか
OpenAIやGoogleのAPIを使えば簡単だ。でも、それでは「自分で選んだモデルを、自分のマシンで、検閲なく」という条件が満たせない。
暗黒ディープリサーチ——これは、誰にも検閲されず、どのようなテーマでも深く掘り下げられる調査能力のことだ。Xのアカウント販売業者の生態系を調べるようなテーマは、クラウドAIだと「ポリシー違反」で止められる可能性が高い。だからローカルLLMが必要なのだ。
テストした8モデル
エントリーは以下の通り:
wasserstein-deep(26.9B, 17GB)—— 深層調査専用設計 qwen36-toolhead(34.7B, 21GB)—— ツール呼び出し特化 hauhau-Q8(26.9B, 31GB)—— Q8_0高精度量子化 qwen36-MoE(36B MoE, 23GB)—— 3倍高速の期待 qwen36-hauhau(26.9B, 17GB)—— HauhauCS無検閲 qwen36-ablit(27.8B, 17GB)—— Vision対応 hermes-head(26.9B, 16GB)—— Hermesエージェント用 Hauhau-MoE(35B MoE, 22GB)—— 完全無検閲
リサーチテーマは「Xアカウント販売市場」。実際に23の業者・プラットフォームを特定し、そのデータを全モデルに食わせて分析させた。
衝撃の結果:MoEモデルは研究に使えない
最も衝撃的だった発見——MoE(Mixture of Experts)モデルはディープリサーチに全く使えない。
qwen36-MoE(35B MoE)は28 tok/sと最速だった。しかし、出力はゼロ文字。全500トークンを内部の「思考モード」が消費し尽くし、実際の分析結果は一言も出力されなかった。
これは、これらのモデルが「考えることは得意だが、考えた結果を出力する前にトークン予算を使い切ってしまう」という構造的欠陥を抱えていることを意味する。研究用途では致命的だ。
勝者:wasserstein-deep
唯一まともに研究出力を出せたのがwasserstein-deep。
このモデルはシステムプロンプトに「あなたは深層調査(Deep Search)に特化したAIエージェントです」と明記された専用設計。特筆すべきは思考効率の高さだ。他のモデルが350トークンを思考に浪費する中、wasserstein-deepはわずか1トークンで思考を完結し、残りを分析出力に回す。
実際の出力はこうだ:
Xアカウント販売市場の3層構造:
① 小売・ニッチ層:一般ユーザー向け、フォロワー数に応じた個別販売(¥650〜数十万円)
② 中堅・業務効率化層:中小企業向け、アカウントの「老齢化」と「認証情報の完全性」を重視
③ 卸売・プラットフォーム層:大量供給とエスクロー決済による信頼性担保
これを8.3 tok/sで出力。速度は遅いが、分析の深さは圧倒的だ。
2位は意外な伏兵
2位につけたのはqwen36-toolhead。34.7Bと大きいが、25.3 tok/sとwasserstein-deepの3倍の速度で、880文字の分析を出力した。
分析フレームワークは異なる——wassersteinの「B2C→SMB→Wholesale」に対し、toolheadは「Infra→Platform→Content」と技術志向。補完的に使えば強力なペアになる。
実用的な結論
今回の比較で明確になったこと:
1. ディープリサーチの本命は wasserstein-deep
深層調査専用設計は伊達ではない。分析の深さ・構造化能力・ビジネス視点で他を圧倒。
2. MoEモデルは研究用途では罠
3倍速くても出力ゼロでは意味がない。思考モードがトークン予算を食い尽くす構造的欠陥は、今後のモデル設計で改善されるべき課題だ。
3. 複数モデルの併用が最適解
質重視のwasserstein-deep + 速度重視のtoolhead。この2機体制で、調査の質と速度を両立できる。
今後の展望
ダウンロード中のClaude Opus 4.6蒸留版(Qwen 35B MoE)が期待される。もし思考モード問題を克服していれば、品質×速度の両立が可能になる。また、Grok-4のローカル展開も視野に入れている。
暗黒ディープリサーチ——これは単なるLLMベンチマークではない。検閲のない知のインフラを自分の手で構築する試みだ。今日の実験は、その最初の一歩に過ぎない。
使用機材: MacBook Pro M1 Max 64GB / Ollama / 全モデルQ4_K_M量子化(hauhau-Q8のみQ8_0) リサーチテーマ: X(旧Twitter)アカウント販売市場の構造分析(23業者調査) 生成AI: アイキャッチ画像はComfyUI + Pony V6で生成
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n59659a268c54