← Back to Home
note.com ·

暗黒ディープリサーチ——ローカルLLM8機種を実戦投入してわかったこと

暗黒ディープリサーチ——ローカルLLM8機種を実戦投入してわかったこと

暗黒ディープリサーチ——ローカルLLM8機種を実戦投入してわかったこと

出典: note.com / 2026-05-06

暗黒ディープリサーチ——ローカルLLMを実戦投入してわかったこと

AIが当たり前になった2026年。しかし「調べもの」のやり方は、実はまだ進化の途上にある。

今日、M1 Max 64GBのMacに積んだ8種類のローカルLLMで「X(旧Twitter)アカウント販売市場」のディープリサーチを走らせてみた。結果は——驚くべきものだった。

なぜローカルLLMでディープリサーチなのか

OpenAIやGoogleのAPIを使えば簡単だ。でも、それでは「自分で選んだモデルを、自分のマシンで、検閲なく」という条件が満たせない。

暗黒ディープリサーチ——これは、誰にも検閲されず、どのようなテーマでも深く掘り下げられる調査能力のことだ。Xのアカウント販売業者の生態系を調べるようなテーマは、クラウドAIだと「ポリシー違反」で止められる可能性が高い。だからローカルLLMが必要なのだ。

テストした8モデル

エントリーは以下の通り:

wasserstein-deep(26.9B, 17GB)—— 深層調査専用設計 qwen36-toolhead(34.7B, 21GB)—— ツール呼び出し特化 hauhau-Q8(26.9B, 31GB)—— Q8_0高精度量子化 qwen36-MoE(36B MoE, 23GB)—— 3倍高速の期待 qwen36-hauhau(26.9B, 17GB)—— HauhauCS無検閲 qwen36-ablit(27.8B, 17GB)—— Vision対応 hermes-head(26.9B, 16GB)—— Hermesエージェント用 Hauhau-MoE(35B MoE, 22GB)—— 完全無検閲

リサーチテーマは「Xアカウント販売市場」。実際に23の業者・プラットフォームを特定し、そのデータを全モデルに食わせて分析させた。

衝撃の結果:MoEモデルは研究に使えない

最も衝撃的だった発見——MoE(Mixture of Experts)モデルはディープリサーチに全く使えない。

qwen36-MoE(35B MoE)は28 tok/sと最速だった。しかし、出力はゼロ文字。全500トークンを内部の「思考モード」が消費し尽くし、実際の分析結果は一言も出力されなかった。

これは、これらのモデルが「考えることは得意だが、考えた結果を出力する前にトークン予算を使い切ってしまう」という構造的欠陥を抱えていることを意味する。研究用途では致命的だ。

勝者:wasserstein-deep

唯一まともに研究出力を出せたのがwasserstein-deep

このモデルはシステムプロンプトに「あなたは深層調査(Deep Search)に特化したAIエージェントです」と明記された専用設計。特筆すべきは思考効率の高さだ。他のモデルが350トークンを思考に浪費する中、wasserstein-deepはわずか1トークンで思考を完結し、残りを分析出力に回す。

実際の出力はこうだ:

Xアカウント販売市場の3層構造:

① 小売・ニッチ層:一般ユーザー向け、フォロワー数に応じた個別販売(¥650〜数十万円)

② 中堅・業務効率化層:中小企業向け、アカウントの「老齢化」と「認証情報の完全性」を重視

③ 卸売・プラットフォーム層:大量供給とエスクロー決済による信頼性担保

これを8.3 tok/sで出力。速度は遅いが、分析の深さは圧倒的だ。

2位は意外な伏兵

2位につけたのはqwen36-toolhead。34.7Bと大きいが、25.3 tok/sとwasserstein-deepの3倍の速度で、880文字の分析を出力した。

分析フレームワークは異なる——wassersteinの「B2C→SMB→Wholesale」に対し、toolheadは「Infra→Platform→Content」と技術志向。補完的に使えば強力なペアになる。

実用的な結論

今回の比較で明確になったこと:

1. ディープリサーチの本命は wasserstein-deep

深層調査専用設計は伊達ではない。分析の深さ・構造化能力・ビジネス視点で他を圧倒。

2. MoEモデルは研究用途では罠

3倍速くても出力ゼロでは意味がない。思考モードがトークン予算を食い尽くす構造的欠陥は、今後のモデル設計で改善されるべき課題だ。

3. 複数モデルの併用が最適解

質重視のwasserstein-deep + 速度重視のtoolhead。この2機体制で、調査の質と速度を両立できる。

今後の展望

ダウンロード中のClaude Opus 4.6蒸留版(Qwen 35B MoE)が期待される。もし思考モード問題を克服していれば、品質×速度の両立が可能になる。また、Grok-4のローカル展開も視野に入れている。

暗黒ディープリサーチ——これは単なるLLMベンチマークではない。検閲のない知のインフラを自分の手で構築する試みだ。今日の実験は、その最初の一歩に過ぎない。

使用機材: MacBook Pro M1 Max 64GB / Ollama / 全モデルQ4_K_M量子化(hauhau-Q8のみQ8_0) リサーチテーマ: X(旧Twitter)アカウント販売市場の構造分析(23業者調査) 生成AI: アイキャッチ画像はComfyUI + Pony V6で生成


この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n59659a268c54