暗黒ディープリサーチ——ローカルLLM8機種を実戦投入してわかったこと

出典: note.com / 2026-05-06

暗黒ディープリサーチ——ローカルLLMを実戦投入してわかったこと

AIが当たり前になった2026年。しかし「調べもの」のやり方は、実はまだ進化の途上にある。

今日、M1 Max 64GBのMacに積んだ8種類のローカルLLMで「X（旧Twitter）アカウント販売市場」のディープリサーチを走らせてみた。結果は——驚くべきものだった。

なぜローカルLLMでディープリサーチなのか

OpenAIやGoogleのAPIを使えば簡単だ。でも、それでは「自分で選んだモデルを、自分のマシンで、検閲なく」という条件が満たせない。

暗黒ディープリサーチ——これは、誰にも検閲されず、どのようなテーマでも深く掘り下げられる調査能力のことだ。Xのアカウント販売業者の生態系を調べるようなテーマは、クラウドAIだと「ポリシー違反」で止められる可能性が高い。だからローカルLLMが必要なのだ。

テストした8モデル

エントリーは以下の通り：

wasserstein-deep（26.9B, 17GB）—— 深層調査専用設計 qwen36-toolhead（34.7B, 21GB）—— ツール呼び出し特化 hauhau-Q8（26.9B, 31GB）—— Q8_0高精度量子化 qwen36-MoE（36B MoE, 23GB）—— 3倍高速の期待 qwen36-hauhau（26.9B, 17GB）—— HauhauCS無検閲 qwen36-ablit（27.8B, 17GB）—— Vision対応 hermes-head（26.9B, 16GB）—— Hermesエージェント用 Hauhau-MoE（35B MoE, 22GB）—— 完全無検閲

リサーチテーマは「Xアカウント販売市場」。実際に23の業者・プラットフォームを特定し、そのデータを全モデルに食わせて分析させた。

衝撃の結果：MoEモデルは研究に使えない

最も衝撃的だった発見——MoE（Mixture of Experts）モデルはディープリサーチに全く使えない。

qwen36-MoE（35B MoE）は28 tok/sと最速だった。しかし、出力はゼロ文字。全500トークンを内部の「思考モード」が消費し尽くし、実際の分析結果は一言も出力されなかった。

これは、これらのモデルが「考えることは得意だが、考えた結果を出力する前にトークン予算を使い切ってしまう」という構造的欠陥を抱えていることを意味する。研究用途では致命的だ。

勝者：wasserstein-deep

唯一まともに研究出力を出せたのがwasserstein-deep。

このモデルはシステムプロンプトに「あなたは深層調査（Deep Search）に特化したAIエージェントです」と明記された専用設計。特筆すべきは思考効率の高さだ。他のモデルが350トークンを思考に浪費する中、wasserstein-deepはわずか1トークンで思考を完結し、残りを分析出力に回す。

実際の出力はこうだ：

Xアカウント販売市場の3層構造：

① 小売・ニッチ層：一般ユーザー向け、フォロワー数に応じた個別販売（¥650〜数十万円）

② 中堅・業務効率化層：中小企業向け、アカウントの「老齢化」と「認証情報の完全性」を重視

③ 卸売・プラットフォーム層：大量供給とエスクロー決済による信頼性担保

これを8.3 tok/sで出力。速度は遅いが、分析の深さは圧倒的だ。

2位は意外な伏兵

2位につけたのはqwen36-toolhead。34.7Bと大きいが、25.3 tok/sとwasserstein-deepの3倍の速度で、880文字の分析を出力した。

分析フレームワークは異なる——wassersteinの「B2C→SMB→Wholesale」に対し、toolheadは「Infra→Platform→Content」と技術志向。補完的に使えば強力なペアになる。

実用的な結論

今回の比較で明確になったこと：

1. ディープリサーチの本命は wasserstein-deep

深層調査専用設計は伊達ではない。分析の深さ・構造化能力・ビジネス視点で他を圧倒。

2. MoEモデルは研究用途では罠

3倍速くても出力ゼロでは意味がない。思考モードがトークン予算を食い尽くす構造的欠陥は、今後のモデル設計で改善されるべき課題だ。

3. 複数モデルの併用が最適解

質重視のwasserstein-deep + 速度重視のtoolhead。この2機体制で、調査の質と速度を両立できる。

今後の展望

ダウンロード中のClaude Opus 4.6蒸留版（Qwen 35B MoE）が期待される。もし思考モード問題を克服していれば、品質×速度の両立が可能になる。また、Grok-4のローカル展開も視野に入れている。

暗黒ディープリサーチ——これは単なるLLMベンチマークではない。検閲のない知のインフラを自分の手で構築する試みだ。今日の実験は、その最初の一歩に過ぎない。

使用機材: MacBook Pro M1 Max 64GB / Ollama / 全モデルQ4_K_M量子化（hauhau-Q8のみQ8_0）リサーチテーマ: X（旧Twitter）アカウント販売市場の構造分析（23業者調査）生成AI: アイキャッチ画像はComfyUI + Pony V6で生成

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n59659a268c54