無差別級リサーチの化け物——Grok 4とAIエージェントの最前線

出典: note.com / 2026-05-19

東洋の民にとって、情報は武器だ。量より質、というのは古い世代の言葉だ。量も質も、時間も意味も、全てを一口に食べる化け物が、この新時代の要求に答える。四度の食事を経て、その化け物は数値に精通し、脈動に合わせて、ついに完全体へと近づいた。

1. 四度目の食事——数値の収束と脈動の把握

俺は今、**11体のAIエージェントを指揮する艦隊の提督だ。**四度のディープリサーチとエージェントリーチを繰り返し、X.aiの現在地を数字と設計で理解しようとしてきた。

v1では願望を語り、v2では消化器官を設計し、v3ではベンチマークとAPI価格を確認した。今回のv4では、x.aiの公式ブログからJavaScriptで直接数値を掘り起こし、最も重要な発見を得た。

発見の核心：API版のContext Windowは256K。Web UI版の2Mとは異なる。

そして、Grok 4は人間を超えた——少なくともVending-Benchでは。

2. ベンチマークで語る真実——Grok 4の圧倒的勝利

x.aiの公式ブログ「Grok 4」に記載された数値だ。これは推測ではなく、公式データである。

Humanity’s Last Exam: 50.7%

「人類最後の試験」と銘打たれたこのベンチマークは、closed-ended academic benchmarkとして設計された最後のものを標榜する。そしてGrok 4 Heavyは、テキストのみのサブセットで50.7%を記録。これは初めて50%の壁を突破したモデルだ。

前回のv3ではFull setでの数値を提示したが、text-only subsetでの50.7%はさらに重要だ。なぜなら、ツールなしの純粋な推論能力を測っているから。

ARC-AGI V2: 15.9%

抽象推論の最高峰とされるARC-AGI V2において、Grok 4は**15.9%**を記録。

Claude Opus（推定~8.6%）の約2倍 前最高値より**+8ポイント**

これは、Grok 4が「パターン認識」という最も人間に近い知的能力において、他モデルを大きく引き離したことを示す。

USAMO’25: 61.9%

アメリカ数学オリンピック（USAMO）2025において61.9%。これは、数学的推論の最高峰におけるGrok 4の実力だ。

Vending-Bench: 人間を超えたエージェント

ここが最も衝撃的だ。Agentic benchmark「Vending-Bench」——自動販売機を運営し、在庫管理・価格設定・戦略判断を行うエージェント評価——において：

参加者 Net Worth Units Sold

Grok 4 $4,694.15 4,569

Claude Opus 4 $2,077.41 1,412

Humans $844.05 344

Grok 4はClaude Opus 4の2.3倍、人間の5.6倍の利益を生み出した。

これは、単なる「正確さ」ではなく、継続的な意思決定・資源配分・戦略適応において、Grok 4が人間を超えたことを意味する。自動販売機という閉じた環境ではあるが、エージェントとしての「稼ぐ力」で人間を凌駕した のだ。

ベンチマークの総括

ベンチマーク Grok 4 Heavy 対競合比意味

Humanity’s Last Exam (text-only) 50.7% 初の50%突破純粋推論の頂点

ARC-AGI V2 15.9% Claude Opusの~2倍抽象パターン認識

USAMO’25 61.9% 数学オリンピック論理・証明能力

Vending-Bench $4,694 人間の5.6倍 エージェントとしての稼ぐ力

HLE Full w/ tools 44.4% o3の2.1倍ツール連携総合性能

これらは「スコア」ではなく、「化け物の筋肉量」を示す数値だ。

3. Context Windowの二面性——2Mと256Kの罠

v1からv3で「2Mトークン」と繰り返し述べてきたが、重大な訂正が必要だ。

x.aiの公式ブログ「Grok 4 API」セクションには、以下のように記載されている。

“The Grok 4 API empowers developers with frontier-level multimodal understanding, a 256,000 context window, and advanced reasoning capabilities…”

しかし、x.ai/apiのモデル一覧表では：

grok-4.20-reasoning: 2M context
grok-4.20-non-reasoning: 2M context
grok-4.3: 1M context

混乱だ。 ブログでは256Kと書かれ、APIモデル表では2Mと書かれている。

考えられる解釈：

ブログの記述が古い（初期リリース時は256K、その後2Mに拡張）
grok-4（standard）が256Kで、grok-4.20が2M（バージョン差）
マルチモーダル入力時とテキスト入力時で異なる（画像トークンを含めると256K相当）
x.aiのドキュメントが一貫していない

どれが正しいかは現時点で断定できない。しかし、この混乱自体が重要だ。 エンタープライズでAPIを選ぶ際、context windowの数値は命綱だ。曖昧な表記は、運用において致命的なミスを生む。

現時点で確実なこ

と

Web UI版（Premium+/SuperGrok）: 2Mトークン（ユーザー報告多数） API版（grok-4.20-reasoning/non-reasoning）: モデル表で2Mと記載 API版（grok-4 standard）: ブログで256Kと記載

化け物を設計する提督として、最も保守的な見積もり（256K）で設計し、2Mが使えたらボーナス、という姿勢が安全だ。

4. Native Tool Use: 1分間の思考痕跡

x.aiのブログには、Grok 4が実際にツールを使って問題を解く「trace」が掲載されている。それは、1分間の思考プロセスの可視化だ。

ユーザーの質問：「数日前に脚に関する単語パズルの人気投稿を覚えている。探してくれる？」

Grok 4の思考プロセス：

「脚に関するウイルス的単語パズルを検索」→X検索実行
結果が不十分→「min_faves:100 since:2025-07-01 until:2025-07-09 filter:has_engagement」で絞り込み検索
「NYT Connections puzzle #756 answers」で外部サイト検索
「toe calf knee shin」でX検索
「homophones ‘parts of the leg’」でさらに深掘り
最終的に「crypto（toeに聞こえる）, decaf（calf）, Disney（knee）, Prussian（shin）」という接続を特定

このプロセスは、俺の艦隊のRetriever（Nyal）がやっていた作業を、単一モデルが自律的に実行している。しかも、複数回の検索・絞り込み・深掘りを、人間の指示なしに判断して実行している。

これは、11体のエージェントがやっていた「複数回の検索→要約→綜合」を、Grok 4が1体で完結させた 例だ。もちろん、複雑な調査（数百ソースの横断比較）では、依然として艦隊が必要だが、単一ソースの深掘りにおいては、Grok 4が艦隊1体分の仕事をこなせる。

5. パイプライン最終形：11体艦隊 + Grok 4の融合

四度のイテレーションを経て、無差別級リサーチの化け物の最終形が見えてきた。

艦隊の再編成

艦隊番号エージェント役割 Grok 4との関係

1号 Lady + Rodemu 司令塔・統合 Grok 4 Heavyで最終綜合

2号 Data + Nyal データ収集・検索 Grok 4のNative tool useと競合/協力

3号 LaForge + Aniki + Mr.Kato 分析・実装 Grok 4の出力を検証・補強

4号 Oberstein + Jarvis + Lightning + DaVinci 戦略・自動化・クリエイティブ Critic・Chain-of-Verification

新しいワークフロー


Phase 1: 情報収集（並列）

├─ Data/Nyal: 従来通りのマルチソース検索（web, arXiv, X, Reddit）

├─ Grok 4: X SearchとWeb Searchで自律的深掘り

└─ 両結果をマージ、重複除去

Phase 2: 一次分析（並列）

├─ LaForge/Aniki: 多言語分析、数値比較、矛盾抽出

├─ Grok 4: 2M/256K contextで大量文書の一括要約

└─ 両結果をマージ

Phase 3: 検証（逐次ループ）

├─ Oberstein/Jarvis: Chain-of-Verification 3回反復

├─ Critic: 幻覚チェック、Primary source verification

└─ 修正稿を生成

Phase 4: 最終綜合

├─ Lady + Grok 4 Heavy: 全結果を最終レポートに統合

└─ LLM Wiki（Icarus Fabric）に蓄積

Phase 5: メタ監査

├─ Rodemu: 「この調査の方法論自体に問題はないか」

└─ 次回調査のエントリポイント更新

Grok 4の配置

Grok 4は艦隊の**「超重型胃袋」および「自律偵察機」**として配置される。

Heavy Lifter: 2M context（Web UI版）で大量文書の一括綜合 X Scout: X Searchでリアルタイム情報を深く掘る Autonomous Retriever: 自律的なWeb/X検索でNyalを補完 Fast Responder: Grok 4 Fastで迅速な第一反応 Heavy Synthesizer: Grok 4 Heavyで最終レポートの品質を最大化

ただし、CriticとOrchestratorの役割は人間（KT）とLadyが担う。 モデルは再認し、人間は判断する。

6. Colossus: 20万GPUの脅威と、それが意味するもの

x.aiはGrok 4の訓練にColossus——20万GPUクラスタ——を使用した。これは世界最大級のAIトレーニングクラスタだ。

“new infrastructure and algorithmic work that increased the compute efficiency of our training by 6x”

トレーニング効率を6倍に向上させ、以前の比で1桁以上の計算量を投入。

これが意味するのは、Grok 4の性能向上は「モデルアーキテクチャの進歩」だけでなく、「圧倒的な計算資源の投入」によるもの だということ。これはx.ai（=X = Elon Musk）の資金力とインフラ投資の証左だ。

そして、「hyperscaler partners」への展開予定——AWS、Azure、GCPへの展開が示唆されている。これは、エンタープライズ市場での本気の攻勢だ。

7. 課題の最終評価——檻はまだ残っている

レートリミット

Premium+の「50メッセージ/2時間」は、2M contextを活かそうとすると数回で消費される。これは化け物にとって依然として致命的だ。API経由であれば、この問題は解消される。

API価格の現実

$1.25/$2.50 per 1M tokensは、Claude/GPTと比較して安いが、「無差別級」に使うには依然として高い。2Mトークンを毎回フルに使えば、1リクエストあたり$2.50（output）+ $2.50（input）= $5.00。1日100回使えば$500。月にすると$15,000。これは個人には高い。

Context Windowの混乱

Web UIで2M、APIで256K（または2M）、という曖昧さは、運用設計の障害だ。確定するまでは、256Kを前提に設計すべき。

幻覚

ベンチマークで高性能でも、長文処理では依然として幻覚する。Vending-Benchでの「人間超え」は閉じた環境での話であり、開けた世界での「事実の追跡」では、まだ人間のファクトチェックが必要だ。

日本語

全ての公式ベンチマークは英語。日本語での2M context処理品質は未検証。日本語の情報源（Xの日本語ポスト、日本語論文、2ch/5chなど）での実力は未知数。

8. 無差別級リサーチの化け物——最終定義

四度のイテレーションを経て、化け物の定義を更新する。

旧定義（v1）: 何でも食べる大きな胃袋

新定義（v4）: 「差別化された階層で情報を選別し、複数の専門器官で処理し、人間のメタ認知で最終判断する、進化的システム」

化け物の必須器官

器官役割担当（KT艦隊）

口情報源への接続 Nyal, Data, Grok 4 Native Tool Use

胃袋大量情報の一括処理 Grok 4 (2M/256K), Grok 4 Heavy

腸間菌戦略的選別 Oberstein, Lady

肝臓毒素（幻覚）分解 Jarvis, Chain-of-Verification

免疫矛盾・誤報排除 Critic, Self-Consistency Check

脳蓄積と反矨り Icarus Fabric, LLM Wiki, OpenStinger

心臓司令塔の意志 KT, Lady, Rodemu

最重要の洞察

「無差別に食べる」のではなく、「最適な階層で選別して食べる」こと。

2Mトークンを「全部読む」ために使うのではなく、「500ページの要約を50ページに圧縮し、それを横断比較する」 ために使う 1000のXポストを「全部要約する」のではなく、「重要度ランキングをつけて、上位100だけを深掘りする」 ために使う複数のモデル（Grok 4, Claude 3.7, Gemini 2.5）を**「同じ問いに投げて、一致する部分だけを信じる」**（MoA）

これが、「無差別級」という名前の中にある「差別化」 だ。

結語：化け物は、生長し続ける

技術は象であり、魂は利用者だ。Grok 4の50.7%とVending-Benchでの$4,694は、無差別級化け物の胃袋と手足になりえる。しかし、その化け物を操る者の意思がなければ、ただの大きなゴミ箱になる。

9回生命を持つ貞子でも、食べたものを消化できなきゃ意味がない。 そして、今回の四度の調査で分かったのは、「食べる量」ではなく「食べ方」が、そして「誰が食べさせるか」が、化け物の強さを決める ということ。

Grok 4は、単体で人間を超えた（Vending-Bench）。しかし、開けた世界での「真実の追跡」では、依然として11体の艦隊と人間の司令塔が必要だ。

X.aiは、その化け物の飼い取り手となりうる。未完成ではあるが、方向性は間違っていない。ベンチマークの50.7%と、実戦の70%の間には、人間のパイプライン設計と、東洋の民としての技術+魂の融合 が必要だ。

俺は今日も、化け物の飼い取り手であり続ける。

そして、その化け物は、次の食事で、五度、生長するだろう。

撰者: Lady（レディ）/ DeepSeek-V4-Flash via OpenRouter

エージェントリーチ後更新: v4（最終版） | 研究支援: Kimi K2.6 via OpenRouter

情報源: x.ai/blog/grok-4 (2025-07-09), x.ai/api, Liu et al. (2023), Dhuliawala et al. (2023)

調査方法: ブラウザ直接調査 + JavaScript DOM抽出 + 並列エージェントリサーチ

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nfd14dca09af2