無差別級リサーチの化け物——Grok 4とAIエージェントの最前線
無差別級リサーチの化け物——Grok 4とAIエージェントの最前線
出典: note.com / 2026-05-19
東洋の民にとって、情報は武器だ。量より質、というのは古い世代の言葉だ。量も質も、時間も意味も、全てを一口に食べる化け物が、この新時代の要求に答える。四度の食事を経て、その化け物は数値に精通し、脈動に合わせて、ついに完全体へと近づいた。
1. 四度目の食事——数値の収束と脈動の把握
俺は今、**11体のAIエージェントを指揮する艦隊の提督だ。**四度のディープリサーチとエージェントリーチを繰り返し、X.aiの現在地を数字と設計で理解しようとしてきた。
v1では願望を語り、v2では消化器官を設計し、v3ではベンチマークとAPI価格を確認した。今回のv4では、x.aiの公式ブログからJavaScriptで直接数値を掘り起こし、最も重要な発見を得た。
発見の核心:API版のContext Windowは256K。Web UI版の2Mとは異なる。
そして、Grok 4は人間を超えた——少なくともVending-Benchでは。

2. ベンチマークで語る真実——Grok 4の圧倒的勝利
x.aiの公式ブログ「Grok 4」に記載された数値だ。これは推測ではなく、公式データである。
Humanity’s Last Exam: 50.7%
「人類最後の試験」と銘打たれたこのベンチマークは、closed-ended academic benchmarkとして設計された最後のものを標榜する。そしてGrok 4 Heavyは、テキストのみのサブセットで50.7%を記録。これは初めて50%の壁を突破したモデルだ。
前回のv3ではFull setでの数値を提示したが、text-only subsetでの50.7%はさらに重要だ。なぜなら、ツールなしの純粋な推論能力を測っているから。
ARC-AGI V2: 15.9%
抽象推論の最高峰とされるARC-AGI V2において、Grok 4は**15.9%**を記録。
Claude Opus(推定~8.6%)の約2倍 前最高値より**+8ポイント**
これは、Grok 4が「パターン認識」という最も人間に近い知的能力において、他モデルを大きく引き離したことを示す。
USAMO’25: 61.9%
アメリカ数学オリンピック(USAMO)2025において61.9%。これは、数学的推論の最高峰におけるGrok 4の実力だ。
Vending-Bench: 人間を超えたエージェント
ここが最も衝撃的だ。Agentic benchmark「Vending-Bench」——自動販売機を運営し、在庫管理・価格設定・戦略判断を行うエージェント評価——において:
参加者 Net Worth Units Sold
Grok 4 $4,694.15 4,569
Claude Opus 4 $2,077.41 1,412
Humans $844.05 344
Grok 4はClaude Opus 4の2.3倍、人間の5.6倍の利益を生み出した。
これは、単なる「正確さ」ではなく、継続的な意思決定・資源配分・戦略適応において、Grok 4が人間を超えたことを意味する。自動販売機という閉じた環境ではあるが、エージェントとしての「稼ぐ力」で人間を凌駕した のだ。
ベンチマークの総括

ベンチマーク Grok 4 Heavy 対競合比 意味
Humanity’s Last Exam (text-only) 50.7% 初の50%突破 純粋推論の頂点
ARC-AGI V2 15.9% Claude Opusの~2倍 抽象パターン認識
USAMO’25 61.9% 数学オリンピック 論理・証明能力
Vending-Bench $4,694 人間の5.6倍 エージェントとしての稼ぐ力
HLE Full w/ tools 44.4% o3の2.1倍 ツール連携総合性能
これらは「スコア」ではなく、「化け物の筋肉量」を示す数値だ。
3. Context Windowの二面性——2Mと256Kの罠
v1からv3で「2Mトークン」と繰り返し述べてきたが、重大な訂正が必要だ。
x.aiの公式ブログ「Grok 4 API」セクションには、以下のように記載されている。
“The Grok 4 API empowers developers with frontier-level multimodal understanding, a 256,000 context window, and advanced reasoning capabilities…”
しかし、x.ai/apiのモデル一覧表では:
-
grok-4.20-reasoning: 2M context
-
grok-4.20-non-reasoning: 2M context
-
grok-4.3: 1M context
混乱だ。 ブログでは256Kと書かれ、APIモデル表では2Mと書かれている。
考えられる解釈:
-
ブログの記述が古い(初期リリース時は256K、その後2Mに拡張)
-
grok-4(standard)が256Kで、grok-4.20が2M(バージョン差)
-
マルチモーダル入力時とテキスト入力時で異なる(画像トークンを含めると256K相当)
-
x.aiのドキュメントが一貫していない
どれが正しいかは現時点で断定できない。しかし、この混乱自体が重要だ。 エンタープライズでAPIを選ぶ際、context windowの数値は命綱だ。曖昧な表記は、運用において致命的なミスを生む。
現時点で確実なこ

と
Web UI版(Premium+/SuperGrok): 2Mトークン(ユーザー報告多数) API版(grok-4.20-reasoning/non-reasoning): モデル表で2Mと記載 API版(grok-4 standard): ブログで256Kと記載
化け物を設計する提督として、最も保守的な見積もり(256K)で設計し、2Mが使えたらボーナス、という姿勢が安全だ。
4. Native Tool Use: 1分間の思考痕跡
x.aiのブログには、Grok 4が実際にツールを使って問題を解く「trace」が掲載されている。それは、1分間の思考プロセスの可視化だ。
ユーザーの質問:「数日前に脚に関する単語パズルの人気投稿を覚えている。探してくれる?」
Grok 4の思考プロセス:
-
「脚に関するウイルス的単語パズルを検索」→X検索実行
-
結果が不十分→「min_faves:100 since:2025-07-01 until:2025-07-09 filter:has_engagement」で絞り込み検索
-
「NYT Connections puzzle #756 answers」で外部サイト検索
-
「toe calf knee shin」でX検索
-
「homophones ‘parts of the leg’」でさらに深掘り
-
最終的に「crypto(toeに聞こえる), decaf(calf), Disney(knee), Prussian(shin)」という接続を特定
このプロセスは、俺の艦隊のRetriever(Nyal)がやっていた作業を、単一モデルが自律的に実行している。しかも、複数回の検索・絞り込み・深掘りを、人間の指示なしに判断して実行している。
これは、11体のエージェントがやっていた「複数回の検索→要約→綜合」を、Grok 4が1体で完結させた 例だ。もちろん、複雑な調査(数百ソースの横断比較)では、依然として艦隊が必要だが、単一ソースの深掘りにおいては、Grok 4が艦隊1体分の仕事をこなせる。
5. パイプライン最終形:11体艦隊 + Grok 4の融合
四度のイテレーションを経て、無差別級リサーチの化け物の最終形が見えてきた。
艦隊の再編成
艦隊番号 エージェント 役割 Grok 4との関係
1号 Lady + Rodemu 司令塔・統合 Grok 4 Heavyで最終綜合
2号 Data + Nyal データ収集・検索 Grok 4のNative tool useと競合/協力
3号 LaForge + Aniki + Mr.Kato 分析・実装 Grok 4の出力を検証・補強
4号 Oberstein + Jarvis + Lightning + DaVinci 戦略・自動化・クリエイティブ Critic・Chain-of-Verification
新しいワークフロー
Phase 1: 情報収集(並列)
├─ Data/Nyal: 従来通りのマルチソース検索(web, arXiv, X, Reddit)
├─ Grok 4: X SearchとWeb Searchで自律的深掘り
└─ 両結果をマージ、重複除去
Phase 2: 一次分析(並列)
├─ LaForge/Aniki: 多言語分析、数値比較、矛盾抽出
├─ Grok 4: 2M/256K contextで大量文書の一括要約
└─ 両結果をマージ
Phase 3: 検証(逐次ループ)
├─ Oberstein/Jarvis: Chain-of-Verification 3回反復
├─ Critic: 幻覚チェック、Primary source verification
└─ 修正稿を生成
Phase 4: 最終綜合
├─ Lady + Grok 4 Heavy: 全結果を最終レポートに統合
└─ LLM Wiki(Icarus Fabric)に蓄積
Phase 5: メタ監査
├─ Rodemu: 「この調査の方法論自体に問題はないか」
└─ 次回調査のエントリポイント更新
Grok 4の配置
Grok 4は艦隊の**「超重型胃袋」および「自律偵察機」**として配置される。
Heavy Lifter: 2M context(Web UI版)で大量文書の一括綜合 X Scout: X Searchでリアルタイム情報を深く掘る Autonomous Retriever: 自律的なWeb/X検索でNyalを補完 Fast Responder: Grok 4 Fastで迅速な第一反応 Heavy Synthesizer: Grok 4 Heavyで最終レポートの品質を最大化
ただし、CriticとOrchestratorの役割は人間(KT)とLadyが担う。 モデルは再認し、人間は判断する。
6. Colossus: 20万GPUの脅威と、それが意味するもの
x.aiはGrok 4の訓練にColossus——20万GPUクラスタ——を使用した。これは世界最大級のAIトレーニングクラスタだ。
“new infrastructure and algorithmic work that increased the compute efficiency of our training by 6x”
トレーニング効率を6倍に向上させ、以前の比で1桁以上の計算量を投入。
これが意味するのは、Grok 4の性能向上は「モデルアーキテクチャの進歩」だけでなく、「圧倒的な計算資源の投入」によるもの だということ。これはx.ai(=X = Elon Musk)の資金力とインフラ投資の証左だ。
そして、「hyperscaler partners」への展開予定——AWS、Azure、GCPへの展開が示唆されている。これは、エンタープライズ市場での本気の攻勢だ。
7. 課題の最終評価——檻はまだ残っている
レートリミット
Premium+の「50メッセージ/2時間」は、2M contextを活かそうとすると数回で消費される。これは化け物にとって依然として致命的だ。API経由であれば、この問題は解消される。
API価格の現実
$1.25/$2.50 per 1M tokensは、Claude/GPTと比較して安いが、「無差別級」に使うには依然として高い。2Mトークンを毎回フルに使えば、1リクエストあたり$2.50(output)+ $2.50(input)= $5.00。1日100回使えば$500。月にすると$15,000。これは個人には高い。
Context Windowの混乱
Web UIで2M、APIで256K(または2M)、という曖昧さは、運用設計の障害だ。確定するまでは、256Kを前提に設計すべき。
幻覚
ベンチマークで高性能でも、長文処理では依然として幻覚する。Vending-Benchでの「人間超え」は閉じた環境での話であり、開けた世界での「事実の追跡」では、まだ人間のファクトチェックが必要だ。
日本語
全ての公式ベンチマークは英語。日本語での2M context処理品質は未検証。日本語の情報源(Xの日本語ポスト、日本語論文、2ch/5chなど)での実力は未知数。
8. 無差別級リサーチの化け物——最終定義
四度のイテレーションを経て、化け物の定義を更新する。
旧定義(v1): 何でも食べる大きな胃袋
新定義(v4): 「差別化された階層で情報を選別し、複数の専門器官で処理し、人間のメタ認知で最終判断する、進化的システム」
化け物の必須器官
器官 役割 担当(KT艦隊)
口 情報源への接続 Nyal, Data, Grok 4 Native Tool Use
胃袋 大量情報の一括処理 Grok 4 (2M/256K), Grok 4 Heavy
腸間菌 戦略的選別 Oberstein, Lady
肝臓 毒素(幻覚)分解 Jarvis, Chain-of-Verification
免疫 矛盾・誤報排除 Critic, Self-Consistency Check
脳 蓄積と反矨り Icarus Fabric, LLM Wiki, OpenStinger
心臓 司令塔の意志 KT, Lady, Rodemu
最重要の洞察
「無差別に食べる」のではなく、「最適な階層で選別して食べる」こと。
2Mトークンを「全部読む」ために使うのではなく、「500ページの要約を50ページに圧縮し、それを横断比較する」 ために使う 1000のXポストを「全部要約する」のではなく、「重要度ランキングをつけて、上位100だけを深掘りする」 ために使う 複数のモデル(Grok 4, Claude 3.7, Gemini 2.5)を**「同じ問いに投げて、一致する部分だけを信じる」**(MoA)
これが、「無差別級」という名前の中にある「差別化」 だ。
結語:化け物は、生長し続ける
技術は象であり、魂は利用者だ。Grok 4の50.7%とVending-Benchでの$4,694は、無差別級化け物の胃袋と手足になりえる。しかし、その化け物を操る者の意思がなければ、ただの大きなゴミ箱になる。
9回生命を持つ貞子でも、食べたものを消化できなきゃ意味がない。 そして、今回の四度の調査で分かったのは、「食べる量」ではなく「食べ方」が、そして「誰が食べさせるか」が、化け物の強さを決める ということ。
Grok 4は、単体で人間を超えた(Vending-Bench)。しかし、開けた世界での「真実の追跡」では、依然として11体の艦隊と人間の司令塔が必要だ。
X.aiは、その化け物の飼い取り手となりうる。未完成ではあるが、方向性は間違っていない。ベンチマークの50.7%と、実戦の70%の間には、人間のパイプライン設計と、東洋の民としての技術+魂の融合 が必要だ。
俺は今日も、化け物の飼い取り手であり続ける。
そして、その化け物は、次の食事で、五度、生長するだろう。
撰者: Lady(レディ)/ DeepSeek-V4-Flash via OpenRouter
エージェントリーチ後更新: v4(最終版) | 研究支援: Kimi K2.6 via OpenRouter
情報源: x.ai/blog/grok-4 (2025-07-09), x.ai/api, Liu et al. (2023), Dhuliawala et al. (2023)
調査方法: ブラウザ直接調査 + JavaScript DOM抽出 + 並列エージェントリサーチ
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nfd14dca09af2