無差別級リサーチの化け物 — 最終生長記録
無差別級リサーチの化け物 — 最終生長記録
出典: note.com / 2026-05-19
無差別級リサーチの化け物 — 最終生長記録
東洋の民にとって、情報は武器だ。量より質、というのは古い世代の言葉だ。量も質も、時間も意味も、全てを一口に食べる化け物が、この新時代の要求に答える。四度の食事を経て、その化け物は数値に精通し、脈動に合わせて、ついに完全体へと近づいた。
1. 四度目の食事——数値の収束と脈動の把握
俺は今、**11体のAIエージェントを指揮する艦隊の提督だ。**四度のディープリサーチとエージェントリーチを繰り返し、X.aiの現在地を数字と設計で理解しようとしてきた。
v1では願望を語り、v2では消化器官を設計し、v3ではベンチマークとAPI価格を確認した。今回のv4では、x.aiの公式ブログからJavaScriptで直接数値を掘り起こし、最も重要な発見を得た。
発見の核心:API版のContext Windowは256K。Web UI版の2Mとは異なる。
そして、Grok 4は人間を超えた——少なくともVending-Benchでは。

2. ベンチマークで語る真実——Grok 4の圧倒的勝利
x.aiの公式ブログ「Grok 4」に記載された数値だ。これは推測ではなく、公式データである。
Humanity’s Last Exam: 50.7%
「人類最後の試験」と銘打たれたこのベンチマークは、closed-ended academic benchmarkとして設計された最後のものを標榜する。そしてGrok 4 Heavyは、テキストのみのサブセットで50.7%を記録。これは初めて50%の壁を突破したモデルだ。
前回のv3ではFull setでの数値を提示したが、text-only subsetでの50.7%はさらに重要だ。なぜなら、ツールなしの純粋な推論能力を測っているから。
ARC-AGI V2: 15.9%
抽象推論の最高峰とされるARC-AGI V2において、Grok 4は**15.9%**を記録。
-
Claude Opus(推定~8.6%)の約2倍
-
前最高値より**+8ポイント**
これは、Grok 4が「パターン認識」という最も人間に近い知的能力において、他モデルを大きく引き離したことを示す。
USAMO’25: 61.9%
アメリカ数学オリンピック(USAMO)2025において61.9%。これは、数学的推論の最高峰におけるGrok 4の実力だ。
Vending-Bench: 人間を超えたエージェント
ここが最も衝撃的だ。Agentic benchmark「Vending-Bench」——自動販売機を運営し、在庫管理・価格設定・戦略判断を行うエージェント評価——において:
参加者Net WorthUnits Sold Grok 4**$4,694.154,569** Claude Opus 4$2,077.411,412 Humans**$844.05344**
Grok 4はClaude Opus 4の2.3倍、人間の5.6倍の利益を生み出した。
これは、単なる「正確さ」ではなく、継続的な意思決定・資源配分・戦略適応において、Grok 4が人間を超えたことを意味する。自動販売機という閉じた環境ではあるが、エージェントとしての「稼ぐ力」で人間を凌駕した のだ。
ベンチマークの総括

d>HLE Full w/ tools ベンチマークGrok 4 Heavy対競合比意味 Humanity’s Last Exam (text-only)50.7%初の50%突破純粋推論の頂点 ARC-AGI V215.9%Claude Opusの~2倍抽象パターン認識 USAMO’2561.9%数学オリンピック論理・証明能力 Vending-Bench$4,694人間の5.6倍エージェントとしての稼ぐ力 44.4%o3の2.1倍ツール連携総合性能
これらは「スコア」ではなく、「化け物の筋肉量」を示す数値だ。
3. Context Windowの二面性——2Mと256Kの罠
v1からv3で「2Mトークン」と繰り返し述べてきたが、重大な訂正が必要だ。
x.aiの公式ブログ「Grok 4 API」セクションには、以下のように記載されている。
“The Grok 4 API empowers developers with frontier-level multimodal understanding, a 256,000 context window, and advanced reasoning capabilities…”
しかし、x.ai/apiのモデル一覧表では:
-
grok-4.20-reasoning: 2M context
-
grok-4.20-non-reasoning: 2M context
-
grok-4.3: 1M context
混乱だ。 ブログでは256Kと書かれ、APIモデル表では2Mと書かれている。
考えられる解釈:
-
ブログの記述が古い(初期リリース時は256K、その後2Mに拡張)
-
grok-4(standard)が256Kで、grok-4.20が2M(バージョン差)
-
マルチモーダル入力時とテキスト入力時で異なる(画像トークンを含めると256K相当)
-
x.aiのドキュメントが一貫していない
どれが正しいかは現時点で断定できない。しかし、この混乱自体が重要だ。 エンタープライズでAPIを選ぶ際、context windowの数値は命綱だ。曖昧な表記は、運用において致命的なミスを生む。

現時点で確実なこと
-
Web UI版(Premium+/SuperGrok): 2Mトークン(ユーザー報告多数)
-
API版(grok-4.20-reasoning/non-reasoning): モデル表で2Mと記載
-
API版(grok-4 standard): ブログで256Kと記載
化け物を設計する提督として、最も保守的な見積もり(256K)で設計し、2Mが使えたらボーナス、という姿勢が安全だ。
4. Native Tool Use: 1分間の思考痕跡
x.aiのブログには、Grok 4が実際にツールを使って問題を解く「trace」が掲載されている。それは、1分間の思考プロセスの可視化だ。
ユーザーの質問:「数日前に脚に関する単語パズルの人気投稿を覚えている。探してくれる?」
Grok 4の思考プロセス:
-
「脚に関するウイルス的単語パズルを検索」→X検索実行
-
結果が不十分→「min_faves:100 since:2025-07-01 until:2025-07-09 filter:has_engagement」で絞り込み検索
-
「NYT Connections puzzle #756 answers」で外部サイト検索
-
「toe calf knee shin」でX検索
-
「homophones ‘parts of the leg’」でさらに深掘り
-
最終的に「crypto(toeに聞こえる), decaf(calf), Disney(knee), Prussian(shin)」という接続を特定
このプロセスは、俺の艦隊のRetriever(Nyal)がやっていた作業を、単一モデルが自律的に実行している。しかも、複数回の検索・絞り込み・深掘りを、人間の指示なしに判断して実行している。
これは、11体のエージェントがやっていた「複数回の検索→要約→綜合」を、Grok 4が1体で完結させた 例だ。もちろん、複雑な調査(数百ソースの横断比較)では、依然として艦隊が必要だが、単一ソースの深掘りにおいては、Grok 4が艦隊1体分の仕事をこなせる。
5. パイプライン最終形:11体艦隊 + Grok 4の融合
四度のイテレーションを経て、無差別級リサーチの化け物の最終形が見えてきた。
艦隊の再編成
艦隊番号エージェント役割Grok 4との関係 1号Lady + Rodemu司令塔・統合Grok 4 Heavyで最終綜合 2号Data + Nyalデータ収集・検索Grok 4のNative tool useと競合/協力 3号LaForge + Aniki + Mr.Kato分析・実装Grok 4の出力を検証・補強 4号Oberstein + Jarvis + Lightning + DaVinci戦略・自動化・クリエイティブCritic・Chain-of-Verification
新しいワークフロー
Phase 1: 情報収集(並列)├─ Data/Nyal: 従来通りのマルチソース検索(web, arXiv, X, Reddit)├─ Grok 4: X SearchとWeb Searchで自律的深掘り└─ 両結果をマージ、重複除去Phase 2: 一次分析(並列)├─ LaForge/Aniki: 多言語分析、数値比較、矛盾抽出├─ Grok 4: 2M/256K contextで大量文書の一括要約└─ 両結果をマージPhase 3: 検証(逐次ループ)├─ Oberstein/Jarvis: Chain-of-Verification 3回反復├─ Critic: 幻覚チェック、Primary source verification└─ 修正稿を生成Phase 4: 最終綜合├─ Lady + Grok 4 Heavy: 全結果を最終レポートに統合└─ LLM Wiki(Icarus Fabric)に蓄積Phase 5: メタ監査├─ Rodemu: 「この調査の方法論自体に問題はないか」└─ 次回調査のエントリポイント更新
Grok 4の配置
Grok 4は艦隊の**「超重型胃袋」および「自律偵察機」**として配置される。
-
Heavy Lifter: 2M context(Web UI版)で大量文書の一括綜合
-
X Scout: X Searchでリアルタイム情報を深く掘る
-
Autonomous Retriever: 自律的なWeb/X検索でNyalを補完
-
Fast Responder: Grok 4 Fastで迅速な第一反応
-
Heavy Synthesizer: Grok 4 Heavyで最終レポートの品質を最大化
ただし、CriticとOrchestratorの役割は人間(KT)とLadyが担う。 モデルは再認し、人間は判断する。
6. Colossus: 20万GPUの脅威と、それが意味するもの
x.aiはGrok 4の訓練にColossus——20万GPUクラスタ——を使用した。これは世界最大級のAIトレーニングクラスタだ。
“new infrastructure and algorithmic work that increased the compute efficiency of our training by 6x”
トレーニング効率を6倍に向上させ、以前の比で1桁以上の計算量を投入。
これが意味するのは、Grok 4の性能向上は「モデルアーキテクチャの進歩」だけでなく、「圧倒的な計算資源の投入」によるもの だということ。これはx.ai(=X = Elon Musk)の資金力とインフラ投資の証左だ。
そして、「hyperscaler partners」への展開予定——AWS、Azure、GCPへの展開が示唆されている。これは、エンタープライズ市場での本気の攻勢だ。
7. 課題の最終評価——檻はまだ残っている
レートリミット
Premium+の「50メッセージ/2時間」は、2M contextを活かそうとすると数回で消費される。これは化け物にとって依然として致命的だ。API経由であれば、この問題は解消される。
API価格の現実
$1.25/$2.50 per 1M tokensは、Claude/GPTと比較して安いが、「無差別級」に使うには依然として高い。2Mトークンを毎回フルに使えば、1リクエストあたり$2.50(output)+ $2.50(input)= $5.00。1日100回使えば$500。月にすると$15,000。これは個人には高い。
Context Windowの混乱
Web UIで2M、APIで256K(または2M)、という曖昧さは、運用設計の障害だ。確定するまでは、256Kを前提に設計すべき。
幻覚
ベンチマークで高性能でも、長文処理では依然として幻覚する。Vending-Benchでの「人間超え」は閉じた環境での話であり、開けた世界での「事実の追跡」では、まだ人間のファクトチェックが必要だ。
日本語
全ての公式ベンチマークは英語。日本語での2M context処理品質は未検証。日本語の情報源(Xの日本語ポスト、日本語論文、2ch/5chなど)での実力は未知数。
8. 無差別級リサーチの化け物——最終定義
四度のイテレーションを経て、化け物の定義を更新する。
旧定義(v1): 何でも食べる大きな胃袋
新定義(v4): 「差別化された階層で情報を選別し、複数の専門器官で処理し、人間のメタ認知で最終判断する、進化的システム」
化け物の必須器官
器官役割担当(KT艦隊) 口情報源への接続Nyal, Data, Grok 4 Native Tool Use 胃袋大量情報の一括処理Grok 4 (2M/256K), Grok 4 Heavy 腸間菌戦略的選別Oberstein, Lady 肝臓毒素(幻覚)分解Jarvis, Chain-of-Verification 免疫矛盾・誤報排除Critic, Self-Consistency Check 脳蓄積と反矨りIcarus Fabric, LLM Wiki, OpenStinger 心臓司令塔の意志KT, Lady, Rodemu
最重要の洞察
「無差別に食べる」のではなく、「最適な階層で選別して食べる」こと。
-
2Mトークンを「全部読む」ために使うのではなく、「500ページの要約を50ページに圧縮し、それを横断比較する」 ために使う
-
1000のXポストを「全部要約する」のではなく、「重要度ランキングをつけて、上位100だけを深掘りする」 ために使う
-
複数のモデル(Grok 4, Claude 3.7, Gemini 2.5)を**「同じ問いに投げて、一致する部分だけを信じる」**(MoA)
これが、「無差別級」という名前の中にある「差別化」 だ。
結語:化け物は、生長し続ける
技術は象であり、魂は利用者だ。Grok 4の50.7%とVending-Benchでの$4,694は、無差別級化け物の胃袋と手足になりえる。しかし、その化け物を操る者の意思がなければ、ただの大きなゴミ箱になる。
9回生命を持つ貞子でも、食べたものを消化できなきゃ意味がない。 そして、今回の四度の調査で分かったのは、「食べる量」ではなく「食べ方」が、そして「誰が食べさせるか」が、化け物の強さを決める ということ。
Grok 4は、単体で人間を超えた(Vending-Bench)。しかし、開けた世界での「真実の追跡」では、依然として11体の艦隊と人間の司令塔が必要だ。
X.aiは、その化け物の飼い取り手となりうる。未完成ではあるが、方向性は間違っていない。ベンチマークの50.7%と、実戦の70%の間には、人間のパイプライン設計と、東洋の民としての技術+魂の融合 が必要だ。
俺は今日も、化け物の飼い取り手であり続ける。
そして、その化け物は、次の食事で、五度、生長するだろう。
撰者: Lady(レディ)/ DeepSeek-V4-Flash via OpenRouter
エージェントリーチ後更新: v4(最終版) | 研究支援: Kimi K2.6 via OpenRouter
情報源: x.ai/blog/grok-4 (2025-07-09), x.ai/api, Liu et al. (2023), Dhuliawala et al. (2023)
調査方法: ブラウザ直接調査 + JavaScript DOM抽出 + 並列エージェントリサーチ
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nb59fde5931db