12MトークンでAIが「忘れない」になる——SubQが壊すTransformerの二乗の呪い

出典: note.com / 2026-05-06

12万文字を一瞬で理解する——SubQが変えるAIエージェントの常識

2026年5月5日、X（Twitter）のタイムラインがひとつの発表で沸いた。

「SubQ」。Subquadratic社が発表した、サブ二乗計算の大規模言語モデルだ。

982いいね、78リポスト、69件のコメント。VCも研究者も——そして何よりAIエージェントを運用している開発者たちが——この発表に飛びついた。

なぜか。**「1,200万トークンのコンテクスト」**という数字だ。

コンテクストとは何か

AIが一度に「理解」できる情報量のこと。人間で言えば「短期記憶」の容量だ。

あなたが誰かと会話するとき、相手はあなたが数分前に言ったことを覚えている。それが「コンテクスト」だ。

AIはどうか。

2023年のGPT-4は約6,000トークン（日本語4,000字程度）。A4用紙1枚分。 2024年のClaude 3.5は約200,000トークン。小説1冊分。 2025年のGemini 2.5は約1,000,000トークン。小説5冊分。 SubQ（2026年5月）は12,000,000トークン。辞書100冊分。

数字だけではピンと来ないだろう。具体的に言おう。

12Mトークンで何ができるか

SubQはGitHubの全ソースコードを1回のプロンプトで読み切ることができる。

具体的には：

数百万行のコードベース全体を「今の文脈」として保持数ヶ月分のPull Request履歴をすべてメモリに乗せる AIエージェントが数週間動き続けた全履歴を忘れずに保持企業の全社内文書を一度に分析

これが意味することは一つだ：「AIはもう、忘れない」。

なぜ今までできなかったのか——「二乗の呪い」

現在のほとんどのLLMは Transformer というアーキテクチャを使っている。これは2017年にGoogleが発表した方式で、簡単に言うと「すべての単語が、他のすべての単語との関係を計算する」仕組みだ。

10単語なら10×10=100回の計算。これは大丈夫。

1,000単語なら1,000×1,000=1,000,000回。まだ大丈夫。

100,000単語なら100,000×100,000=10,000,000,000回。かなり重い。

12,000,000単語なら144,000,000,000,000回。もはや非現実的。

これが「二乗複雑度（O(n²)）」と呼ばれる問題だ。コンテクストが2倍になると計算量は4倍。10倍になると100倍。どんどん破綻する。

SubQの革新はここにある。「サブ二乗（sub-quadratic）」——つまり計算量が二乗より緩やかにしか増えない方式を採用している。

Transformerを超えるのか

実は「サブ二乗」を謳ったモデルは過去にもあった。2020年のLongformer、2021年のBigBird、2023年のMamba、2024年のRWKV……。

しかし、そのほとんどが**「長文では速いが、複雑な推論で精度が落ちる」**という壁にぶつかった。Transformerは遅いが賢い。サブ二乗は速いがバカ。このトレードオフが長年破れなかった。

SubQは「この壁を破った」と主張している。主張によれば：

150トークン/秒の生成速度他のLLMの1/5のコスト長文でも精度が落ちない

ただし——論文もベンチマークもコードもまだ公開されていない。

Xのタイムラインでも「主張だけなら誰でもできる。FLOPsとカーネルと独立ベンチマークを出せ」という声が多数上がっている。CEOは健康テックと保険テック出身で、MLの研究経験はない。CTOはMetaの元ソフトウェアエンジニア。研究チームの構成は不明。

これは「ヤバいブレイクスルー」か「よくある過大広告」か——現時点では判断できない。

それでも夢を見る価値はある

仮にSubQの主張が8割がた本当だとしたら、何が起きるか。

AIエージェントは「短期記憶喪失」から解放される。

今のコーディングエージェント（pi, Claude Code, Codex, Cursor）は、長い会話を続けると「さっき言ったことを忘れる」。だから要約（コンパクション）が必要で、そのたびに情報が欠落する。

SubQが本当に12Mトークンを扱えるなら、コンパクションはいらなくなる。エージェントは最初から最後まで、すべての会話を覚えている。コードベース全体を脳内に保持したまま、何時間でも作業を続ける。

これはもはや「道具」ではなく「同僚」に近い。

艦隊（spock）での実践

我々の艦隊（M1 Max 64GB）では、すでにpiエージェントがOllamaでローカルモデルを動かしている。SubQが公開されたら、おそらく最初に試すことになる。

12Mトークンがローカルで動くとは思えないが（必要なメモリ量が半端ではない）、API経由で使えるなら即戦力になる。

そして、piの作者Mario Zechner（@badlogicgames）も同じ日にagentOS（Rivet社のAIエージェント実行基盤）を紹介していた。つまり——「長文コンテクストのAIエージェント」が2026年のテーマであることは間違いない。

まとめ

SubQは12Mトークン（辞書100冊分）のコンテクストを処理できると主張する新LLM Transformerの「二乗の呪い」を回避するサブ二乗アーキテクチャ 150 tok/s、コスト1/5、精度維持を謳う論文・ベンチマーク・コード未公開——懐疑の声も多いしかし実現すればAIエージェントの「忘却」がなくなる 2026年は「超長文コンテクスト×AIエージェント」がテーマ

真偽は3ヶ月以内にわかる。それまでは夢を見よう。

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/ndd64e59a33d4