プロンプトの彼方へ――現場のエージェント評価論
プロンプトの彼方へ――現場のエージェント評価論
出典: note.com / 2026-05-03
プロンプトの彼方へ――現場のエージェント評価論
「結局、どのAIコーディングツールが一番いいんですか?」
この質問に、私はいつも言葉を詰まらせる。いや、正確には「言葉が多すぎて、どこから話せばいいかわからなくなる」といったほうが正しい。
なぜなら、この質問には二つの前提が隠れているからだ。一つは「単一の正解があるはずだ」という期待。もう一つは「ツールのスペックだけが性能を決める」という誤解。現場で血肉の通った開発をしている人間なら、この二つがどれほど危ういか、肌で知っている。
Claude Codex、OpenClaude、AntiGravity、Hermes、Agent、OpenCode、Py。そして今はPi。
振り返れば、ずいぶん多くの「ハーネス」を手に取ってきた。ハーネスというのは馬具のことだ。どんなに優れた馬でも、手綱や鞍が下手なら本来の力を出せない。AIコーディングツールも同じで、基盤モデルという「馬」と、それを制御するツール設計という「ハーネス」の組み合わせで、結果は天と地ほど変わる。
現場で長く触り続けてきた人間だけが知っている、エージェント選びの本当の話をしよう。
記憶に焼きつくOpus 4.6の感触
時は少し遡る。AnthropicのClaude Opus 4.6を、OpenClaudeのMaxプランで限界まで使い倒していた時期があった。
あの感触を、私はきっと忘れない。
Opus 4.6は恐ろしく賢かった。メタ認知ができるように感じられるほど論理的で、「このコード、ちょっと設計が歪んでると思いませんか?」と問いかければ、「確かに、この部分に技術的負債が蓄積しやすい構造ですね」と人間らしく返してくる。対話していてワクワクした。これならいけると本気で思った。
だが、実戦投入すると、その「賢さ」は脆くも崩れた。
コードのエラーに直面すると、同じ修正案を何度も何度も繰り返す。過去の失敗がコンテキストにゴミのように溜まり、会話が長くなるほど推論は鈍り、最終的には「さっきと同じ提案を、さっきと同じ口調で」堂々と繰り返すようになる。賢いのに、馬鹿になる。そして、その迷走の間もトークンは湯水のように消費されていく。
私はこれを「高価なガラスの大砲」と呼んでいた。一撃は強力だが、一度外せば割れてしまい、撃ち直すには莫大なコストがかかる。残高と相談しながら「このプロンプトは慎重に書かねば」と冷や冷やする。開発の心理的負荷は、むしろ増えていたかもしれない。
この経験は、私に一つの問いを植え付けた。
「エージェントの目的達成能力は、何で決まるのか」 と。
賢いのはモデルか、ハーネスか
後から出てきたツールは、えてして「よく見える」。これは錯覚なのか、本物の進化なのか。現場で触り続けていないと、その区別はまずつかない。
なぜなら、ここには二つの進化が同時に起きているからだ。
一つは「ヘッド」、つまり基盤モデル自体の賢さの進化。 もう一つは「ハーネス」、つまりエージェントの制御設計の進化。
これを見分けるには、進化の「質」を観察するしかない。
モデルが賢くなると、誤解のなさや文脈把握の精緻さ、推論の深さと安定性が上がる。曖昧な指示でも「言いたいのはこういうことですね」と言い換え、禁止事項を破らずに創造性を発揮できる。これはCLIツールより、生のAPIを触ったほうが分かりやすい変化だ。
一方、ハーネスが賢くなると、「ハマり」からの回復力やコンテキスト管理の巧拙が際立つ。同じモデルでも、エラー時に「別のアプローチを試す」ロジックが組み込まれているかどうかで成功率が激変する。ツールの粒度、エラー出力の解析とフィードバック、ファイル削除前の確認——これらは完全にハーネス側の工夫だ。
Opus 4.6で起きていた「同じことを繰り返して馬鹿になる」現象は、実はほぼ100%ハーネスの未熟さだった。現在の最前線のツールには、自動コンテキスト圧縮、ループ検知、エラー原因の構造化フィードバックが標準装備されている。これらのおかげで、モデル自体が格段に賢くなったわけではないのに、「脆さ」が根本から消え去った。
「軽トラックの群れ」が変えた戦術
そして今、もう一つ決定的な変化が起きている。
Opus 4.6を超える思考能力とコード生成能力を持つモデルが、中国発のものも含めて、ほとんどタダ同然の価格で次々と登場している。
これが「ハーネスの成熟」と掛け合わさったとき、全く新しい戦術が可能になった。私はそれを「軽トラックの群れ」戦術と呼んでいる。
かつては、一台のフェラーリ(Opus)を大事に乗り回し、ガス欠(トークン切れ)を恐れていた。今は違う。十台の軽トラ(安価な高性能モデル)を同時に荒野に放ち、一番先に荷物を届けた奴の成果を拾えばいい。多少ループにハマる奴がいても、他の九台がカバーする。
これは「冗長性」が「質」に転化する瞬間だ。
複数のモデルに同じタスクを異なる解釈で投げ、競争させ、異なる視点の結果を人間がマージする。この「並列化による目的達成」だけで、単一モデルの限界を遥かに超えられる。
そして何より大きいのは、心理的なためらいの消滅だ。
「高いから、慎重にプロンプトを書かなくては」という重圧が消え、「とりあえず投げて、試す」というエラー前提のアジャイル思考が普通になった。これが目的達成速度を飛躍的に上げた。何も気にせず、並行で何個も何個も回す。その結果として、全体の目的達成能力がすごく上がっている。
これは単なる「ツールが良くなった」ではない。単一の完璧なAI頭脳に指示する時代から、群れとしてのAIプロセスをマネジメントする時代への、パラダイムシフトだ。
全自動洗濯機か、手に馴染む道具か
このパラダイムシフトの中で、今注目を集めているのがOpenCodeとPiだ。そしてこの二つは、「ハーネスに何を求めるか」という根本思想で、くっきりと分かれている。
OpenCodeは「全自動洗濯機」だ。
Claude Codeが事実上オープン化されたと評されるこのツールは、マルチエージェント機能やLSP統合、Plan/Buildモードといった多機能を最初から備えている。400以上のモデルに対応し、VS CodeやCursorとのIDE連携も持つ。まさに全部入り。タスクを放り込めば、あとは「お任せ」で進めてくれる安心感がある。
対するPiは「自分の手に馴染む道具」だ。
read、write、edit、bash。たった四つの基本ツールしか持たない。その代わり、システムプロンプトとツール定義は1000トークン未満と驚異的に軽い。Claude Codeと比較して消費トークンが10万分の1で済むケースもあるという。MCPサポートはないが、拡張で対応できる。哲学は明確だ。「真のエージェント能力は、複雑な機能ではなく拡張性から生まれる」。
この違いは、実際に使い込んだエンジニアたちの声にもはっきり表れている。
OpenCodeを使い込んだ末にPiに移った開発者は言う。「OpenCodeは便利すぎて、むしろ余計なお節介に感じる瞬間があった。AIが裏で何をしているか完全に把握できないと、開発の主導権を自分が持っている感覚が薄れる」。Piに移行してからは「ワークフローが予測可能になり、自分がコントロールしている実感を取り戻せた」という。
一方、Piのシンプルさに戸惑う声もある。「初日は”これだけ?“と思った。でも使い込むほどにTypeScriptによる拡張性の高さに”これは面白い”と感じるようになる」。
つまり、この選択は「オーケストレーションをAIに委ねたいか、自分の手に残したいか」という、開発者としての立ち位置を問うているのだ。
群れをマネジメントする時代へ
では、エージェント選びに悩んでいる人に、私は何を伝えられるだろう。
最初の問いに戻ろう。「結局、どのAIコーディングツールが一番いいんですか?」
現場で長く触り続けてきた人間としての答えは、こうだ。
「一番いいツールを探すのは、そろそろやめにしませんか」
あなたが選ぶべきは、一つの完璧なツールではない。あなたが気持ちよく手に取れて、気兼ねなく使い潰せて、自分の開発スタイルに合うハーネスだ。それを選び、そして時には複数を並行して走らせる。その「群れのマネジメント」こそが、次の時代の開発スタイルになる。
未来の開発環境は、きっとこんなふうになる。
手元には、自分に馴染んだシンプルなハーネスがある。難しいタスクに直面したら、ためらわず複数のモデルに並列で投げる。群れの中で最も良い結果を選び取り、時には異なる視点を自分で組み合わせる。AIに使われるのではなく、AIの群れを率いる。あなたはプレイヤーであると同時に、指揮者でもある。
高価なガラスの大砲を一門だけ抱えて震えていたあの頃とは、根本的に違う景色が広がっている。トークン消費を気にするストレスから解放され、「とりあえず試す」の精神でアジャイルに回せること。馬鹿になるAIにイライラする代わりに、別の一頭にさっと乗り換えられること。そして何より、あなた自身が「AIに指示を出す人」から「AIの群れをマネジメントする人」へと、一歩先の役割に進めること。
カタログスペックやベンチマークスコアも大事だ。でも、それ以上に大事なのは、あなたがそのツールで「気持ちよく開発できるか」どうか。そして、「なんか、この子、手に馴染むんだよな」という、理屈を超えた感触。
こればかりは、実際に触り続けた人間にしかわからない。だからこそ、たくさんのツールを、気軽に、並列で、試してみてほしい。恐れることはない。今やモデルはほとんどタダだ。あなたが消費するのは、お金よりもむしろ、試そうという好奇心のほうだ。
プロンプトの彼方へ。
AIに正しい指示を出すことだけが開発じゃない。AIの群れと一緒に、ゴールまで辿り着くこと。そのプロセスそのものを楽しめること。それこそが、今この瞬間の、そしてこれからの「目的達成能力」の本質だと、私は現場でそう感じている。
そして、今朝も私は、手に馴染んだハーネスを起動する。
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n6fb69148820c