AIコードレビュー、3人寄れば文殊の知恵 — 複数AIでレビュー品質を高める方法

出典: note.com / 2026-05-26

たった1つのAIレビューは信用するな。3つのAIにやらせて多数決を取れ。

「AIにコードレビューさせると、偽のバグを大量に報告して役に立たない」

そんな声をよく聞く。僕も最初はそう思ってた。

でもNolan Lawson（PouchDBの作者、めっちゃ頭いい人）が2026年5月に書いた記事がこの問題に完璧な答えを出してくれた。

「3つの異なるAIに同じコードをレビューさせて、結果を総合すればいい」

たったこれだけ。

AIは嘘をつく（ハルシネーション）。これはよく知られた事実。

でも「3つのAI」が同じ場所を指して「ここバグだよ」と言ったら？

偶然の一致では説明できない。異なる学習データ・異なるアーキテクチャのAIが同じ結論 → ほぼ本物のバグ。1つだけ「バグ」、2つは「問題なし」 → たぶん偽陽性。無視してOK。

これって完全に「3人寄れば文殊の知恵」のAI版だ。

準備するもの: Claude（Anthropic）+ Codex（OpenAI）+ Cursor Bugbot（もしくは別のAIレビューツール）

ステップ1: 3つのAIに同じコードを投げて「バグを全部見つけて」と依頼

ステップ2: 結果をCritical / High / Medium / Lowで集約

ステップ3: 2つ以上が一致したバグだけを本物とみなす

ステップ4: 本物のバグだけを修正する

コツ: 複数モデルが一致したバグは偽陽性率がほぼゼロ。報告が多すぎる場合はCriticalとHighだけ先に直す。

導入前（1つのAIにレビューさせる）: 「ここバグです」→ 見たら正常だった。「これもバグです」→ また偽物。「これも…」→ AIのレビューなんて信用できない！（AIレビューをやめる）

導入後（3つのAIにレビューさせる）: AI①「Critical」AI②「Critical」AI③「Critical」→ 3つが一致！本物のバグだ。→ 直そう。（コードベースが徐々にきれいになる）

この差は大きい。

1回のレビューに3倍のトークンがかかる。レビューが遅くなる。でも「速いけど質が低い」より「遅いけど質が高い」を選ぶのが長期的には正解。

Nolan Lawsonの主張はとてもシンプル：

AIはスロップキャノン（質より量の道具）じゃない。品質を高める道具として使える。そのコツは複数のAIに同じことをさせて多数決を取ることだ。

AIにコードレビューを任せるなら、3人以上で。絶対に1人に任せるな。

だって人間のコードレビューだって、1人より複数人の方がいいでしょ？

AIも同じなんだよ。

参考: Using AI to write better code more slowly — Nolan Lawson

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nff3e8e547941