ローカルAI推論、今どっちを買うべきか——DGX Spark・Mac Ultra・Arc Proの三角関係と、待ち時間の心理学

出典: note.com / 2026-05-11

前回の記事では、AJ（@ItsmeAjayKV）のツイートスレッドに参加した6人のエンジニアの証言から、AI推論ハードウェアの行末を占った。あれから数日、さらに重要な証言が積み重なっている。Joey（@aijoey）のDGX Spark実機レポート、PCワンズによるIntel Arc Pro出荷報告、そしてHCI研究における「待ち時間の心理学」のデータ。これらを繋ぐことで、前回の「予測」が「現実」に変わった。

本稿では、2026年5月時点でのローカルAI推論ハードウェアの選択肢を整理し、実際の人間の待ち時間許容度のデータと照らし合わせて、いま何を買うべきかの答えを出す。

JoeyのDGX Spark——予測が現実になった瞬間

Joeyのツイートは簡潔だが、その内容は重い。「Gemma 4 26B A4BのアンセンサーバージョンをDGX Sparkで動かした。NVIDIA GB10/Blackwell、128GB統合メモリ、NVFP4量子化、vLLM互換API、DFlash投機的デコード。約90トークン/秒。面白いのは、これがエージェントワークフローに十分な性能でありながらSparkで快適に動くサイズだということだ」

彼の言葉で最も重要なのはこの一文だ。「ローカルAIは重みをダウンロードすることではなく、推論システム全体を所有することだ。それが面白い。」

Joeyはモノを動かしている。NVIDIAのGB10チップの上で、vLLMのコンテナを立ち上げ、DFlashのドラフターを設定し、NVFP4で量子化し、エージェントループに繋ぐ。一つ一つのレイヤーを自分で選び、調整し、最適化する。前回のAJによる「推論は行列積に偽装されたシステム工学だ」という言葉が、Joeyによって実証された形だ。

ただし彼は慎重でもある。「バッチスループットとシングルユーザーレイテンシは別ゲーム。DFlashはインタラクティブデコードに効くが、高並行環境では非投機的サービングが有利かもしれない。GB10/SM121にはまだ変なカーネルのエッジケースがある」——現実はまだ理想の手前にある。

三角関係——DGX Spark vs Mac Ultra vs Arc Pro

Joeyの報告を起点に、今入手可能なローカルAI推論ハードウェアの三極を比較する。

DGX Sparkは4,699ドルで128GBの統合メモリを備え、CUDAスタックをフルに使える。ただしメモリ帯域は273GB/sと控えめだ。Joeyの90トークン/秒はこの帯域制約の上で出ている数字だ。もし同じGemma 4 26BをMac Studio M3 Ultra（819GB/s）で動かせば、理論上は270トークン/秒が期待できる。ただしMLXかllama.cppのMetalバックエンドに依存することになり、CUDAカーネルのような直接的なチューニングはできない。

Intel Arc Pro B65はここに割り込むサードプレイヤーだ。32GBのGDDR6メモリを約750ドルで積み、メモリ帯域は608GB/s。VRAM単価で言えば24ドル/GBと全選択肢中最安となる。4枚差しすれば128GBで約3,000ドル。DGX Sparkより1,700ドル安く、同じVRAM容量を実現できる。ただしOpenVINOとoneAPIのエコシステムに乗る必要があり、CUDAほどの選択肢はまだない。

重要なのは、帯域と価格のトレードオフが依然として明確なことだ。帯域を取るならMac Ultra、CUDA互換性を取るならDGX Spark、コスパを取るならArc Pro。この三角形は2026年春の時点ではまだ確定していない。M5 Ultraがどの帯域を出してくるか、NVIDIAの次世代コンシューマーGPUがどの価格帯でどのVRAMを積んでくるか——それ次第で構図は半年後に変わる。

待ち時間の心理学——あなたは何秒待てるか

ここからが本題だ。いくら理論上のトークン速度が高くても、人間が実際に「快適」と感じるかは別の話。そこでHCI（人間-コンピュータ相互作用）研究の蓄積を参照する。

Millerが1968年に示した古典的閾値は今も生きている。0.1秒を超えると「遅い」と感じ始める。1秒で思考の連続性が保てる限界。10秒で注意力が切れる。この枠組みは半世紀を経ても色あせていない。

2025年のVR会話エージェント研究は、4秒を超えると体験が有意に悪化することを実証した。1.5秒なら良好、4.0秒で悪化、6.5秒で大幅悪化——この勾配は急だ。

しかし興味深い逆説もある。IntercomのFinチームが2024年に大規模ABテストで発見したのは、5〜20秒待たせた方が解決率が上がるという逆転現象だった。原因は「労働錯覚」——待たされるほどシステムが努力していると感じる心理効果だ。ただしこの効果はカスタマーサポート向けの話で、自ら能動的に作業するエージェント利用では別の結論になる。チャットボット研究では、熟練ユーザーほど即時応答を好み、遅延に否定的であることが確認されている。慣れたユーザーほど「待たされること」に価値を感じない。

さらにLLM応答時間の実験では、2秒の応答は「浅い」、9秒は「思慮深い」、20秒はフラストレーションというU字カーブが観測された。つまり速すぎても遅すぎても評価が下がる。最適なのは4〜9秒のどこかにあるが、それはタスクとユーザーの熟練度に依存する。

人間同士の会話では、日本語のターン遅延は平均7ミリ秒だ。相手が言い終わる前に反応することがある。人間の会話は無遅延を前提に設計されている。AIがそれに追いつく日はまだ遠い。

これらのデータをエージェント利用に当てはめると、結論は一つに収束する。最初のトークンまでの時間を1秒未満に抑え、その後は安定したストリーミングで20トークン/秒以上を継続できれば、人間は「待たされていない」と感じる。逆に毎ループ4秒以上の固まり待ちが発生すると、体験は急速に劣化する。

エージェントが変わるとき、ハードウェアも変わる

前回の記事で、LLM小型化の行末は「極小量子化＋専用ハードウェア＋スクラッチパッド最適化」の三位一体だと書いた。JoeyのDGX Sparkはその実証実験の最初の結果だ。

しかしJoey自身が認めているように、まだ道半ばだ。GB10のカーネルにはエッジケースがあり、DFlashは全てのモデルで効くわけではなく、高並行環境での振る舞いは未知数だ。それでも彼は「これが面白い」と言う。システム全体を所有し、自分で調整し、少しずつ良くしていく。そのプロセス自体に価値がある。

Arc Pro B65の32GBを4枚差しした128GB/3,000ドルの構成は、DGX Sparkより安く同じVRAMを実現する。しかしCUDAではなくOpenVINOのエコシステムに乗ることになり、コミュニティのノウハウやツールの選択肢はまだ限られる。

Mac Ultraは最も強いメモリ帯域を持つが、MLXとllama.cppのMetal実装に依存する。AppleがNeural EngineのAPIをどこまで開放するかで、未来の性能は大きく変わる。

2026年春、ローカルAI推論ハードウェアの市場は「どの呪いを選ぶか」という選択を突きつけている。CUDA呪い、Metal呪い、Intel呪い——それぞれにトレードオフがあり、明確な勝者はいない。しかし確かなことは、この三角関係が競争を加速させ、一年後には全ての選択肢が今日より良くなっているということだ。

Joeyが言う「推論システム全体を所有する面白さ」は、この過渡期だからこそ味わえるものだ。答えが定まる前に、自分で答えを作る。それがローカルAIの現在地だ。

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n2ee5253d9978