UI-TARS 7Bの座標が100pxズレた。だからAXハイブリッドを作った
UI-TARS 7Bの座標が100pxズレた。だからAXハイブリッドを作った
出典: note.com / 2026-05-22
UI-TARS 7Bの座標が100pxズレた。だからAXハイブリッドを作った
導入——AIに画面を見せても、指先は狂う
UI-TARS 7BをMacで動かした。ByteDanceのVLMは画面を認識し、次にクリックすべき座標を出力する。ECHOベンチマークで91点、0.6秒台の高速推論。しかし実際のMac画面に適用すると、座標は±100pxズレた。ボタンの横をクリックし、入力欄の上をクリックし、閉じるボタンを永遠に探し続ける。
VLMは「意味」を理解する。画面に何があるかはわかる。だが「どこをクリックするか」という空間的精密作業は、別の能力だ。Ollama上の量子化モデルとmacOSの解像度スケーリングの間に、見えない溝がある。
この記事は、その溝を埋める「AXハイブリッド」の設計記録である。
本命の三層構成——目はVLM、手はAX
単一のVLMに全てを任せる設計は破綻した。代わりに三層に分離した。
第一層はVLMによる意味理解。Qwen2.5-VL 7Bに画面スクショを渡し、現在の状態と次にすべきことを読み取る。ここで座標は使わない。ただの状況報告だ。
第二層はcua-driverによるAX tree探索。macOSのアクセシビリティAPIを通じて、アプリの要素階層を正確に読む。ボタンの名前、入力欄のラベル、チェックボックスの状態——これらは座標ではなく論理的な識別子で取得できる。413要素から目的のボタンをelement_indexで特定する。
第三層はAXPressによる実行。cua-driverはバックグラウンドでAXアクションを発行する。対象アプリを前面に出さず、ユーザーのカーソルを動かさず、正確な要素をクリックする。クリック後は再スナップショットで検証する。変化がなければ失敗としてリトライ、最大2回で停止して報告する。
この分離により、VLMの「目」とAXの「手」がそれぞれ得意な領域で機能する。
実測——Discordサーバー作成をAXだけで完走
実験課題はDiscordでの新規サーバー作成だ。ElectronアプリのAX treeは413要素。サーバーリストの「サーバーを追加」ボタンをelement_index 122で特定しクリック。「サーバーの作成」ダイアログが開く。次に「オリジナルの作成」をelement_index 14でクリック。「自分と友達のため」を選択し、サーバー名「UI-TSRS-Test」をset_valueで入力。「新規作成」をクリック。サーバーが作成された。
全てのクリックはAXPress。全ての座標はelement_index。VLMはこの一連の流れを監視し、次のステップを指示するが、座標計算には関与しない。
さらにChromeのDiscord Developer Portalでも同じ構造が機能した。Application作成ダイアログでhCaptchaが出現したが、ここもAXCheckBoxに対するAXPressで突破できた。Bot設定ページまで到達し、トークンリセットボタンまで確認した。
安全設計——パスワードはチャットに流さない
GUI自動化の最大のリスクは機密情報の露出だ。三つの壁を設けた。
APIキーとパスワードとBotトークンはチャット出力禁止。取得しても画面には「REDACTED」と表示する。実際の値はchmod 600のファイルにのみ保存する。
パスワード入力は都度KTから受け取り、永続保存しない。パスワードダイアログ検出時はTelegramで入力を要求し、AXSecureTextFieldにset_valueで入力。完了後、メモリ上の値は破棄する。
破壊的操作は事前確認。削除・課金・送金・sudo・rm -rfは実行前に明示的な承認を得る。同一操作が2回連続失敗した場合は自動停止して原因報告する。完了報告前には必ずスクショとAX状態で検証する。
今後——TelegramからMacを遠隔操作する
現状は3号機Mac mini M4上で動作する。推論は4号機spock(M1 Max 64GB)のOllamaが担当。KTがスマホのTelegramから指示を出し、pi-agentがMac画面を見ながらGUI操作を代行する——これが最終形だ。
残りの課題は二つ。自律ループの完全自動化と、X・Instagram・Threadsへの記事展開自動化だ。前者はVLMの判断品質を上げ、後者はUI-TARS DesktopのVLM画面認識投稿で補完する。
UI-TARS 7Bは座標を狂わせた。だがその「目」は正確だった。目と手を分離すれば、AIは確かにMacを操作できる。AXハイブリッドは、その分離の実例だ。
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/nbf94f3a84aad