OpenAI Codex 手機批准和 Gemini API Webhooks 可以同時用嗎？

兩者是不同平台的不同功能，目前各自獨立。Codex 手機批准是 OpenAI 平台的代理人督導介面；Gemini Webhooks 是 Google AI API 的回調機制。它們的適用場景不同，不是競爭替代品。

AWS AgentCore OS Level Actions 的截圖循環穩定嗎？

AWS 文件提醒右鍵選單這類操作可能不會照預期運作；座標式控制在 UI 變動或解析度不同時也可能不穩定。AWS 文件支持的是功能存在，不保證生產環境的可靠性，導入前需要用自己的工作流驗證。

概念比較圖：一個執行中的 AI 代理人任務分出三條控制路徑——Pull 手機批准介面、Push Webhook 回調、Loop 截圖動作循環，各自標出人類批准點

工作現場 2026年6月10日

AI 代理人跑了 20 分鐘，誰來決定要不要繼續？OpenAI、Google、AWS 給了三種答案

OpenAI 把手機變成批准介面、Google 用 Webhook 讓任務跑完再通知、AWS 讓代理人用截圖看整個 OS 桌面。三種設計不分優劣，但責任邊界完全不同——選型前先決定你的批准點在哪。

2026 年 5 月，OpenAI Codex 手機批准介面、Gemini API Webhooks、AWS AgentCore OS actions 同月推出，分別代表 pull、push、loop 三種長任務代理人控制哲學。本文比較三種模型的批准點設計、責任邊界與適用場景，給準備導入的開發者一份選型 checklist。

署名林子睿編輯廖玄同 AI 協作: 初稿輔助

報導解讀企業 Agent Stack AI Coding 工作流 Codex

重點一：2026 年 5 月，OpenAI、Google、AWS 各自推出一個新功能，應對的是同一個設計挑戰——AI 代理人在跑長時間任務時，人類怎麼保持控制？三家的答案完全不同。

重點二：OpenAI Codex 把手機變成批准介面（pull）；Gemini API Webhooks 讓任務跑完後主動通知你的系統（push）；AWS AgentCore 讓代理人透過截圖循環控制整個桌面（loop）。

重點三：三種模型背後是三種不同的責任邊界假設。選錯模型，代理人出事的時候，第一個說不清楚的就是誰該負責。

2026 年 5 月，OpenAI、Google 和 AWS 在同一個月各自推出了一個新功能，應對的是同一個設計缺口：AI 代理人跑了 20 分鐘，人類要怎麼保持控制？

OpenAI 的答案是手機批准介面：代理人繼續在遠端機器上跑，你在捷運上滑手機，看到截圖和終端輸出，決定要不要批准下一步。Google 的答案是 Webhook 回調：任務先跑完，跑完了系統主動打 HTTP POST 告訴你，你的服務在幾秒內回 2xx，然後自己去取結果。AWS 的答案是截圖循環：代理人每做一個動作就截圖，用截圖內容推理下一步，連跳出來會卡住自動化流程的列印視窗也能處理。

三種設計不分優劣。但三種設計代表三種不同的批准點位置，批准點在哪，責任就在哪。

長任務代理人的設計挑戰：批准點在哪裡，責任就在哪裡

AI 代理人的任務週期正在拉長：從秒級的一問一答，拉長到分鐘、甚至小時級的自動執行。Deep Research、批次資料處理、跨系統的多步驟工作流、OS 層的 UI 自動化——這些任務在跑的過程中，開發者通常不在旁邊盯著。

這帶來一個之前不存在的設計問題：代理人在你沒看著的時候做了動作，事後的責任要怎麼算？

這個問題聽起來像管理焦慮，實際上是工程架構問題。你的審計日誌怎麼記？你的回退機制在哪個步驟觸發？你的操作員知道批准的意思是「這個步驟我看過了」還是「整個任務我授權了」？批准點設計決定了這些答案。

「長任務代理人的核心問題不是效能，是責任邊界：代理人做了一個你事後不同意的動作，你跟代理人各扛幾成？」

本文用 pull / push / loop 三個詞來對照三家的設計。先說清楚：這是 Signals 編輯部為了比較而起的分類名稱，方便讀者對照用，並非 OpenAI、Google 或 AWS 的官方術語。三家的設計，各有各的假設。

Pull 模型：OpenAI Codex 手機批准——代理人等你看完，再繼續

OpenAI 在 2026 年 5 月 14 日把 Codex 帶進 ChatGPT 手機 App 預覽版（iOS 和 Android，逐步開放到所有方案，包含 Free 與 Go）。設計重點只有一句話：手機載入的是代理人工作的即時狀態。

你的筆電、Mac mini、或受管的遠端環境繼續跑 Codex。手機端你能看到截圖、終端輸出、差異（diff）、測試結果；你能批准指令、換模型、或開一個新工作。但檔案、憑證、權限、本機設定全部留在原本機器上，沒有任何東西移進手機。手機只是決定層，執行層在別的地方。

OpenAI 用了一個**安全中繼層（secure relay）**讓受信任的機器可以跨裝置連線，但不直接暴露在公開網路上。Remote SSH 同步正式可用（GA），讓 Codex 桌面版可以偵測 SSH 設定、在遠端機器內建立專案和執行任務。

Pull 模型的責任邊界：你批准了哪一步，就對那一步的執行結果負責。你在手機上看了截圖和輸出之後點了批准，代理人繼續——這個動作的審計紀錄是你的。需要人批准的指令，就等你回來再決定。這個設計把人類判斷時機的選擇權放到使用者手上。

代價是任務節奏。代理人的長任務從「你去忙，它跑完你回來看」變成「你得在某個時間點回來確認，它才能往下走」。Pull 模型假設你願意在任務中途被打斷——而且你能在手機的小螢幕上看懂足夠的資訊做出判斷。

Push 模型：Gemini API Webhooks——任務跑完，系統打電話告訴你

Google 在 2026 年 5 月 4 日為 Gemini API 推出 Webhooks，讓長時間跑的非同步任務在完成後主動通知，而不是讓你每隔幾秒問一次「好了嗎」。

設計對象是長時間非同步任務：Deep Research、長影片生成、大型批次任務、高流量處理工作。這些任務可能要跑幾分鐘到幾十分鐘，用輪詢（polling）不只浪費請求，更讓系統架構變複雜。

Gemini Webhooks 的實作是 HTTP POST callback，採用 Standard Webhooks 規格：每個請求帶 webhook-signature、webhook-id、webhook-timestamp 三個標頭。你的端點要在幾秒內回 2xx，然後非同步處理後續邏輯。沒有回 2xx？Gemini 會自動重試，最長 24 小時。

有兩種設定方式：靜態 Webhook（專案層級，簽名密鑰只給你一次，自己存好）和動態 Webhook（請求層級，JWKS 簽名）。事件目錄包括：batch.succeeded、batch.failed、batch.cancelled、batch.expired、interaction.completed、interaction.requires_action、video.generated 等。

回傳內容是薄的（thin payload）：Gemini 只告訴你「發生了什麼、結果在哪」，不把完整輸出塞進 callback body。你要自己去取結果。

Push 模型的責任邊界：任務先跑完，你的系統在收到 callback 後決定怎麼處理結果。人類的批准介面不在任務執行中途，在任務完成之後。這個模型假設你的系統設計是「任務先跑，結果出來再處理」——適合批次作業、非同步資料管線、不需要中途人工介入的生成任務。

這裡有一個你必須自己處理的細節：Gemini Webhooks 是 at-least-once delivery，不是 exactly-once。同一個 webhook-id 可能來兩次，而 Google 不會替你去重——去重邏輯要寫在你這端。

白話講：收到 batch.succeeded 之後，先確認 webhook-id 沒有被處理過，再去取結果，再做你的業務邏輯。這不難，但要記得設計進去。

Loop 模型：AWS AgentCore 截圖循環——代理人每一步都讓你看得到

AWS AgentCore Browser 在 2026 年 4 月 8 日宣布、5 月 5 日發布詳細技術文件的 OS Level Actions，解決的是所有 UI 自動化工程師都碰過的限制：有些 UI 就是不在 DOM 裡面。

標準的瀏覽器自動化只在瀏覽器的網頁層（DOM／CDP）內運作。但原生對話框、憑證選擇器、安全提示、Chrome 設定頁、右鍵選單——這些在 DOM 以外，CDP 碰不到。你的代理人要列印一份文件，列印視窗一跳出來，任務就卡住了。

AWS 的解法是把 OS 層的控制權暴露出來，透過 InvokeBrowser API。設計是一個動作──截圖──推理循環（action-screenshot-reaction loop）：送出動作 → OS 桌面執行 → 擷取整個桌面截圖（包含原生視窗）→ 視覺模型推理下一步 → 繼續。

八個動作：mouseClick、mouseMove、mouseDrag、mouseScroll、keyType、keyPress、keyShortcut、screenshot。每個呼叫帶一個動作，回傳 SUCCESS 或 FAILED（含 session ID x-amzn-browser-session-id）。只有 screenshot 動作有資料回傳；其他動作只告訴你成不成功。

AWS 自己舉的例子是列印視窗：代理人截圖看到列印對話框 → 視覺模型定位取消鍵的座標 → 點擊 → 再截圖確認對話框消失。

Loop 模型的責任邊界：每個動作都有一次截圖為證，你的審計紀錄是每一步的畫面。代理人不能跳過任何一個步驟。可見度最高，但操作代價也最高——每個任務步驟都要一次截圖推理才能繼續。

一個你需要知道的限制：AWS 在文件裡自己提醒，右鍵選單這類操作可能不會照預期運作。座標定位式的控制，在 UI 改版或解析度變動時也容易失準——官方沒有給量化的失敗率，導入前要用自己的工作流先測過。

此功能在 AgentCore Browser 可用的 14 個 AWS 區域預設啟用。

三種模型怎麼選：先決定批准點，再決定平台

換句話說，三種模型攤開來比的，是你的批准點落在任務生命週期的哪個位置：

模型	批准點	誰主動	適合場景	責任邊界
Pull（Codex）	任務中途，任意時刻	人類主動回來看	需要中途調整方向的開發任務、高風險步驟	你批准了哪一步，那一步你負責
Push（Gemini Webhooks）	任務完成後	系統主動通知	批次處理、生成任務、非同步資料管線	任務設計是你批准的；你的系統處理結果
Loop（AWS AgentCore）	每一個動作步驟	截圖驅動，代理人持續	OS 層 UI 自動化、含原生對話框的工作流	每步有截圖記錄；座標控制可能不穩

導入長任務代理人前，先釐清三個選型判斷：

任務中途，你需要人工介入嗎？ 如果是（需要改方向、確認高風險步驟）→ Pull 模型。如果否（任務設計好了讓它跑完）→ Push 模型。
你的系統有 Webhook callback 基礎設施嗎？ 有（有 endpoint、有重試處理、有去重邏輯）→ Push 模型可用。沒有 → 先用 Pull 或 Loop，暫時不碰 Push。
代理人需要控制 OS 層 UI 嗎？ 需要（原生對話框、列印視窗、憑證選擇器）→ Loop 模型。不需要 → Loop 的座標控制成本，拿來換 Pull 或 Push 的簡單性更划算。

三項判斷的答案可能讓你選同一種，也可能讓你在同一個工作流裡混用（例如：主要任務用 Push，特定步驟用 Loop 處理 OS 層 UI）。下次團隊討論代理人選型，把這張表帶進會議室：先決定批准點放在哪裡，再去比平台功能。順序反過來，你很容易拿著功能清單，選到一個責任邊界跟團隊假設不合的架構。

資料來源：OpenAI 官方公告〈Work with Codex from anywhere〉（2026-05-14）、Google 官方公告〈Reduce friction and latency for long-running jobs with Webhooks in Gemini API〉（2026-05-04）、Gemini API Webhooks 文件、AWS Machine Learning Blog〈Introducing OS Level Actions in Amazon Bedrock AgentCore Browser〉（2026-05-05）、AWS What’s New AgentCore Browser OS actions（2026-04-08）。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 工作現場
Key claims: OpenAI Codex 手機批准介面（2026 年 5 月 14 日預覽）讓使用者從 iOS/Android 審視截圖、終端輸出、差異並批准代理人指令，代理人繼續跑在遠端機器上；檔案、憑證、權限不進手機。
Gemini API Webhooks 於 2026 年 5 月 4 日推出，用 HTTP POST callback 取代對長任務的輪詢；採 Standard Webhooks 規格，at-least-once delivery，自動重試最長 24 小時；去重責任在開發者端。
AWS AgentCore Browser OS Level Actions（2026 年 4 月 8 日宣布）讓代理人透過動作──截圖循環控制 DOM 以外的 OS 層 UI（原生對話框、憑證提示、右鍵選單），每個動作回傳 SUCCESS 或 FAILED，只有截圖動作回傳畫面資料。
三種控制模型的核心差異是批准點位置：pull 模型讓人類決定審查時機，push 模型讓任務先跑完再通知，loop 模型讓代理人每一步都截圖確認（pull/push/loop 為 Signals 編輯部分類框架）。
選型前需釐清三個判斷：任務中途是否需要人工介入？系統是否有 webhook callback 基礎設施？代理人是否需要操控 OS 層 UI？
Entities: OpenAI · Codex · Google · Gemini API · AWS · Amazon Bedrock AgentCore
Taiwan relevance: medium
Confidence: high
Last updated: 2026-06-10
Canonical URL: https://signals.tw/articles/agent-long-task-control-patterns/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

林子睿（編輯：廖玄同），《AI 代理人跑了 20 分鐘，誰來決定要不要繼續？OpenAI、Google、AWS 給了三種答案》，矽基前沿 [Si]gnals，2026-06-10。https://signals.tw/articles/agent-long-task-control-patterns/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

AI 代理人跑了 20 分鐘，誰來決定要不要繼續？OpenAI、Google、AWS 給了三種答案

長任務代理人的設計挑戰：批准點在哪裡，責任就在哪裡

Pull 模型：OpenAI Codex 手機批准——代理人等你看完，再繼續

Push 模型：Gemini API Webhooks——任務跑完，系統打電話告訴你

Loop 模型：AWS AgentCore 截圖循環——代理人每一步都讓你看得到

三種模型怎麼選：先決定批准點，再決定平台

繼續讀

Codex 進 ChatGPT 手機版：捷運上也能批准 AI 寫的程式碼，但程式碼一行都沒進手機

AI 代理人的三層授權：讀取、記憶、執行，各有自己的規則

OpenAI 進 Bedrock 預覽版：模型選型開始變成雲端治理題

訂閱《矽基前沿週報》