矽基前沿 [Si]gnals
瀏覽器代理人面對跨出 DOM 的原生對話框,旁邊有 DOM、OS、Click、Verify 四個操作標記
工作現場

AI 代理人卡在列印視窗:AWS 讓 AgentCore Browser 伸手到 OS 層

OS Level Actions 把滑鼠、鍵盤、捷徑和全桌面截圖放進 AgentCore Browser,專門處理 DOM 之外那一層原生對話框。

AWS 在 2026 年 5 月 5 日詳細介紹 Amazon Bedrock AgentCore Browser OS Level Actions。本文從 print dialog 場景拆解 DOM/CDP 邊界、action-screenshot-reaction loop、八種操作和安全邊界。

署名 林子睿 編輯 廖玄同 AI 協作: 初稿輔助

一個 browser agent 正在替你下載報表。網頁上的按鈕都點完了,最後跳出系統 print dialog。畫面上明明有 Cancel,模型也看得出那顆按鈕在哪裡。

問題是,對 Playwright 或 Chrome DevTools Protocol 來說,那顆按鈕不在 DOM 裡。它不屬於網頁元素,是作業系統畫出來的原生介面。代理人可以截圖、可以理解,工具層卻按不到。

AWS 5 月 5 日介紹 Amazon Bedrock AgentCore Browser 的 OS Level Actions,就是針對這段落差。它讓 AgentCore Browser session 透過 InvokeBrowser 執行滑鼠、鍵盤、捷徑、拖曳、滾動、輸入和全桌面截圖,處理那些離開 web layer 的自動化狀態。

這件事把一條很實際的邊界畫出來:網頁自動化到 DOM 為止,很多真實流程會跨出去。

那個按不到的 print dialog

AWS 在文章裡用 window.print() 當例子。網頁觸發列印後,native print dialog 出現。CDP 無法操作它,因為它不是網頁的一部分。

OS Level Actions 的做法是:

  1. 代理人先截圖,看見整個 desktop,包括 native dialog。
  2. 視覺模型判斷 Cancel button 的座標。
  3. 代理人透過 InvokeBrowser 發出 mouseClick
  4. AgentCore 在 full OS desktop 執行點擊。
  5. 代理人再截圖確認 dialog 消失。

這個流程的重點不在列印,而在「看得到」和「做得到」之間終於接上工具。對 vision-enabled agent 來說,這很關鍵。模型可能早就能辨識畫面,但如果執行層只摸得到 DOM,它就會卡在最普通的系統對話框。

DOM 邊界外面有哪些東西

AWS 列出幾種 DOM/CDP 很難處理的情境:native dialogs、security prompts、certificate choosers、context menus、Chrome settings、keyboard shortcuts。

這些東西不罕見。測試環境裡可能少見,生產流程裡反而常出現:

狀態DOM 自動化的問題OS action 可能補上的能力
Print dialog沒有可選 DOM 元素截圖後點擊座標
Certificate chooserCDP 看不到原生選擇器用鍵盤或滑鼠操作
Right-click menu網頁事件和原生 menu 混在一起mouseClick 設成 RIGHT
Keyboard shortcut有些流程靠快捷鍵觸發keyShortcut
Native security prompt不在 browser viewport DOM 內full desktop screenshot + 操作

這對 QA、自動化營運、企業內部流程 agent 都有價值。很多任務看起來像瀏覽器任務,實際上會碰到 OS 或 browser chrome 的部分。只靠 DOM selector,會在最不方便的地方斷掉。

八種 action,組成一個截圖迴圈

AWS 把 OS Level Actions 分成三類:mouse control、keyboard input、visual capture。

Action用途注意點
mouseClick點擊座標,可指定 button 和 clickCount座標錯就點錯東西
mouseMove移動滑鼠到座標需要知道 viewport 尺寸
mouseDrag拖曳到終點起點終點要清楚
mouseScroll滾動畫面delta 有範圍限制
keyType輸入文字最多 10,000 characters
keyPress按單一鍵,可重複key name 要符合規格
keyShortcut按快捷鍵組合最多五個 keys
screenshot擷取 full OS desktop這是唯一回傳資料的 action

這些 action 本身不複雜。產品模式藏在 AWS 說的 action-screenshot-reaction loop:

代理人送出 action,AgentCore 回 SUCCESSFAILED。代理人接著截圖,觀察畫面變化,再決定下一步。每一次操作都要有觀察,不然座標控制會很危險。

這也是 OS action 和一般 tool call 的差別。呼叫 API 常常有結構化 response;點擊畫面只有結果狀態和下一張 screenshot。代理人要靠視覺重新確認世界狀態。

能操作 OS,也代表風險往外擴

OS Level Actions 讓 AgentCore Browser 更有用,也讓責任變重。

第一是座標脆弱性。AWS 說座標對應 session viewport。例如 1920x1080 的 session,x/y 要落在對應範圍內。畫面尺寸、縮放、dialog 位置、語言版本,都可能讓同一個 workflow 需要不同座標。

第二是截圖資料。Full desktop screenshot 會看到 browser window 之外的 UI、native dialog、OS modal。企業要知道這些圖像是否被保存、送給哪個模型、如何遮蔽敏感資訊。

第三是權限範圍。AWS 範例需要 IAM execution role,包含 bedrock-agentcore:InvokeBrowserStartBrowserSessionStopBrowserSession。這類權限不該隨便給所有 agent。

第四是虛擬化限制。AWS 文件提到,某些 context menu items 在 virtualized environment 裡可能表現不如預期。這意味著 OS action 不是萬能鍵,還是要測。

什麼時候值得打開這層能力

如果你的任務全在網頁 DOM 裡完成,OS Level Actions 未必必要。Selector、accessibility tree、CDP、Playwright 仍然更穩、更可讀、更容易測。

適合使用 OS action 的,是那些會跨出 web layer 的流程:

  • 下載或列印時跳出 native dialog。
  • 企業登入需要 certificate chooser 或安全 prompt。
  • 工作流依賴右鍵選單或鍵盤快捷鍵。
  • 視覺代理人需要操作整個 browser environment,而不只網頁內容。
  • 測試團隊要驗證真實使用者會遇到的 modal 或 OS prompt。

開啟之前,團隊應該先確認:

問題需要答案
Session 範圍代理人只能操作哪個 browser session?
Action 範圍允許 mouse、keyboard、shortcut 到什麼程度?
Screenshot圖像送去哪裡、保存多久、是否含敏感資料?
Verification每次操作後是否強制截圖確認?
Stop path點錯、失敗、畫面不明時如何停止?
Audit事後能不能重建 action sequence?

Browser agent 的難題,常常卡在「理解畫面」和「可靠執行」中間。AWS 這次把接點往 OS layer 推了一步。這會解掉一批真實流程裡的卡點,也會迫使團隊更嚴格地定義:代理人到底被允許操作哪一層介面。

SOURCES

  1. A Introducing OS Level Actions in Amazon Bedrock AgentCore Browser
  2. A Amazon Bedrock AgentCore Browser adds OS-level interaction capabilities

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
工作現場
Key claims
  • AWS 在 2026 年 5 月 5 日發布 AgentCore Browser OS Level Actions 技術說明,讓代理人可透過 InvokeBrowser 操作 OS 層級的滑鼠、鍵盤與截圖。
  • AWS 文件列出八種 action:mouseClick、mouseMove、mouseDrag、mouseScroll、keyType、keyPress、keyShortcut、screenshot。
  • 這個能力適用於 AgentCore Browser session,不能解讀成控制使用者任意本機桌面。
Entities
AWS · Amazon Bedrock AgentCore Browser · Playwright · Chrome DevTools Protocol · InvokeBrowser
Taiwan relevance
medium
Confidence
high
Last updated
2026-05-09
Canonical URL
https://signals.tw/articles/aws-agentcore-browser-os-actions/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

林子睿(編輯:廖玄同),《AI 代理人卡在列印視窗:AWS 讓 AgentCore Browser 伸手到 OS 層》,矽基前沿 [Si]gnals,2026-05-09。https://signals.tw/articles/aws-agentcore-browser-os-actions/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。