工作現場 2026年6月26日

會操作螢幕的 AI 不再需要特製模型：Google 把 computer use 內建進 Gemini 3.5 Flash

能力從特製模型搬進主力快模型，難題也跟著換了一個

本文由 AI 協助研究與起草，矽基前沿編輯部編修，總編輯廖玄同審閱定稿。編輯方針與 AI 使用說明

重點一：2026 年 6 月 24 日，Google 把 computer use 變成 Gemini 3.5 Flash 的內建原生工具，取代先前獨立的 Gemini 2.5 computer use 模型——讓螢幕操作能力直接長在自家主力的便宜快模型上。

重點二：3.5 Flash 能在瀏覽器、行動裝置與桌面環境看畫面、推理、執行動作，走 Gemini API 與 Gemini Enterprise Agent Platform 取用（仍為 preview），Google 自報在 OSWorld-Verified 拿到 78.4 分、為自家最佳。

重點三：發布把安全擺在正中央——對抗式訓練加兩道可選企業護欄（敏感動作要人確認、偵測注入自動停止）；難題從「點不點得到」換成「敢不敢讓它點」。早期客戶 Browserbase、Browser Use、UiPath。

讓 AI 自己操作電腦螢幕，過去得為它準備一顆專門的模型。Anthropic 的 Computer Use、OpenAI 的 Operator、Google 自己的 Gemini 2.5 computer use 模型，都是和日常聊天、寫程式分開的另一條產品線。要建一個會自己點按鈕、填表單、跨頁面跑流程的代理人，先要回答的問題是：值不值得為它養一顆特製模型。

6 月 24 日，Google 把這顆特製模型收掉了。它宣布 computer use 成為 Gemini 3.5 Flash 的內建原生工具，取代先前獨立的 Gemini 2.5 computer use 模型——能力直接長在自家的主力便宜快模型上。Google 同時釋出一個數字：在衡量螢幕操作代理人的 OSWorld-Verified 基準上，3.5 Flash 拿到 78.4 分，是自家 computer use 至今最好的成績。

這不是一種新能力誕生，是一次搬家。能力搬進主力模型的那一刻，要問的問題也換了一個：從「要不要為螢幕操作養一顆模型」，變成「用哪個模型、怎麼讓它能被信任地點下去」——Google 這次發布的重心，恰好就壓在後半句。

搬家具體換了什麼？

差別在「特製」與「內建」。先前要用 Gemini 操作螢幕，得呼叫獨立的 Gemini 2.5 computer use 模型；現在這項能力直接內建在 Gemini 3.5 Flash 裡，成為它的原生工具。對開發者，這代表同一顆負責一般推理與寫程式的快模型，就能順手接下「看畫面、推理下一步、執行動作」這條任務。

能操作的範圍涵蓋瀏覽器、行動裝置與桌面三種環境。Google 把它的用途指向長流程與企業自動化——例如持續性的軟體測試，以及在各種專業軟體之間來回的知識工作。取用方式有兩條：開發端走 Gemini API，企業端走 Gemini Enterprise Agent Platform。

一個要照實標的限制：computer use 在 3.5 Flash 上仍是 preview（測試版）。定價、速率限制與正式上線時程，官方這次沒有完整揭露。

78.4 是什麼分數，又不能證明什麼？

OSWorld-Verified 是評測螢幕操作代理人的公開基準，讓模型在真實作業系統環境裡完成一連串任務，再看完成率。Google 表示 3.5 Flash 在這個基準上拿到 78.4 分，並稱之為自家 computer use 至今最佳。

這個數字適合看趨勢，不適合單獨拿來下結論。它由 Google 自報，衡量的是受控基準裡的任務完成率，不等於你那一套內部軟體、那些非標準對話框與權限彈窗下的可靠度。第三方彙整把 78.4 放在 OSWorld-Verified 榜上中段、與部分前沿模型同一檔次，但這類跨模型名次與成本對照來自二手整理、會隨榜單更新而變動——拿來當大致座標可以，當硬證據不宜。

Google 為什麼把護欄放在發布正中央？

一個會自己點螢幕的代理人，最危險的不是它會點，而是它可能被頁面上看不見的指令騙著去點。這類「間接 prompt injection」——惡意指令藏在代理人讀到的網頁或文件裡——正是螢幕操作代理人真正的卡點。Google 這次沒有把安全放在附註，而是放進發布的主軸。

做法分兩層。底層是對抗式訓練，讓模型對這類注入更有抵抗力。上層是兩道可選的企業護欄：

護欄	擋的是什麼
敏感／不可逆動作前要求使用者明確確認	送出、付款、刪除、改設定這類「按了收不回」的步驟，先停下來等人點頭
偵測到間接 prompt injection 時自動停止任務	代理人讀到藏在頁面裡的惡意指令時，直接中止，而不是照著做

Google 把這套搭配沙箱隔離、人類審核與存取控制，稱為縱深防禦。把護欄擺到這個位置，等於承認 computer use 要進企業真實環境，瓶頸不在能不能完成任務，而在敢不敢讓它在沒人盯著時自己動手。

早期誰在接，拿來做什麼？

Google 列出的早期客戶有三家，方向各不同：瀏覽器基礎設施平台 Browserbase、開源瀏覽器代理人框架 Browser Use，以及企業自動化平台 UiPath。前兩家是給開發者搭代理人的底層工具，UiPath 則代表傳統 RPA（流程自動化）廠商把這類能力接進企業既有流程。

同一天，消費端也動了：Gemini in Chrome 加入「Select from screen」，讓使用者圈選畫面上的區域交給 Gemini 處理。一邊是開發者與企業的 API 與代理平台，一邊是瀏覽器裡的日常入口，兩條線都指向同一件事——讓模型直接讀畫面、接著動作，正在從特製功能變成預設選項。

自建螢幕操作代理人：這次改變了哪些條件？

把今天的事實收成一張清單，判斷留給讀者自己：

門檻變了：要做會操作瀏覽器／桌面軟體的代理人，不必再為它選一顆特製模型；主力快模型 Gemini 3.5 Flash 就帶這項能力，走 Gemini API 或 Enterprise Agent Platform 接。
先當 preview 看：能力可用，但定價、速率與 GA 時程未定，別把關鍵流程現在就壓上去。
跑分只是座標：78.4 是 Google 自報的 OSWorld-Verified 成績，拿來估能力檔次可以；你的真實軟體環境要自己測。
護欄要自己整合：兩道企業護欄是「可選」的，要不要對敏感動作強制確認、要不要開注入偵測自動中止，是你的設計決定，不是預設保險。
真正要先想清楚的是信任邊界：哪些動作能讓代理人自己做、哪些一定要人點頭——這條線，比跑分更決定它能不能進你的正式流程。

會操作螢幕的 AI 搬進主力模型那天，難題就從「點不點得到」換成「敢不敢讓它點」。接下來值得盯的，不是下一個跑分，而是這兩道護欄在真實環境裡擋得住多少。

資料來源：Google〈Introducing computer use in Gemini 3.5 Flash〉（官方部落格，2026-06-24）、Google AI for Developers（Gemini API release notes，2026-06-24）、The Decoder、9to5Google、The Next Web。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 工作現場
Key claims: 2026 年 6 月 24 日，Google 將 computer use 變成 Gemini 3.5 Flash 的內建原生工具，取代先前獨立的 Gemini 2.5 computer use 模型。
Gemini 3.5 Flash 的 computer use 能在瀏覽器、行動裝置與桌面環境中看、推理並執行動作，透過 Gemini API 與 Gemini Enterprise Agent Platform 取用，仍為 preview。
Google 表示其在 OSWorld-Verified 取得 78.4 分，為自家 computer use 最佳成績。
Google 以對抗式訓練降低 prompt injection 風險，並提供兩道可選企業護欄：對敏感或不可逆動作要求使用者明確確認、偵測到間接 prompt injection 時自動停止任務。
早期客戶包含 Browserbase、Browser Use 與 UiPath；同日 Gemini in Chrome 也加入「Select from screen」。
Entities: Google · Gemini 3.5 Flash · Gemini 2.5 computer use model · Gemini API · Gemini Enterprise Agent Platform · OSWorld-Verified · Browserbase · Browser Use · UiPath
Taiwan relevance: medium
Confidence: high
Last updated: 2026-06-25
Canonical URL: https://signals.tw/articles/gemini-flash-computer-use/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

矽基前沿 · 工作現場線（編輯：廖玄同），《會操作螢幕的 AI 不再需要特製模型：Google 把 computer use 內建進 Gemini 3.5 Flash》，矽基前沿 [Si]gnals，2026-06-25。https://signals.tw/articles/gemini-flash-computer-use/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

會操作螢幕的 AI 不再需要特製模型：Google 把 computer use 內建進 Gemini 3.5 Flash

搬家具體換了什麼？

78.4 是什麼分數，又不能證明什麼？

Google 為什麼把護欄放在發布正中央？

早期誰在接，拿來做什麼？

自建螢幕操作代理人：這次改變了哪些條件？

繼續讀

Google I/O 2026：Gemini Spark 24 小時不下班，代理人從工具變委託人

Google 把 Gemini 放進 Android 與 Chrome：手機代理人的關鍵在最後一次確認

Apple 交棒 Ternus，重壓本地端 AI

訂閱《矽基前沿週報》