矽基前沿 [Si]gnals
一個桌面應用程式畫面,游標被一層半透明的代理人面板接管,面板上有 Approve 與 Stop 兩個克制的控制鈕,暗示 AI 操作螢幕與其護欄
工作現場

會操作螢幕的 AI 不再需要特製模型:Google 把 computer use 內建進 Gemini 3.5 Flash

能力從特製模型搬進主力快模型,難題也跟著換了一個

本文由 AI 協助研究與起草,矽基前沿編輯部編修,總編輯廖玄同審閱定稿。 編輯方針與 AI 使用說明

重點一:2026 年 6 月 24 日,Googlecomputer use 變成 Gemini 3.5 Flash 的內建原生工具,取代先前獨立的 Gemini 2.5 computer use 模型——讓螢幕操作能力直接長在自家主力的便宜快模型上。

重點二:3.5 Flash 能在瀏覽器、行動裝置與桌面環境看畫面、推理、執行動作,走 Gemini APIGemini Enterprise Agent Platform 取用(仍為 preview),Google 自報在 OSWorld-Verified 拿到 78.4 分、為自家最佳。

重點三:發布把安全擺在正中央——對抗式訓練加兩道可選企業護欄(敏感動作要人確認、偵測注入自動停止);難題從「點不點得到」換成「敢不敢讓它點」。早期客戶 Browserbase、Browser Use、UiPath

讓 AI 自己操作電腦螢幕,過去得為它準備一顆專門的模型。Anthropic 的 Computer Use、OpenAI 的 Operator、Google 自己的 Gemini 2.5 computer use 模型,都是和日常聊天、寫程式分開的另一條產品線。要建一個會自己點按鈕、填表單、跨頁面跑流程的代理人,先要回答的問題是:值不值得為它養一顆特製模型。

6 月 24 日,Google 把這顆特製模型收掉了。它宣布 computer use 成為 Gemini 3.5 Flash 的內建原生工具,取代先前獨立的 Gemini 2.5 computer use 模型——能力直接長在自家的主力便宜快模型上。Google 同時釋出一個數字:在衡量螢幕操作代理人的 OSWorld-Verified 基準上,3.5 Flash 拿到 78.4 分,是自家 computer use 至今最好的成績。

這不是一種新能力誕生,是一次搬家。能力搬進主力模型的那一刻,要問的問題也換了一個:從「要不要為螢幕操作養一顆模型」,變成「用哪個模型、怎麼讓它能被信任地點下去」——Google 這次發布的重心,恰好就壓在後半句。

搬家具體換了什麼?

差別在「特製」與「內建」。先前要用 Gemini 操作螢幕,得呼叫獨立的 Gemini 2.5 computer use 模型;現在這項能力直接內建在 Gemini 3.5 Flash 裡,成為它的原生工具。對開發者,這代表同一顆負責一般推理與寫程式的快模型,就能順手接下「看畫面、推理下一步、執行動作」這條任務。

能操作的範圍涵蓋瀏覽器、行動裝置與桌面三種環境。Google 把它的用途指向長流程與企業自動化——例如持續性的軟體測試,以及在各種專業軟體之間來回的知識工作。取用方式有兩條:開發端走 Gemini API,企業端走 Gemini Enterprise Agent Platform

一個要照實標的限制:computer use 在 3.5 Flash 上仍是 preview(測試版)。定價、速率限制與正式上線時程,官方這次沒有完整揭露。

78.4 是什麼分數,又不能證明什麼?

OSWorld-Verified 是評測螢幕操作代理人的公開基準,讓模型在真實作業系統環境裡完成一連串任務,再看完成率。Google 表示 3.5 Flash 在這個基準上拿到 78.4 分,並稱之為自家 computer use 至今最佳。

這個數字適合看趨勢,不適合單獨拿來下結論。它由 Google 自報,衡量的是受控基準裡的任務完成率,不等於你那一套內部軟體、那些非標準對話框與權限彈窗下的可靠度。第三方彙整把 78.4 放在 OSWorld-Verified 榜上中段、與部分前沿模型同一檔次,但這類跨模型名次與成本對照來自二手整理、會隨榜單更新而變動——拿來當大致座標可以,當硬證據不宜。

Google 為什麼把護欄放在發布正中央?

一個會自己點螢幕的代理人,最危險的不是它會點,而是它可能被頁面上看不見的指令騙著去點。這類「間接 prompt injection」——惡意指令藏在代理人讀到的網頁或文件裡——正是螢幕操作代理人真正的卡點。Google 這次沒有把安全放在附註,而是放進發布的主軸。

做法分兩層。底層是對抗式訓練,讓模型對這類注入更有抵抗力。上層是兩道可選的企業護欄

護欄擋的是什麼
敏感/不可逆動作前要求使用者明確確認送出、付款、刪除、改設定這類「按了收不回」的步驟,先停下來等人點頭
偵測到間接 prompt injection 時自動停止任務代理人讀到藏在頁面裡的惡意指令時,直接中止,而不是照著做

Google 把這套搭配沙箱隔離、人類審核與存取控制,稱為縱深防禦。把護欄擺到這個位置,等於承認 computer use 要進企業真實環境,瓶頸不在能不能完成任務,而在敢不敢讓它在沒人盯著時自己動手。

早期誰在接,拿來做什麼?

Google 列出的早期客戶有三家,方向各不同:瀏覽器基礎設施平台 Browserbase、開源瀏覽器代理人框架 Browser Use,以及企業自動化平台 UiPath。前兩家是給開發者搭代理人的底層工具,UiPath 則代表傳統 RPA(流程自動化)廠商把這類能力接進企業既有流程

同一天,消費端也動了:Gemini in Chrome 加入「Select from screen」,讓使用者圈選畫面上的區域交給 Gemini 處理。一邊是開發者與企業的 API 與代理平台,一邊是瀏覽器裡的日常入口,兩條線都指向同一件事——讓模型直接讀畫面、接著動作,正在從特製功能變成預設選項

自建螢幕操作代理人:這次改變了哪些條件?

把今天的事實收成一張清單,判斷留給讀者自己:

  • 門檻變了:要做會操作瀏覽器/桌面軟體的代理人,不必再為它選一顆特製模型;主力快模型 Gemini 3.5 Flash 就帶這項能力,走 Gemini API 或 Enterprise Agent Platform 接。
  • 先當 preview 看:能力可用,但定價、速率與 GA 時程未定,別把關鍵流程現在就壓上去。
  • 跑分只是座標:78.4 是 Google 自報的 OSWorld-Verified 成績,拿來估能力檔次可以;你的真實軟體環境要自己測。
  • 護欄要自己整合:兩道企業護欄是「可選」的,要不要對敏感動作強制確認、要不要開注入偵測自動中止,是你的設計決定,不是預設保險。
  • 真正要先想清楚的是信任邊界:哪些動作能讓代理人自己做、哪些一定要人點頭——這條線,比跑分更決定它能不能進你的正式流程。

會操作螢幕的 AI 搬進主力模型那天,難題就從「點不點得到」換成「敢不敢讓它點」。接下來值得盯的,不是下一個跑分,而是這兩道護欄在真實環境裡擋得住多少。

資料來源:Google〈Introducing computer use in Gemini 3.5 Flash〉(官方部落格,2026-06-24)、Google AI for Developers(Gemini API release notes,2026-06-24)、The Decoder、9to5Google、The Next Web。

SOURCES

  1. A Introducing computer use in Gemini 3.5 Flash(Google, 2026-06-24)
  2. A Gemini API release notes / changelog(Google AI for Developers, 2026-06-24)
  3. B Google bakes computer control directly into Gemini 3.5 Flash(The Decoder, 2026-06-24)
  4. B Gemini in Chrome adds 'Select from screen' as Gemini 3.5 Flash gains computer use(9to5Google, 2026-06-24)
  5. B Gemini 3.5 Flash can now see and control your screen(The Next Web, 2026-06-24)

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
工作現場
Key claims
  • 2026 年 6 月 24 日,Google 將 computer use 變成 Gemini 3.5 Flash 的內建原生工具,取代先前獨立的 Gemini 2.5 computer use 模型。
  • Gemini 3.5 Flash 的 computer use 能在瀏覽器、行動裝置與桌面環境中看、推理並執行動作,透過 Gemini API 與 Gemini Enterprise Agent Platform 取用,仍為 preview。
  • Google 表示其在 OSWorld-Verified 取得 78.4 分,為自家 computer use 最佳成績。
  • Google 以對抗式訓練降低 prompt injection 風險,並提供兩道可選企業護欄:對敏感或不可逆動作要求使用者明確確認、偵測到間接 prompt injection 時自動停止任務。
  • 早期客戶包含 Browserbase、Browser Use 與 UiPath;同日 Gemini in Chrome 也加入「Select from screen」。
Entities
Google · Gemini 3.5 Flash · Gemini 2.5 computer use model · Gemini API · Gemini Enterprise Agent Platform · OSWorld-Verified · Browserbase · Browser Use · UiPath
Taiwan relevance
medium
Confidence
high
Last updated
2026-06-25
Canonical URL
https://signals.tw/articles/gemini-flash-computer-use/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

矽基前沿 · 工作現場線(編輯:廖玄同),《會操作螢幕的 AI 不再需要特製模型:Google 把 computer use 內建進 Gemini 3.5 Flash》,矽基前沿 [Si]gnals,2026-06-25。https://signals.tw/articles/gemini-flash-computer-use/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。