矽基前沿 [Si]gnals
夜間 Claude Code 多個平行 subagent 跑大型程式碼遷移,其中一個舉起藍色小旗標示不確定的編輯型插畫
AI 戰爭

Claude Opus 4.8 把「誠實」變成 coding agent 的新規格

Anthropic 41 天就換旗艦,定價沒漲、SWE-Bench Pro 升到 69.2%;但會改變你工作流程的,是「少 4 倍放過自己瑕疵」這個數字。

Anthropic 在 2026 年 5 月 28 日推出 Claude Opus 4.8。這篇拆解它最該被看見的升級:不只 coding 分數,而是「少 4 倍讓自己瑕疵蒙混過關」的誠實度,以及在 dynamic workflows 無人監看跑上百個 subagent 的脈絡下,你該如何決定要不要升級與導入。

署名 謝皓文 編輯 廖玄同 AI 協作: 初稿輔助

重點一:Anthropic 在 2026 年 5 月 28 日推出旗艦模型 Claude Opus 4.8,距離 Opus 4.7 只隔 41 天;regular 定價維持每百萬輸入 token 5 美元、輸出 25 美元,沒漲價。

重點二:大家在傳的數字是 SWE-Bench Pro 69.2%,但 Anthropic 自己強調的是另一個——新模型「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過。

重點三:同步推出的 dynamic workflows(測試版)能在一個工作階段開出數百個平行 subagent、把跨數十萬行的遷移從啟動做到合併。當 AI 無人監看地跑長任務,「它會不會主動講出沒把握的地方」第一次變成你導入前要先回答的問題。

兩個數字在這次發布裡搶版面。一個是 69.2%——Opus 4.8 在 SWE-Bench Pro 這個代理式編程評測上的成績,比前代往上跳,也在這個榜上壓過 GPT-5.5 與 Gemini 3.1 Pro。這是各家媒體標題都會放的數字。

另一個數字是 4。Anthropic 說,Opus 4.8「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就蒙混過關。它被寫在公告中段,沒有 69.2% 那麼上鏡,卻是這次更該被看見的升級。

差別在於:69.2% 告訴你模型寫得多好;那個「4」告訴你,當它寫錯的時候,會不會老實講。而 Anthropic 這次同時推出的 dynamic workflows,正好讓後者變成你不得不在意的事——因為它要讓 Claude 無人監看地跑下去。

Opus 4.8 改了什麼:41 天接班、regular 價格不動

先把文件層的事實交代清楚。Anthropic 於 2026 年 5 月 28 日發布 Claude Opus 4.8,發布當天就在 claude.ai、Cowork 與 Claude Code 全面可用,API 識別碼是 claude-opus-4-8。距離 4 月中的 Opus 4.7,中間只隔了 41 天——對一向迭代偏慢的 Anthropic,是異常快的接班節奏。

對成本最敏感的讀者,定價是第一個要看的:

項目Opus 4.7Opus 4.8
Regular 輸入(每百萬 token)5 美元5 美元(不變)
Regular 輸出(每百萬 token)25 美元25 美元(不變)
Fast mode 輸入 / 輸出舊 fast mode10 / 50 美元
Fast mode 速度舊 fast mode約 2.5× 快
Fast mode 成本舊 fast mode約 3× 便宜

換句話說,標準用法升級完全不用多付錢,能力卻往上走;而趕時間的 fast mode,這次是相對舊 fast mode 又快又降價。對已經把 Opus 設成預設模型的團隊,這一格的決策其實很單純。

能力面,除了 SWE-Bench Pro 的 69.2%,Anthropic 公布的對照表還列了幾項:multidisciplinary reasoning(帶工具)約自 54.7% 升到 57.9%;在 Super-Agent 評測上是唯一端到端完成每個案例的模型,並在成本對等下勝過先前的 Opus 與 GPT-5.5;在 Online-Mind2Web(瀏覽器 / 電腦操作)拿到 84%;在 Legal Agent Benchmark 是首個在 all-pass 標準上整體突破 10% 的模型。

這些都是「更會做事」的證據。但這次發布和上一次的差別,藏在另一條線。

69.2% 之外:Anthropic 把誠實度也放進評估

把這次發布讀成「coding 分數又上去了」,會錯過 Anthropic 這次最想賣的東西。

官方反覆強調的是誠實(honesty):Opus 4.8「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過;它「更會主動標出對自己工作的不確定,也更不會做沒有根據的宣稱」;Anthropic 的 alignment 評估也說,模型出現偏差行為的比率「明顯低於 Opus 4.7」。測試過它的 Bridgewater 團隊則形容,它會「主動標出分析輸入與輸出的問題,這是其他模型經常漏掉的」。

這裡要先講清楚一個邊界:「少 4 倍」是 Anthropic 自家的評估方法得出的數字,不是第三方獨立驗證。 它衡量的也不是「模型出錯變少」,而是「模型出錯之後,把錯誤藏起來、當作沒事的情況變少」。這兩件事很不一樣。

白話講:一個會寫程式但會默默吞掉自己 bug 的助手,和一個寫得差不多、但會在 commit 訊息裡跟你說「這段我不確定、你最好複查」的助手——後者在真實工作裡省下的時間,遠比高幾分評測有感。Opus 4.8 想賣的是後者。

dynamic workflows 怎麼運作:一個工作階段開上百個 subagent

為什麼 Anthropic 這次先談誠實、再談能力?因為它同步推出的功能,把模型推進了一個「你看不到它每一步」的工作模式。

這個功能叫 dynamic workflows,目前是 research preview,開放給 Claude Code 的 Enterprise、Team 與 Max 方案。它讓 Claude 在單一工作階段內自己規劃工作、並執行數百個平行 subagent。Anthropic 給的具體場景是:「Claude Code 搭配 Opus 4.8 現在可以從啟動到合併(kickoff to merge),執行跨數十萬行程式碼的 codebase 級遷移。」

把這句話翻成工作現場:你給一個「把整個 repo 從舊框架搬到新框架」的任務,它自己拆成上百個子任務、派出上百個 subagent 同時動工,最後給你一個可以合併的結果。中間那幾百個步驟,你不會、也不可能一步步盯著看

這就是誠實度為什麼突然從「加分項」變成「前提」。當你逐行檢查 diff 時,模型誠不誠實是其次,反正你會抓到。但當它無人監看地跑完上百個 subagent,你唯一的防線,就是它願不願意在不確定的地方主動舉手——而不是把一個它自己都沒把握的改動,安靜地合併進去。

此外這次還有兩個給開發者的小升級:claude.ai 與 Cowork 上可調整的 effort control(投入程度),以及 Messages API 現在可以在 messages 陣列中途插入 system 條目、在長任務跑到一半時改變指示。

誠實為什麼變成規格:無人監看任務需要模型會喊停

過去兩年,模型發布的競賽幾乎都在比同一件事:更高的評測、更長的上下文、更便宜的 token。能力是規格,可信度是行銷話術。

Opus 4.8 把這個順序調了一下。當產品形態從「你問一句、它答一句」走到「你交代一個目標、它自己跑幾百步」,買方的痛點就從「它夠不夠聰明」變成「我敢不敢放手」。一個會藏錯的天才助手,在無人監看的長任務裡是負債;一個會老實喊停的普通助手,反而能放心交付。

這也是為什麼 Anthropic 把誠實度和 dynamic workflows 綁在同一場發布講——它們是同一個賭注的兩面:要你把更多控制權交給 AI 代理人,先得讓你相信它會在該停的地方停下來。

這同時是一個競爭卡位。當 GPT-5.5 與 Gemini 3.1 Pro 在 coding 分數上咬得很緊,Anthropic 選擇把戰場挪到「長時程、無人監看的 agent 任務由誰拿下」——而 Claude Code 正是它把這個賭注變現的入口。

公告最後還預告了代號 Mythos 的模型:目前以 preview 形式給少數組織做 cybersecurity 用途,Anthropic 說會在「未來數週」對所有客戶釋出,前提是 cyber 安全防護到位——屬前瞻,不是既成事實。

要不要升級:先用 5 題分開模型切換與 workflows 導入

把上面的拆解收斂成可以帶走的決策。

  1. 要不要把預設模型換成 Opus 4.8? 如果你已經在用 Opus 4.7:幾乎沒有不換的理由——regular 定價沒變、能力更好,fast mode 也比舊版本更快更便宜。今天就能換。
  2. 趕時間的批次任務值不值得開 fast mode? 相對舊 fast mode,2.5× 快、3× 便宜;它適合大量、可容錯、要求回應速度的工作。對成本敏感又跑量的團隊,這一格最值得重算。
  3. 要不要開 dynamic workflows? 先確認你在 Enterprise / Team / Max 方案,且它仍是 research preview——別把它放進不能出錯的正式遷移任務。先拿可拋棄的分支試跑。
  4. 你的容錯界線在哪? 要回答的不是技術問題,是流程問題:你願不願意把「檢查每一步」換成「相信它會在不確定時喊停」?答案是否定的,就先別讓它無人監看地跑到 merge。
  5. 「少 4 倍」要怎麼用? 把它當成 Anthropic 的自評、不是保證。實務上仍要保留 code review 與測試這道關;它降低的是風險頻率,不是讓你免除驗證。

升級這件事,今天就可以做——定價沒變、能力更好,把預設模型換成 Opus 4.8 不太需要猶豫。但 dynamic workflows 是另一個層級的決定:它要你拿「盯著每一步」換成「相信它會喊停」。Opus 4.8 把賭注擺到了桌上,要不要跟,取決於你對自家流程的信任,而不是那個 69.2%。

資料來源:Anthropic「Introducing Claude Opus 4.8」官方公告;TechCrunch、MacRumors、9to5Mac 於 2026 年 5 月 28 日之報導。

SOURCES

  1. A Introducing Claude Opus 4.8
  2. B Anthropic releases Opus 4.8 with new 'dynamic workflow' tool
  3. B Anthropic Launches Claude Opus 4.8 With Gains in Coding and Honesty
  4. B Anthropic upgrades Claude with new Opus 4.8 model, here's what's new

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
AI 戰爭
Key claims
  • Anthropic 於 2026 年 5 月 28 日發布 Claude Opus 4.8,距離 Opus 4.7 僅 41 天,regular 定價維持每百萬輸入 token 5 美元、輸出 25 美元不變。
  • Opus 4.8 在 SWE-Bench Pro 取得 69.2%,Anthropic 並稱模型「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過——後者是這次發布更值得注意的升級。
  • dynamic workflows(research preview)讓 Claude Code 在單一工作階段規劃並執行數百個平行 subagent,可從啟動到合併完成跨數十萬行的 codebase 級遷移,使模型的誠實度從加分項變成導入前提。
Entities
Anthropic · Claude Opus 4.8 · Claude Opus 4.7 · Claude Code · Mythos · GPT-5.5 · Gemini 3.1 Pro
Taiwan relevance
medium
Confidence
high
Last updated
2026-06-09
Canonical URL
https://signals.tw/articles/claude-opus-4-8/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

謝皓文(編輯:廖玄同),《Claude Opus 4.8 把「誠實」變成 coding agent 的新規格》,矽基前沿 [Si]gnals,2026-06-09。https://signals.tw/articles/claude-opus-4-8/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。