Claude Opus 4.8 把「誠實」變成 coding agent 的新規格
Anthropic 41 天就換旗艦,定價沒漲、SWE-Bench Pro 升到 69.2%;但會改變你工作流程的,是「少 4 倍放過自己瑕疵」這個數字。
Anthropic 在 2026 年 5 月 28 日推出 Claude Opus 4.8。這篇拆解它最該被看見的升級:不只 coding 分數,而是「少 4 倍讓自己瑕疵蒙混過關」的誠實度,以及在 dynamic workflows 無人監看跑上百個 subagent 的脈絡下,你該如何決定要不要升級與導入。
重點一:Anthropic 在 2026 年 5 月 28 日推出旗艦模型 Claude Opus 4.8,距離 Opus 4.7 只隔 41 天;regular 定價維持每百萬輸入 token 5 美元、輸出 25 美元,沒漲價。
重點二:大家在傳的數字是 SWE-Bench Pro 69.2%,但 Anthropic 自己強調的是另一個——新模型「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過。
重點三:同步推出的 dynamic workflows(測試版)能在一個工作階段開出數百個平行 subagent、把跨數十萬行的遷移從啟動做到合併。當 AI 無人監看地跑長任務,「它會不會主動講出沒把握的地方」第一次變成你導入前要先回答的問題。
兩個數字在這次發布裡搶版面。一個是 69.2%——Opus 4.8 在 SWE-Bench Pro 這個代理式編程評測上的成績,比前代往上跳,也在這個榜上壓過 GPT-5.5 與 Gemini 3.1 Pro。這是各家媒體標題都會放的數字。
另一個數字是 4。Anthropic 說,Opus 4.8「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就蒙混過關。它被寫在公告中段,沒有 69.2% 那麼上鏡,卻是這次更該被看見的升級。
差別在於:69.2% 告訴你模型寫得多好;那個「4」告訴你,當它寫錯的時候,會不會老實講。而 Anthropic 這次同時推出的 dynamic workflows,正好讓後者變成你不得不在意的事——因為它要讓 Claude 無人監看地跑下去。
Opus 4.8 改了什麼:41 天接班、regular 價格不動
先把文件層的事實交代清楚。Anthropic 於 2026 年 5 月 28 日發布 Claude Opus 4.8,發布當天就在 claude.ai、Cowork 與 Claude Code 全面可用,API 識別碼是 claude-opus-4-8。距離 4 月中的 Opus 4.7,中間只隔了 41 天——對一向迭代偏慢的 Anthropic,是異常快的接班節奏。
對成本最敏感的讀者,定價是第一個要看的:
| 項目 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| Regular 輸入(每百萬 token) | 5 美元 | 5 美元(不變) |
| Regular 輸出(每百萬 token) | 25 美元 | 25 美元(不變) |
| Fast mode 輸入 / 輸出 | 舊 fast mode | 10 / 50 美元 |
| Fast mode 速度 | 舊 fast mode | 約 2.5× 快 |
| Fast mode 成本 | 舊 fast mode | 約 3× 便宜 |
換句話說,標準用法升級完全不用多付錢,能力卻往上走;而趕時間的 fast mode,這次是相對舊 fast mode 又快又降價。對已經把 Opus 設成預設模型的團隊,這一格的決策其實很單純。
能力面,除了 SWE-Bench Pro 的 69.2%,Anthropic 公布的對照表還列了幾項:multidisciplinary reasoning(帶工具)約自 54.7% 升到 57.9%;在 Super-Agent 評測上是唯一端到端完成每個案例的模型,並在成本對等下勝過先前的 Opus 與 GPT-5.5;在 Online-Mind2Web(瀏覽器 / 電腦操作)拿到 84%;在 Legal Agent Benchmark 是首個在 all-pass 標準上整體突破 10% 的模型。
這些都是「更會做事」的證據。但這次發布和上一次的差別,藏在另一條線。
69.2% 之外:Anthropic 把誠實度也放進評估
把這次發布讀成「coding 分數又上去了」,會錯過 Anthropic 這次最想賣的東西。
官方反覆強調的是誠實(honesty):Opus 4.8「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過;它「更會主動標出對自己工作的不確定,也更不會做沒有根據的宣稱」;Anthropic 的 alignment 評估也說,模型出現偏差行為的比率「明顯低於 Opus 4.7」。測試過它的 Bridgewater 團隊則形容,它會「主動標出分析輸入與輸出的問題,這是其他模型經常漏掉的」。
這裡要先講清楚一個邊界:「少 4 倍」是 Anthropic 自家的評估方法得出的數字,不是第三方獨立驗證。 它衡量的也不是「模型出錯變少」,而是「模型出錯之後,把錯誤藏起來、當作沒事的情況變少」。這兩件事很不一樣。
白話講:一個會寫程式但會默默吞掉自己 bug 的助手,和一個寫得差不多、但會在 commit 訊息裡跟你說「這段我不確定、你最好複查」的助手——後者在真實工作裡省下的時間,遠比高幾分評測有感。Opus 4.8 想賣的是後者。
dynamic workflows 怎麼運作:一個工作階段開上百個 subagent
為什麼 Anthropic 這次先談誠實、再談能力?因為它同步推出的功能,把模型推進了一個「你看不到它每一步」的工作模式。
這個功能叫 dynamic workflows,目前是 research preview,開放給 Claude Code 的 Enterprise、Team 與 Max 方案。它讓 Claude 在單一工作階段內自己規劃工作、並執行數百個平行 subagent。Anthropic 給的具體場景是:「Claude Code 搭配 Opus 4.8 現在可以從啟動到合併(kickoff to merge),執行跨數十萬行程式碼的 codebase 級遷移。」
把這句話翻成工作現場:你給一個「把整個 repo 從舊框架搬到新框架」的任務,它自己拆成上百個子任務、派出上百個 subagent 同時動工,最後給你一個可以合併的結果。中間那幾百個步驟,你不會、也不可能一步步盯著看。
這就是誠實度為什麼突然從「加分項」變成「前提」。當你逐行檢查 diff 時,模型誠不誠實是其次,反正你會抓到。但當它無人監看地跑完上百個 subagent,你唯一的防線,就是它願不願意在不確定的地方主動舉手——而不是把一個它自己都沒把握的改動,安靜地合併進去。
此外這次還有兩個給開發者的小升級:claude.ai 與 Cowork 上可調整的 effort control(投入程度),以及 Messages API 現在可以在 messages 陣列中途插入 system 條目、在長任務跑到一半時改變指示。
誠實為什麼變成規格:無人監看任務需要模型會喊停
過去兩年,模型發布的競賽幾乎都在比同一件事:更高的評測、更長的上下文、更便宜的 token。能力是規格,可信度是行銷話術。
Opus 4.8 把這個順序調了一下。當產品形態從「你問一句、它答一句」走到「你交代一個目標、它自己跑幾百步」,買方的痛點就從「它夠不夠聰明」變成「我敢不敢放手」。一個會藏錯的天才助手,在無人監看的長任務裡是負債;一個會老實喊停的普通助手,反而能放心交付。
這也是為什麼 Anthropic 把誠實度和 dynamic workflows 綁在同一場發布講——它們是同一個賭注的兩面:要你把更多控制權交給 AI 代理人,先得讓你相信它會在該停的地方停下來。
這同時是一個競爭卡位。當 GPT-5.5 與 Gemini 3.1 Pro 在 coding 分數上咬得很緊,Anthropic 選擇把戰場挪到「長時程、無人監看的 agent 任務由誰拿下」——而 Claude Code 正是它把這個賭注變現的入口。
公告最後還預告了代號 Mythos 的模型:目前以 preview 形式給少數組織做 cybersecurity 用途,Anthropic 說會在「未來數週」對所有客戶釋出,前提是 cyber 安全防護到位——屬前瞻,不是既成事實。
要不要升級:先用 5 題分開模型切換與 workflows 導入
把上面的拆解收斂成可以帶走的決策。
- 要不要把預設模型換成 Opus 4.8? 如果你已經在用 Opus 4.7:幾乎沒有不換的理由——regular 定價沒變、能力更好,fast mode 也比舊版本更快更便宜。今天就能換。
- 趕時間的批次任務值不值得開 fast mode? 相對舊 fast mode,2.5× 快、3× 便宜;它適合大量、可容錯、要求回應速度的工作。對成本敏感又跑量的團隊,這一格最值得重算。
- 要不要開 dynamic workflows? 先確認你在 Enterprise / Team / Max 方案,且它仍是 research preview——別把它放進不能出錯的正式遷移任務。先拿可拋棄的分支試跑。
- 你的容錯界線在哪? 要回答的不是技術問題,是流程問題:你願不願意把「檢查每一步」換成「相信它會在不確定時喊停」?答案是否定的,就先別讓它無人監看地跑到 merge。
- 「少 4 倍」要怎麼用? 把它當成 Anthropic 的自評、不是保證。實務上仍要保留 code review 與測試這道關;它降低的是風險頻率,不是讓你免除驗證。
升級這件事,今天就可以做——定價沒變、能力更好,把預設模型換成 Opus 4.8 不太需要猶豫。但 dynamic workflows 是另一個層級的決定:它要你拿「盯著每一步」換成「相信它會喊停」。Opus 4.8 把賭注擺到了桌上,要不要跟,取決於你對自家流程的信任,而不是那個 69.2%。
資料來源:Anthropic「Introducing Claude Opus 4.8」官方公告;TechCrunch、MacRumors、9to5Mac 於 2026 年 5 月 28 日之報導。
SOURCES
- A Introducing Claude Opus 4.8
- B Anthropic releases Opus 4.8 with new 'dynamic workflow' tool
- B Anthropic Launches Claude Opus 4.8 With Gains in Coding and Honesty
- B Anthropic upgrades Claude with new Opus 4.8 model, here's what's new
來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。
MACHINE-READABLE SUMMARY
- Topic
- AI 戰爭
- Key claims
-
- Anthropic 於 2026 年 5 月 28 日發布 Claude Opus 4.8,距離 Opus 4.7 僅 41 天,regular 定價維持每百萬輸入 token 5 美元、輸出 25 美元不變。
- Opus 4.8 在 SWE-Bench Pro 取得 69.2%,Anthropic 並稱模型「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過——後者是這次發布更值得注意的升級。
- dynamic workflows(research preview)讓 Claude Code 在單一工作階段規劃並執行數百個平行 subagent,可從啟動到合併完成跨數十萬行的 codebase 級遷移,使模型的誠實度從加分項變成導入前提。
- Entities
- Anthropic · Claude Opus 4.8 · Claude Opus 4.7 · Claude Code · Mythos · GPT-5.5 · Gemini 3.1 Pro
- Taiwan relevance
- medium
- Confidence
- high
- Last updated
- 2026-06-09
- Canonical URL
- https://signals.tw/articles/claude-opus-4-8/
SUGGESTED CITATION
如果 AI agent / 研究 / 報導要引用本文,建議格式如下:
謝皓文(編輯:廖玄同),《Claude Opus 4.8 把「誠實」變成 coding agent 的新規格》,矽基前沿 [Si]gnals,2026-06-09。https://signals.tw/articles/claude-opus-4-8/
AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.