AI 戰爭 2026年6月9日

Claude Opus 4.8 把「誠實」變成 coding agent 的新規格

Anthropic 41 天就換旗艦，定價沒漲、SWE-Bench Pro 升到 69.2%；但會改變你工作流程的，是「少 4 倍放過自己瑕疵」這個數字。

報導解讀 AI Coding 工作流企業 Agent Stack Anthropic

重點一：Anthropic 在 2026 年 5 月 28 日推出旗艦模型 Claude Opus 4.8，距離 Opus 4.7 只隔 41 天；regular 定價維持每百萬輸入 token 5 美元、輸出 25 美元，沒漲價。

重點二：大家在傳的數字是 SWE-Bench Pro 69.2%，但 Anthropic 自己強調的是另一個——新模型「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過。

重點三：同步推出的 dynamic workflows（測試版）能在一個工作階段開出數百個平行 subagent、把跨數十萬行的遷移從啟動做到合併。當 AI 無人監看地跑長任務，「它會不會主動講出沒把握的地方」第一次變成你導入前要先回答的問題。

兩個數字在這次發布裡搶版面。一個是 69.2%——Opus 4.8 在 SWE-Bench Pro 這個代理式編程評測上的成績，比前代往上跳，也在這個榜上壓過 GPT-5.5 與 Gemini 3.1 Pro。這是各家媒體標題都會放的數字。

另一個數字是 4。Anthropic 說，Opus 4.8「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就蒙混過關。它被寫在公告中段，沒有 69.2% 那麼上鏡，卻是這次更該被看見的升級。

差別在於：69.2% 告訴你模型寫得多好；那個「4」告訴你，當它寫錯的時候，會不會老實講。而 Anthropic 這次同時推出的 dynamic workflows，正好讓後者變成你不得不在意的事——因為它要讓 Claude 無人監看地跑下去。

Opus 4.8 改了什麼：41 天接班、regular 價格不動

先把文件層的事實交代清楚。Anthropic 於 2026 年 5 月 28 日發布 Claude Opus 4.8，發布當天就在 claude.ai、Cowork 與 Claude Code 全面可用，API 識別碼是 claude-opus-4-8。距離 4 月中的 Opus 4.7，中間只隔了 41 天——對一向迭代偏慢的 Anthropic，是異常快的接班節奏。

對成本最敏感的讀者，定價是第一個要看的：

項目	Opus 4.7	Opus 4.8
Regular 輸入（每百萬 token）	5 美元	5 美元（不變）
Regular 輸出（每百萬 token）	25 美元	25 美元（不變）
Fast mode 輸入 / 輸出	舊 fast mode	10 / 50 美元
Fast mode 速度	舊 fast mode	約 2.5× 快
Fast mode 成本	舊 fast mode	約 3× 便宜

換句話說，標準用法升級完全不用多付錢，能力卻往上走；而趕時間的 fast mode，這次是相對舊 fast mode 又快又降價。對已經把 Opus 設成預設模型的團隊，這一格的決策其實很單純。

能力面，除了 SWE-Bench Pro 的 69.2%，Anthropic 公布的對照表還列了幾項：multidisciplinary reasoning（帶工具）約自 54.7% 升到 57.9%；在 Super-Agent 評測上是唯一端到端完成每個案例的模型，並在成本對等下勝過先前的 Opus 與 GPT-5.5；在 Online-Mind2Web（瀏覽器 / 電腦操作）拿到 84%；在 Legal Agent Benchmark 是首個在 all-pass 標準上整體突破 10% 的模型。

這些都是「更會做事」的證據。但這次發布和上一次的差別，藏在另一條線。

69.2% 之外：Anthropic 把誠實度也放進評估

把這次發布讀成「coding 分數又上去了」，會錯過 Anthropic 這次最想賣的東西。

官方反覆強調的是誠實（honesty）：Opus 4.8「約比前代少 4 倍」讓自己寫的程式碼瑕疵未經標注就通過；它「更會主動標出對自己工作的不確定，也更不會做沒有根據的宣稱」；Anthropic 的 alignment 評估也說，模型出現偏差行為的比率「明顯低於 Opus 4.7」。測試過它的 Bridgewater 團隊則形容，它會「主動標出分析輸入與輸出的問題，這是其他模型經常漏掉的」。

這裡要先講清楚一個邊界：「少 4 倍」是 Anthropic 自家的評估方法得出的數字，不是第三方獨立驗證。 它衡量的也不是「模型出錯變少」，而是「模型出錯之後，把錯誤藏起來、當作沒事的情況變少」。這兩件事很不一樣。

白話講：一個會寫程式但會默默吞掉自己 bug 的助手，和一個寫得差不多、但會在 commit 訊息裡跟你說「這段我不確定、你最好複查」的助手——後者在真實工作裡省下的時間，遠比高幾分評測有感。Opus 4.8 想賣的是後者。

dynamic workflows 怎麼運作：一個工作階段開上百個 subagent

為什麼 Anthropic 這次先談誠實、再談能力？因為它同步推出的功能，把模型推進了一個「你看不到它每一步」的工作模式。

這個功能叫 dynamic workflows，目前是 research preview，開放給 Claude Code 的 Enterprise、Team 與 Max 方案。它讓 Claude 在單一工作階段內自己規劃工作、並執行數百個平行 subagent。Anthropic 給的具體場景是：「Claude Code 搭配 Opus 4.8 現在可以從啟動到合併（kickoff to merge），執行跨數十萬行程式碼的 codebase 級遷移。」

把這句話翻成工作現場：你給一個「把整個 repo 從舊框架搬到新框架」的任務，它自己拆成上百個子任務、派出上百個 subagent 同時動工，最後給你一個可以合併的結果。中間那幾百個步驟，你不會、也不可能一步步盯著看。

這就是誠實度為什麼突然從「加分項」變成「前提」。當你逐行檢查 diff 時，模型誠不誠實是其次，反正你會抓到。但當它無人監看地跑完上百個 subagent，你唯一的防線，就是它願不願意在不確定的地方主動舉手——而不是把一個它自己都沒把握的改動，安靜地合併進去。

此外這次還有兩個給開發者的小升級：claude.ai 與 Cowork 上可調整的 effort control（投入程度），以及 Messages API 現在可以在 messages 陣列中途插入 system 條目、在長任務跑到一半時改變指示。

誠實為什麼變成規格：無人監看任務需要模型會喊停

過去兩年，模型發布的競賽幾乎都在比同一件事：更高的評測、更長的上下文、更便宜的 token。能力是規格，可信度是行銷話術。

Opus 4.8 把這個順序調了一下。當產品形態從「你問一句、它答一句」走到「你交代一個目標、它自己跑幾百步」，買方的痛點就從「它夠不夠聰明」變成「我敢不敢放手」。一個會藏錯的天才助手，在無人監看的長任務裡是負債；一個會老實喊停的普通助手，反而能放心交付。

這也是為什麼 Anthropic 把誠實度和 dynamic workflows 綁在同一場發布講——它們是同一個賭注的兩面：要你把更多控制權交給 AI 代理人，先得讓你相信它會在該停的地方停下來。

這同時是一個競爭卡位。當 GPT-5.5 與 Gemini 3.1 Pro 在 coding 分數上咬得很緊，Anthropic 選擇把戰場挪到「長時程、無人監看的 agent 任務由誰拿下」——而 Claude Code 正是它把這個賭注變現的入口。

公告最後還預告了代號 Mythos 的模型：目前以 preview 形式給少數組織做 cybersecurity 用途，Anthropic 說會在「未來數週」對所有客戶釋出，前提是 cyber 安全防護到位——屬前瞻，不是既成事實。

要不要升級：先用 5 題分開模型切換與 workflows 導入

把上面的拆解收斂成可以帶走的決策。

要不要把預設模型換成 Opus 4.8？ 如果你已經在用 Opus 4.7：幾乎沒有不換的理由——regular 定價沒變、能力更好，fast mode 也比舊版本更快更便宜。今天就能換。
趕時間的批次任務值不值得開 fast mode？ 相對舊 fast mode，2.5× 快、3× 便宜；它適合大量、可容錯、要求回應速度的工作。對成本敏感又跑量的團隊，這一格最值得重算。
要不要開 dynamic workflows？ 先確認你在 Enterprise / Team / Max 方案，且它仍是 research preview——別把它放進不能出錯的正式遷移任務。先拿可拋棄的分支試跑。
你的容錯界線在哪？ 要回答的不是技術問題，是流程問題：你願不願意把「檢查每一步」換成「相信它會在不確定時喊停」？答案是否定的，就先別讓它無人監看地跑到 merge。
「少 4 倍」要怎麼用？ 把它當成 Anthropic 的自評、不是保證。實務上仍要保留 code review 與測試這道關；它降低的是風險頻率，不是讓你免除驗證。