工作現場 2 小時前

Anthropic 拆了 40 萬次 Claude Code：贏的不是最會寫的人，是最懂問題的人

新手 15%、專家 28–33%，差距不在會不會寫程式

重點一：Anthropic 用約 40 萬次 Claude Code 真實工作階段的數據回答「AI 寫程式會不會取代人」——被歸類為新手的階段只有約 15% 達「可驗證成功」，中階到專家升到 28–33%。

重點二：差距幾乎不落在「是不是工程師」這條軸上。在會產出程式碼的階段，十大職業群的成功率全擠在彼此約七個百分點內；律師、會計也在用。

重點三：分工線很清楚——人做約 70% 的規劃決策（做什麼），AI 做約 80% 的執行決策（怎麼做）。

兩個數字先擺在這裡：在 Anthropic 的數據裡，被歸類為新手的工作階段，只有約 15% 達到「可驗證成功」；換成懂這個任務的人，成功率跳到 28–33%。

這組數字出自 2026 年 6 月 16 日 Anthropic 發表的研究《Agentic coding and persistent returns to expertise》。它以隱私保護方式，分析了 2025 年 10 月到 2026 年 4 月間、約 23.5 萬人、約 40 萬次的 Claude Code 互動工作階段——也就是人坐在終端機前，把任務交給 AI 代理人（AI agent）去寫、去改、去跑的真實場景。

先講清楚這兩個數字不證明什麼：它衡量的是單一會話內能不能拿到可驗證的成果，不是這段程式碼最後在現實中被採用、被部署，還是被丟掉。把這條界線記著，再往下看就不會把結論放大。

這份研究在量什麼？「可驗證成功」不是嘴上說成功

多數關於 AI 寫程式的討論卡在「感覺有沒有比較快」。這份研究換了一個比較硬的指標。

Anthropic 把一次工作階段算「可驗證成功」，要同時滿足兩件事：一是分類器判定這次會話達成了目標；二是有硬證據佐證——一筆相符的 git commit 或合併的 PR、一組通過的測試，或使用者明確說「對，就是這樣」。少了硬證據，光是看起來完成不算。

在這把尺下：

新手的工作階段，約 15% 達可驗證成功，77% 至少部分完成。
中階到專家的工作階段，升到 28–33% 可驗證成功，91–92% 至少部分完成。

懂這個任務的人，拿到「有證據的成功」的機率是新手的兩倍多。而這裡的「專家」不是看職稱——下一節會看到，它指的是對手上這個問題的理解。

為什麼贏的是最懂問題的人，不是最會寫的人？

最反直覺的一張表，是把成功率拆到職業別之後，差距幾乎消失了。

在會產出程式碼的工作階段裡，軟體職業的可驗證成功率約 30–34%，非軟體職業約 26–29%——十大職業群全落在彼此約七個百分點之內。「是不是軟體工程師」這條軸，並沒有把成敗拉開多大。

研究點名的非軟體用法很具體：律師寫腳本來標記合約裡缺漏的條款，會計用 Python 跑對帳規則；成長最快的非軟體族群是管理、銷售、法律。他們不是去跟工程師比誰程式寫得漂亮，而是把自己最懂的那塊業務，交給代理人去執行。

所以 Anthropic 把「領域知識」定義成任務層級，而不是職稱層級。它的分類器看三件事：使用者把指令講得多精準、會要 AI 驗證什麼、以及——是使用者在糾正 AI，還是 AI 在糾正使用者。懂問題的人，會把要做的事拆清楚、會指定「做完要怎麼確認對不對」，於是代理人替他做的每一步都踩在點上。

人與 AI 的分工線畫在哪？規劃歸人、執行歸 AI

研究用一句話概括了人機分工：人決定做什麼，AI 決定怎麼做。

攤成數字：在一次典型的工作階段裡，使用者做了約 70% 的規劃決策，卻只做 20% 的執行決策——剩下的執行交給代理人。判斷要解什麼、要往哪走，留在人這邊；怎麼一步步把它寫出來，落到 AI 那邊。

懂與不懂的差別，也寫在行為裡：

	新手	中階到專家
一個指令觸發的動作	約 5 個	約 12 個（逾兩倍）
一個指令帶出的輸出	約 600 字	約 3,200 字（約五倍）
卡關時放棄的比率	約 19%	約 5–7%

專家的一句指令，能讓代理人跑更長的動作鏈、產更多東西，因為他把脈絡與目標一次講足了。遇到卡關，新手放棄的比率約是專家的三倍——懂問題的人更知道怎麼把卡住的地方繞過去，而不是直接關掉視窗。

這份報告能用在哪？四個交辦前用得上的訊號

研究本身不替任何人做決定。但它的數據可以整理成幾個對知識工作者具體的訊號：

槓桿在「誰最懂這題」，不在「誰最會寫」。 同一個任務交給懂業務的人、由代理人執行，成功率不輸交給工程師。要產出品質，先想清楚這題在你的團隊裡誰理解最深。
把「要驗證什麼」講出來，是專家和新手的分水嶺。 研究裡，懂的人會指定做完該怎麼確認對不對。交辦時附上驗收條件（哪個測試要過、哪份輸出要對得上），代理人才有得對齊。
規劃留給人。 數據顯示人主要的價值落在「做什麼」這一端（約七成規劃決策）。把時間花在拆清楚問題，而不是盯著它怎麼一行行寫。
卡關不等於不適合。 新手放棄率高，但部分完成率其實有 77%。多數階段不是全有全無，遇阻時把問題重新框一次，常常還能往前推。

這些是報告數據長出來的觀察，不是「你該不該去學寫程式」的處方——那一題留給你自己，看你的角色與團隊怎麼配。

這份研究沒告訴你的事：三條必須一起記的邊界

把報告當成事實來用之前，三條邊界要一起記著，而且多半是 Anthropic 自己標的。

這是自家產品的用量數據。 數字來自 Claude Code 的真實會話，Anthropic 既是出題者也是受益者。它測得到「用我的工具時，懂問題的人表現更好」，但這不等於對所有 coding agent 都成立。

只衡量會話內，不追蹤現實結果。 「可驗證成功」看的是會話當下有沒有 commit、測試或使用者認可；那段程式碼最後有沒有真的被用、還是被丟掉，研究說它無法得知。

排除了量很大的非互動式用量。 研究只看人坐在前面一來一往的互動式階段，把批次、自動化那類非互動式用法排除在外——而那部分的分布可能很不一樣。

至於最容易被拿來延伸的「persistent returns（持續回報）」——Anthropic 的詮釋是這個優勢會自我增強：越會用、抽到越多價值、用得越多。但研究並沒有斷言更強的模型不會把新手和專家的差距抹平；它說會繼續觀察，若哪天專家的溢價開始下降，那代表模型開始供應使用者目前自己提供的判斷。這是觀察中的問句，不是結論。

把這幾條放回最前面那兩個數字旁邊：下次要把一個任務丟給代理人之前，先問一句——這題誰最懂、他講不講得出「做完要怎麼驗證」。報告能幫你問到這裡；剩下的，數據沒替你決定。

資料來源：Anthropic Research《Agentic coding and persistent returns to expertise》（2026-06-16）、TIGZIG、AI Weekly、Crypto Briefing。

LEARN

想系統性學會,不只看這一則?

用 Claude Code 完成真正的工作

讓 Claude Code 在你的專案裡完成一個真實任務，而且控得住權限、驗得了 diff、管得住成本。

從第 0 課開始 →

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 工作現場
Key claims: 2026 年 6 月 16 日，Anthropic 發表研究《Agentic coding and persistent returns to expertise》，以隱私保護方式分析 2025 年 10 月至 2026 年 4 月間約 23.5 萬人、約 40 萬次 Claude Code 互動工作階段。
被歸類為新手的工作階段只有約 15% 達「可驗證成功」（77% 至少部分完成），中階到專家升到 28–33%（91–92% 至少部分完成），專家達可驗證成功的機率是新手的兩倍多。
研究將「可驗證成功」定義為兩條件並存：分類器判定成功，且有硬證據——相符的 git commit 或 PR、通過的測試，或使用者明確認可。
在會產出程式碼的工作階段，軟體職業可驗證成功率約 30–34%、非軟體職業約 26–29%，十大職業群全落在彼此約七個百分點內；決定成敗的是任務層級的領域知識，而非寫程式背景。
人機分工是「人決定做什麼、AI 決定怎麼做」：使用者做約 70% 的規劃決策，只做 20% 的執行決策。
Anthropic 自陳邊界：研究只在會話內衡量、無法得知程式碼最後是否被採用或丟棄，且排除量很大的非互動式用量。
Entities: Anthropic · Claude Code · Zoe Hitzig · Peter McCrory
Taiwan relevance: medium
Confidence: high
Last updated: 2026-06-22
Canonical URL: https://signals.tw/articles/anthropic-coding-expertise-study/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

林子睿（編輯：廖玄同），《Anthropic 拆了 40 萬次 Claude Code：贏的不是最會寫的人，是最懂問題的人》，矽基前沿 [Si]gnals，2026-06-22。https://signals.tw/articles/anthropic-coding-expertise-study/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

Anthropic 拆了 40 萬次 Claude Code：贏的不是最會寫的人，是最懂問題的人

這份研究在量什麼？「可驗證成功」不是嘴上說成功

為什麼贏的是最懂問題的人，不是最會寫的人？

人與 AI 的分工線畫在哪？規劃歸人、執行歸 AI

這份報告能用在哪？四個交辦前用得上的訊號

這份研究沒告訴你的事：三條必須一起記的邊界

用 Claude Code 完成真正的工作

繼續讀

Anthropic 自揭：自家 80% 上線程式碼由 Claude 寫，自主任務時長每 4 個月翻倍

Claude Code 每人每天 13 美元：AI 寫程式開始吃雲端預算

Claude Design 改版：能匯入你的設計系統、和 Claude Code 雙向同步，AI 圖稿不再要重畫一次才能進產線

訂閱《矽基前沿週報》