矽基前沿 [Si]gnals
一個程式碼合入流程的時間軸,從人工比例占多數到 Claude 比例超過 80%,工程師在 review 端審核,編輯型插畫
AI 戰爭

Anthropic 自揭:自家 80% 上線程式碼由 Claude 寫,自主任務時長每 4 個月翻倍

〈When AI builds itself〉不是 Claude Code 的成績單,是一份政策論述:Anthropic 用內部工程數據主張遞迴自我改善可能比多數機構的準備來得早,並提出條件式集體暫停機制。

署名 謝皓文 編輯 廖玄同 AI 協作: 初稿輔助

重點一:Anthropic 在 2026 年 6 月發布的〈When AI builds itself〉報告中自揭,2026 年 5 月超過 80% 合入自家生產主線的程式碼由 Claude 撰寫——2025 年 2 月 Claude Code 推出時,這個比例僅為低個位數。

重點二:Anthropic 表示,2026 年第二季工程師每日程式碼合入量是 2024 年的 8 倍;Claude 可自主完成的任務時長從約 4 分鐘(Opus 3)增至約 12 小時(Opus 4.6),翻倍週期約 4 個月

重點三:Anthropic 把這批數字連結到「遞迴自我改善(recursive self-improvement)」的政策討論,並提出條件式集體暫停機制——只有在其他前沿實驗室也能在可驗證條件下同步停步時,Anthropic 才會跟進。

80%。Anthropic 在 2026 年 6 月公開的報告〈When AI builds itself〉用這個數字描述 2026 年 5 月的工程現實:超過八成合入自家生產主線的程式碼,由 Claude 撰寫。2025 年 2 月 Claude Code 以研究預覽上線時,這個比例僅為低個位數。

十五個月,從低個位數到八成。

但這個數字的張力不在百分比本身,在它的主詞。不是某個矽谷新創的工程團隊,是 Anthropic——打造 Claude 的公司。報告標題〈When AI builds itself〉就是 Anthropic 自己給的框架:AI 正在參與建造它自己的下一版。

重要前提:〈When AI builds itself〉是 Anthropic Institute 自行發布的策略與政策文件,不是同儕評審研究論文。所有統計數字均來自 Anthropic 內部量測,尚未經過外部獨立驗證。本文所有數字均以「Anthropic 表示」為前提。

80% 怎麼算:不是補全接受率,是合入生產主線的程式碼

第一個澄清:Anthropic 表示,這個 80% 的計算基礎是合入生產主線(merged into production codebase)的程式碼,不是 IDE 程式碼補全的使用率,也不是工程師接受 AI 建議的比例。

這個區別很重要。以「Tab 接受率」為基礎的數字,可以輕易被「預設全部接受」操作到 90% 以上。「合入生產主線」是一把更嚴格的尺——程式碼必須真的進到 production 才被計入。不過要記得:尺是 Anthropic 自己選的,量測也是 Anthropic 自己做的。

Anthropic 表示,從 2025 年 2 月 Claude Code 推出時的低個位數,到 2026 年 5 月的超過 80%,這段路走了 15 個月。

當一家 AI 安全公司自己的生產主線有八成程式碼由 AI 撰寫,「AI 會不會取代工程師」就不再是一個是非題,而是「工程師的角色被重新分配到哪裡」的問題。

這不是預言,是 Anthropic 對自家工程部門的描述。它的參考價值正在於主詞:說這句話的不是工具廠商的行銷部門,而是把數字攤出來當政策論據的公司本身——當然,也因此要記得這家公司同時有商業動機。

8 倍產出:工程師沒有消失,時間被重新分配

80% 的程式碼由 Claude 寫,並沒有伴隨工程師消失。Anthropic 給出另一組數字:

Anthropic 表示,2026 年第二季,Anthropic 工程師平均每天合入的程式碼量是 2024 年的 8 倍,而且工程師人數與人均產出是同時增加的。

當 AI 寫掉大部分程式碼、人均產出又增加 8 倍,這兩個數字放在一起描述的是一種新的分工——工程師的時間從逐行寫程式碼,移向:

  • 定義問題的邊界,讓 Claude 能開始一個任務
  • 審核 Claude 的輸出,判斷接受、要求修改或打回重來
  • 拆分任務,讓 Claude 可以平行處理多條線
  • 處理 Claude 還做不好的複雜邊界案例

換句話說,工程師從「程式碼的主要作者」變成「任務指揮者加上輸出品質的守門人」。依 Anthropic 的數據,這個角色轉移在它自己內部已經發生。

另一個具體的數字:Anthropic 表示,Claude 在複雜開放性工程問題(初始缺乏明確規格、需要邊做邊釐清的任務)上的成功率,從 2025 年 9 月的約 25% 升至 2026 年 5 月的 76%——八個月內提升約 50 個百分點

翻倍曲線:自主任務時長從 4 分鐘到 12 小時

如果 80% 是今天的快照,下面這條曲線說的是這班列車的方向:

模型時間點Anthropic 表示的可自主任務時長
Claude Opus 32024 年 3 月約 4 分鐘
Claude Sonnet 3.72025 年 3 月約 90 分鐘
Claude Opus 4.62026 年上半年約 12 小時

Anthropic 表示,這個自主任務時長的翻倍週期約為每 4 個月

12 小時的任務時長意味著:Claude 可以接下一個完整的複雜工程任務,跑完一個完整的工作段。不是說它不出錯——是說它的自主工作窗口,現在長到足以涵蓋許多完整的工程票。Anthropic 的前瞻推算(廠商自行估計,非獨立驗證)是:若翻倍趨勢持續,下一個刻度是以日計、再往後是以週計的任務時長。

報告中還提到一個反覆執行的內部基準測試:要求每一版新模型把訓練程式碼跑得更快。Claude Opus 4(2025 年 5 月)的結果是原始速度的約 3 倍;尚未對外發布的 Mythos Preview(2026 年 4 月)在同一個內部測試中達到約 52 倍。這是廠商內部測試、不是對外可驗證的基準,但它讓「AI 參與提升自己的訓練速度」這件事,第一次有了一個 Anthropic 願意公開引用的量測值。

為什麼公開:這批數字是政策論述的地基

依研究筆記對各方動機的整理,Anthropic 公開這批數字有雙重誘因:商業上展示 Claude Code 的價值,政策上為自己的 AI 安全立場建立可信度。兩個動機並不互斥,讀這份報告時兩個都要記得。

而報告自己給的理由是後者:揭露內部數據,是為了替一個政策論點打地基——遞迴自我改善(recursive self-improvement, RSI)可能比多數機構準備好的時間更早到來

RSI 的定義(依據論文):一個 AI 系統能夠完全自主地設計和開發它自己的繼承者,觸發一個不需要人類在每一步介入、自我加速的改善循環。

報告的作者是 Marina FavaroJack Clark(Anthropic Institute)。Jack Clark 是 Anthropic 的共同創辦人,也是 AI 安全領域的長期參與者。他們描繪的循環是:工程師用 Claude 寫程式碼,這些工作支撐訓練出更好的 Claude,更好的 Claude 又能承擔更多開發工作。但報告同時明確定性:照它自己的 RSI 定義,這件事尚未發生、也並非不可避免——目前的每一步,人類都還在迴圈裡。

白話講,Anthropic 的論點是:自家的工程現實已經在往這個方向移動,所以社會應該在 RSI 真正到來之前,先把制度準備好。80% 這個數字,是這個政策論述的地基,也是這份報告最重要的功能。

暫停提案:不是承諾停下,是要求一個大家能同時停的機制

這份報告最受媒體關注的部分是暫停機制提案,但報告的實際內容被不少標題簡化了。

Anthropic 的提案核心:社會應該擁有放慢或暫時暫停前沿 AI 開發的選項,讓對齊研究(alignment research)與社會制度有時間跟上。

但 Anthropic 同時說清楚:它自己不會單方面暫停。條件是其他前沿實驗室在可驗證的條件下也同步暫停。

把這個條件式設計攤開看,政策邏輯是清楚的:

  1. 對任何單一實驗室來說,單方面暫停等於把市場讓給不暫停的對手,對自身的安全議程也未必有利。
  2. 因此提案的重心放在「可驗證」——機制必須能確認其他實驗室真的同步停下,承諾才有意義。
  3. 報告主張的是「社會應該擁有暫停的選項」,不是「Anthropic 承諾暫停」——這是政策論述,不是約束性承諾。

一個可以帶走的政策觀察:Anthropic 同時做了兩件事——銷售目前成長最快的 AI 程式碼撰寫工具之一,然後用這個工具在自家內部的成長數據,主張社會需要一個暫停選項。商業上要繼續推進、安全論述上要揭露風險,這個並行的張力,在這份報告裡被 Anthropic 自己放上了量化的刻度。


這份報告對工程團隊的直接意義,不是「要不要用 Claude Code」。在 Anthropic 自己的 80% 數字出來之後,那個問題更像時程選擇題而非技術選擇題。

有一個數字可以帶走:不到 20%。在 Anthropic 自報的工程現實裡,仍有近兩成的程式碼由人寫——對應的是 Claude 還做不好的複雜邊界案例,以及定義任務、審核輸出這些把關工作。

8 倍產出意味著工程師的時間分配已經改變。你的工程師,現在有多少時間花在屬於那不到兩成的事情上?這是比「要不要導入 Claude Code」更值得先回答的問題。

這個重分配,依 Anthropic 的描述,在它內部是已經完成的現實;在你的團隊裡,是應該有意識地開始設計的事。

資料來源:Anthropic Institute〈When AI builds itself〉(anthropic.com/institute/recursive-self-improvement);VentureBeat;Scientific American。所有 Anthropic 數字均為公司自行報告的內部量測,尚未經同儕評審或外部獨立驗證。

SOURCES

  1. A When AI builds itself — Anthropic Institute
  2. B Anthropic says 80% of its new production code is now authored by Claude — VentureBeat
  3. B Anthropic warns AI may soon begin recursive self-improvement — Scientific American

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
AI 戰爭
Key claims
  • Anthropic 表示,2026 年 5 月超過 80% 合入自家生產主線的程式碼由 Claude 撰寫;2025 年 2 月 Claude Code 以研究預覽推出時,此比例僅為低個位數。
  • Anthropic 表示,2026 年第二季工程師每日程式碼合入量是 2024 年的 8 倍;Claude 處理複雜開放性工程問題的成功率從 2025 年 9 月的約 25% 升至 2026 年 5 月的 76%。
  • Anthropic 表示,Claude 可自主完成的任務時長約每 4 個月翻倍一次:Opus 3 約 4 分鐘,Sonnet 3.7 約 90 分鐘,Opus 4.6 約 12 小時。
  • 〈When AI builds itself〉的政策提案是條件式暫停:Anthropic 表示只有在其他前沿實驗室也在可驗證條件下同步暫停時才會跟進,而非單方面停止開發。
  • 這份文件是 Anthropic Institute 自行發布的策略與政策論述,不是同儕評審研究論文,所有統計數字均來自 Anthropic 內部量測。
Entities
Anthropic · Claude · Claude Code · Anthropic Institute · Marina Favaro · Jack Clark
Taiwan relevance
medium
Confidence
high
Last updated
2026-06-10
Canonical URL
https://signals.tw/articles/anthropic-recursive-self-improvement/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

謝皓文(編輯:廖玄同),《Anthropic 自揭:自家 80% 上線程式碼由 Claude 寫,自主任務時長每 4 個月翻倍》,矽基前沿 [Si]gnals,2026-06-10。https://signals.tw/articles/anthropic-recursive-self-improvement/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。