AlphaEvolve 是否已經證明 AI 能自動完成科學發現？

本文不做這個結論。DeepMind 的案例顯示 AI 演算法搜尋已經產生多個可測量改善，但每個例子仍要看驗證方式、部署狀態與獨立支持。

這篇文章該怎麼讀 DeepMind 的數字？

把每個數字放回證據類型：公司影響更新、連到論文的結果、內部生產系統、客戶聲稱、公開展示，避免把所有結果當成同一層證據。

AI 戰爭 2026年5月13日

AlphaEvolve 的一年成績單：先看這五個數字，再相信 AI 會發明演算法

DeepMind 給出基因定序、電網、量子電路、TPU、Spanner 與物流案例；該讀的是每個數字背後的驗證層級。

署名矽基前沿 · AI 戰爭線編輯廖玄同

報導解讀 AI 模型基礎素養

一篇 AI 實驗室影響更新最容易讓人跳過的部分，反而是最該慢慢看的部分：數字。

Google DeepMind 5 月 7 日發布 AlphaEvolve 的一年成績單，列出一串看起來跨領域到有點不真實的成果：基因定序錯誤降低、電網最佳化、量子電路、TPU 設計、Spanner 壓縮、物流路線、廣告模型、材料與生命科學模擬。

如果把它讀成「AI 已經會發明演算法」，會太快。如果把它讀成「又一篇研究行銷」，也會錯過重點。

比較好的讀法，是把每個數字放回證據層級：這是連到論文的結果、Google 內部生產系統、客戶指標、公開展示，還是公司影響更新裡的案例描述？AlphaEvolve 這次最有價值的地方，是提供一張檢查表，幫我們判斷 AI 發現的演算法到底被驗證到哪一步。

一串數字，要先排證據層級

AlphaEvolve 是 Google DeepMind 在 2025 年介紹的 Gemini 驅動程式設計代理人，用來設計進階演算法。2026 年的更新說，它已經被用在數學、科學、基礎設施和商業最佳化上。

這裡的「程式設計代理人」不要理解成只會改程式碼儲存庫的工具。DeepMind 描述的是一種會搜尋、產生、測試演算法候選方案的系統。它產出的是可被實驗、基準測試、生產系統指標或領域專家檢查的方案。

所以讀這篇更新時，第一個問題不該是「AI 有多聰明」。比較有用的是：每個成果靠什麼驗證？

以下五組數字，最適合當成文章的證據表。

數字	DeepMind 說的場景	證據層級	讀者該保留的邊界
30%	改善 DeepConsensus，降低變異偵測錯誤	DeepMind 文章 + 連結的 Nature／合作方脈絡	這是基因定序模型改善，不等於所有醫療 AI 任務都可類推
14% -> over 88%	AC Optimal Power Flow 可行解	DeepMind 文章 + 連結的 arXiv 脈絡	電網最佳化是受約束問題，需看測試設定
10x	Willow quantum processor 的量子電路錯誤降低	DeepMind 文章 + 連結的 arXiv 脈絡	這是特定電路設計改善，不等於量子優勢已被解決
20%	Spanner 壓縮啟發式規則降低寫入放大	Google internal infrastructure claim	生產價值高，但外部讀者無法完全重跑
10.4% / roughly 4x	FM Logistic 路線效率、Schrodinger MLFF 加速	客戶／合作方聲稱	商業指標要看基準、範圍與部署條件

這張表的重點，是不要把所有數字放在同一個信任籃子裡。

有些數字靠論文或公開問題支撐。有些是 Google 內部基礎設施的生產系統聲稱。有些是合作客戶描述。每一種都有價值，但它們回答的問題不同。

AlphaEvolve 強在可測量的候選方案

很多 AI 生產力工具的成效，很難脫離主觀感受：省了多少時間、草稿品質如何、是不是讓人更有靈感。

AlphaEvolve 的案例比較不一樣。DeepMind 選的多數場景，本來就有清楚目標函數或驗證方法：錯誤率、可行解、寫入放大、路線距離、訓練速度、執行速度、模型準確率、推論速度。

這讓 AlphaEvolve 比一般聊天式工具更容易被嚴格檢查。它提出的程式或演算法候選方案，至少在 DeepMind 展示的案例裡，要被丟進既有測試、模擬、生產系統指標或領域基準測試。

這也是它值得寫成長文的原因。

AI 程式設計的新聞常常停在「幫工程師寫程式碼」。AlphaEvolve 指向的是另一層：用 AI 搜尋人類可能想不到、或太花時間探索的演算法變體。它對研究和工程的影響，不在於少打幾行程式碼，而在於拓寬候選解空間。

五個案例代表五種驗證方式

DeepMind 說，AlphaEvolve 在基因體學中改善 DeepConsensus，變異偵測錯誤降低 30%。這是醫療相關語境，所以必須保守表述。可以說它改善了特定基因定序錯誤修正模型；不能寫成 AI 已經能直接改善臨床診斷。

在電網最佳化裡，DeepMind 說 AlphaEvolve 被用在 AC Optimal Power Flow problem，使 trained GNN model 找到可行解的能力從 14% 到超過 88%。這類問題很適合演算法搜尋，因為限制條件清楚、結果可以驗算。文章要保留的問題是：測試資料、系統設定和真實電網部署之間還有距離。

量子案例更適合當研究訊號。DeepMind 說 AlphaEvolve 建議的量子電路，錯誤比過去用傳統方式最佳化的基準低 10 倍，讓複雜分子模擬能在 Willow quantum processor 上運行。這是很強的研究敘事，但仍應說成「特定電路和基準下的改善」。

Google 內部基礎設施案例，則靠接近生產系統增加重量。DeepMind 說 AlphaEvolve 已成為常用工具，用於下一代 TPU 設計，也改善 Google Spanner 的 LSM 壓縮啟發式規則，讓寫入放大降低 20%。外部讀者很難重現這些結果，但它們說明 Google 願意把候選方案放進真實系統路徑裡。

商業案例最需要歸因。Klarna、Substrate、FM Logistic、WPP、Schrodinger 等例子各自有訓練速度、執行時間、路線效率、準確率、MLFF 加速。它們是有用線索，但仍是 DeepMind 影響更新中的合作方或客戶結果，不應被寫成獨立審核結論。

研究員仍然負責驗證環境

AlphaEvolve 的重要性，反而在於它仍然需要一整套驗證環境。

系統可以提出程式、演算法、候選解；但誰定義目標函數、誰設計測試、誰判斷結果能不能部署、誰承擔錯誤成本，仍然留在研究團隊、工程團隊和領域專家手上。

這一點對讀者很實用。未來你看到更多 AI 實驗室影響更新，可以用同一張清單讀：

這個結果的來源是誰？
它在哪個驗證環境被測？
數字對比的基準是什麼？
它是論文結果、內部生產系統、客戶指標，還是展示案例？
有沒有外部團隊能重現或至少檢查？

AlphaEvolve 的一年成績單很有份量，因為它讓演算法發現從抽象願景變成一串可追問的案例。也正因為它有份量，才更需要逐項看證據：好的 AI 科學新聞，不該把所有漂亮數字都讀成同一種勝利。

FAQ

常見問題

AlphaEvolve 是否已經證明 AI 能自動完成科學發現？: 本文不做這個結論。DeepMind 的案例顯示 AI 演算法搜尋已經產生多個可測量改善，但每個例子仍要看驗證方式、部署狀態與獨立支持。
這篇文章該怎麼讀 DeepMind 的數字？: 把每個數字放回證據類型：公司影響更新、連到論文的結果、內部生產系統、客戶聲稱、公開展示，避免把所有結果當成同一層證據。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

本文由 AI 協助研究與起草，矽基前沿編輯部編修，總編輯廖玄同審閱定稿。編輯方針與 AI 使用說明

AlphaEvolve 的一年成績單：先看這五個數字，再相信 AI 會發明演算法

一串數字，要先排證據層級

AlphaEvolve 強在可測量的候選方案

五個案例代表五種驗證方式

研究員仍然負責驗證環境

常見問題

繼續讀

Apple 交棒 Ternus，重壓本地端 AI

Google 用 Gemini 讀新聞，補出 260 萬筆洪災紀錄：AI 預警卡在資料底稿

GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項

訂閱《矽基前沿週報》