矽基前沿 [Si]gnals
GLM-5.2 與 GPT-5.5 的長程編程基準對照計分板,部分項目互有領先
AI 戰爭

GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項

贏了 SWE-bench Pro,輸了 Terminal-Bench:同一張分數表

重點一:2026-06-17,Z.ai(Zhipu AI)釋出 GLM-5.2——753B sparse-MoE、MIT 授權、1M-token context 的開源權重模型。 重點二:在 SWE-bench Pro 它報 62.1、越過 GPT-5.5 的 58.6,FrontierSWE 也以 74.4 超車 72.6——這是第一個在長程編程基準越過閉源前沿模型的開源權重模型。 重點三:但在 Terminal-Bench 2.1(81.0 對 84)、SWE-Marathon、通用推理上它仍落後,且所有數字皆為 Z.ai 自報、尚無第三方復現。

一個可以下載、MIT 授權、自己架在機房裡的模型,第一次在長程編程基準上越過了 OpenAI 的閉源前沿模型 GPT-5.5。

數字很具體:在 SWE-bench Pro——一個跨檔案、多步驟的工程任務基準——GLM-5.2 報 62.1,GPT-5.5 是 58.6。在 FrontierSWE 上 GLM-5.2 報 74.4,GPT-5.5 是 72.6,距離 Claude Opus 4.8 的 75.1 只剩約 1 個百分點。

但同一張分數表往下讀,結論就翻了:在 Terminal-Bench 2.1,GLM-5.2 是 81.0,GPT-5.5 是 84,Claude Opus 4.8 是 85——GLM-5.2 落在最後。同一個模型,同一週,兩種結論。這篇要做的事,是把那張被「中國開源追上西方」一句話壓平的分數表,重新攤開。

越過 GPT-5.5 的,是哪幾項?

GLM-5.2 領先的,集中在長程、跨檔案的軟體工程任務

BenchmarkGLM-5.2GPT-5.5Claude Opus 4.8Gemini 3.1 Pro
SWE-bench Pro62.158.669.254.2
FrontierSWE74.472.675.139.6
PostTrainBench34.328.437.221.6
SWE-Marathon13.012.026.04.0
Terminal-Bench 2.181.0848574
HLE Reasoning40.541.449.8
GPQA-Diamond91.293.694.3

(全部為 Z.ai 自報數字;粗體為該列領先者。)

讀法很清楚:SWE-bench Pro、FrontierSWE、PostTrainBench 這三項——都是需要在一個 codebase 裡跨檔案改動、跑多步的任務——GLM-5.2 都贏過 GPT-5.5。FrontierSWE 更是逼到距 Claude Opus 4.8 僅 1% 的位置。對一個權重可以直接下載的模型來說,這是過去開源權重沒站上過的格子。

這幾項基準在量的,不是「能不能寫出一段對的程式碼」,而是能不能在一個真實專案裡,讀懂既有結構、跨多個檔案改動、再讓測試通過。SWE-bench Pro 用的是比舊版 Verified 更難的題庫;FrontierSWE 則把任務拉到更貼近資深工程師日常的長度。GLM-5.2 領先的,正是「agentic 編程」最吃重的那一段——長 context、多步驟、需要在錯誤裡自我修正。

這也是為什麼 Z.ai 把 GLM-5.2 的定位寫成「為長程任務打造(Built for Long-Horizon Tasks)」,而不是泛泛的「更強的模型」。它押的不是全能,是編程這條線上的特定深度。一個 1M-token 的 context window,意思是它可以一次把整個中型專案的相關檔案讀進來再動手,而不是一段一段餵進去。

那 GLM-5.2 輸在哪?

往分數表的另一半看,GPT-5.5 與 Claude Opus 4.8 把場子拿了回去。

Terminal-Bench 2.1——測模型能不能自己在真實終端環境裡操作——GLM-5.2 的 81.0 落後 GPT-5.5 的 84、Opus 4.8 的 85。SWE-Marathon(超長 horizon 的工程任務)它報 13.0,雖然壓過 GPT-5.5 的 12.0,但對照 Claude Opus 4.8 的 26.0,差了一倍。

通用推理上的差距更明顯:HLE Reasoning GLM-5.2 是 40.5,GPT-5.5 41.4,Opus 4.8 49.8;GPQA-Diamond GLM-5.2 是 91.2,GPT-5.5 93.6,Gemini 3.1 Pro 94.3。GLM-5.2 的相對強項是 agentic 編程,不是「什麼都比較聰明」。

Terminal-Bench 與 SWE-Marathon 這兩項落後,剛好點出開源權重這一代還沒補上的弱點:讓模型自己在終端裡連續操作、跨很長的時間線不迷路。SWE-Marathon 上 Claude Opus 4.8 的 26.0 幾乎是 GLM-5.2(13.0)的兩倍——超長 horizon 的任務,閉源前沿仍有明顯餘裕。

所以「越過 GPT-5.5」這句話,準確的版本是:在長程編程那幾項越過,在終端操作、超長任務與通用推理上沒有。 哪一邊對你重要,取決於你拿它做什麼任務。

這些分數,是誰報的?

一個不能跳過的細節:上面整張表,目前都是 Z.ai 自己報的數字。

GLM-5.2 的 benchmark 對照來自 Z.ai 在 Hugging Face 的官方發布與模型卡,截至發稿,尚未看到 Artificial Analysis 這類第三方獨立復現同一組 head-to-head。這不代表數字是假的,但它的性質是「廠商提供的結果」,不是中立第三方的驗證——判讀時這兩件事份量不同。

放回時間線看,一代之內的跳幅確實大:相對前代 GLM-5.1,GLM-5.2 在 Terminal-Bench 2.1 從 62.0 跳到 81.0、SWE-bench Pro 從 58.4 到 62.1。Signals 在 2026-06-10 盤點四家中國開源編程模型時,GLM-5.1 還停在 SWE-bench Pro 58.4 的位置;不到兩週,同一條產品線就把編程分數推到能與 GPT-5.5 互換領先的格子。

成本面,Z.ai 主打的是便宜:VentureBeat 的報導標題直接寫「以 1/6 的成本」擊敗 GPT-5.5。要留意這個數字的來源——Z.ai 的開發者文件並未公布 per-token 單價,公開的是 $12.60/月起的訂閱方案,以及「尖峰 3 倍、離峰 2 倍配額(9 月前促銷算 1 倍)」的計費規則。「1/6 成本」是媒體與廠商敘事下的概數,不是逐 token 對帳出來的硬事實。

MIT 授權、753B、1M context:改變了哪個決策?

撇開分數,GLM-5.2 真正動到的控制點,是「閉源 API」與「開源自託管」之間的那條路由線

三個規格放在一起:權重採無區域限制的 MIT 授權(商業使用、修改、再分發、自託管全部允許)、753B 總參數的 sparse-MoE1M-token context、128K 最大輸出。新增的 IndexShare 架構,Z.ai 宣稱在 1M context 長度下把 per-token FLOPs 降低 2.9 倍——這是它能把長 context 推理成本壓下來的機制。

對一個正在決定模型怎麼接的團隊,這把三件事同時推上桌:成本(自託管 vs 按量付費的 API)、資料落地(敏感 codebase 要不要送出公司)、供應鏈自主(不被單一閉源供應商綁定)。過去這條路的代價是「開源就得接受能力差一截」;GLM-5.2 把這個代價,在長程編程那幾項上,縮小到了分數表互有領先的程度。

自託管不是免費的——753B 參數的模型要跑起來,需要的是一整櫃 GPU,不是一張卡。多數團隊的實際選項是透過 Z.ai API 或第三方推理服務用它,而不是真的把權重拉回自己機房。但 MIT 授權的重點在於「保留了那個選項」:當資料合規或成本到了某個門檻,團隊可以把模型搬進自己控制的環境,而這在閉源 API 上是做不到的。IndexShare 把長 context 的算力成本壓下來,正是讓「自己跑也付得起」這條路更接近可行的那塊拼圖。

代價沒有消失,只是換了位置。對台灣企業,中國實驗室模型的信任與合規(資料流向、出口管制語境)仍是導入前的實際變數;而那張分裂的分數表也提醒:換到 GLM-5.2,等於在終端操作、超長任務與通用推理上接受一段差距。哪一段差距你付得起,是逐任務的計算。


事實收束成一句:第一個在長程編程基準越過 GPT-5.5 的開源權重模型出現了,它叫 GLM-5.2;但它越過的是 SWE-bench Pro 與 FrontierSWE,沒越過 Terminal-Bench 2.1 與通用推理,而且整張分數表目前都還是 Z.ai 自己報的。下一個值得自己盯的具體時間點,是第三方基準何時把這組數字復現出來。

資料來源:Hugging Face「GLM-5.2: Built for Long-Horizon Tasks」官方發布與 zai-org/GLM-5.2 模型卡、Z.AI Developer Documentation(GLM-5.2 overview)、VentureBeat。

SOURCES

  1. A GLM-5.2: Built for Long-Horizon Tasks — Hugging Face (zai-org)
  2. A zai-org/GLM-5.2 — Hugging Face model card
  3. A GLM-5.2 Overview — Z.AI Developer Documentation
  4. B Z.ai's open-weights GLM-5.2 beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost — VentureBeat

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
AI 戰爭
Key claims
  • GLM-5.2 於 2026-06-17 由 Z.ai(Zhipu AI)釋出,為 753B 總參數的 sparse-MoE 開源權重模型,採無區域限制的 MIT 授權,1M-token context、128K 最大輸出。
  • 在 SWE-bench Pro,GLM-5.2 報 62.1,高於 GPT-5.5 的 58.6;在 FrontierSWE 報 74.4,高於 GPT-5.5 的 72.6,距 Claude Opus 4.8 的 75.1 約 1 個百分點——這些為 Z.ai 自報數字。
  • 在 Terminal-Bench 2.1,GLM-5.2 報 81.0,落後 GPT-5.5 的 84 與 Claude Opus 4.8 的 85;在 SWE-Marathon 報 13.0,遠落後 Opus 4.8 的 26.0。
  • 相對前代 GLM-5.1,GLM-5.2 在 Terminal-Bench 2.1 從 62.0 跳到 81.0、SWE-bench Pro 從 58.4 到 62.1。
  • GLM-5.2 新增 IndexShare 架構,Z.ai 宣稱在 1M context 長度下把 per-token FLOPs 降低 2.9×。
Entities
Z.ai · Zhipu AI · GLM-5.2 · GLM-5.1 · OpenAI · GPT-5.5 · Anthropic · Claude Opus 4.8 · Google · Gemini 3.1 Pro · SWE-bench · Hugging Face
Taiwan relevance
medium
Confidence
medium
Last updated
2026-06-22
Canonical URL
https://signals.tw/articles/glm-52-open-weights-beats-gpt55/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

謝皓文(編輯:廖玄同),《GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項》,矽基前沿 [Si]gnals,2026-06-22。https://signals.tw/articles/glm-52-open-weights-beats-gpt55/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。