GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項
贏了 SWE-bench Pro,輸了 Terminal-Bench:同一張分數表
重點一:2026-06-17,Z.ai(Zhipu AI)釋出 GLM-5.2——753B sparse-MoE、MIT 授權、1M-token context 的開源權重模型。 重點二:在 SWE-bench Pro 它報 62.1、越過 GPT-5.5 的 58.6,FrontierSWE 也以 74.4 超車 72.6——這是第一個在長程編程基準越過閉源前沿模型的開源權重模型。 重點三:但在 Terminal-Bench 2.1(81.0 對 84)、SWE-Marathon、通用推理上它仍落後,且所有數字皆為 Z.ai 自報、尚無第三方復現。
一個可以下載、MIT 授權、自己架在機房裡的模型,第一次在長程編程基準上越過了 OpenAI 的閉源前沿模型 GPT-5.5。
數字很具體:在 SWE-bench Pro——一個跨檔案、多步驟的工程任務基準——GLM-5.2 報 62.1,GPT-5.5 是 58.6。在 FrontierSWE 上 GLM-5.2 報 74.4,GPT-5.5 是 72.6,距離 Claude Opus 4.8 的 75.1 只剩約 1 個百分點。
但同一張分數表往下讀,結論就翻了:在 Terminal-Bench 2.1,GLM-5.2 是 81.0,GPT-5.5 是 84,Claude Opus 4.8 是 85——GLM-5.2 落在最後。同一個模型,同一週,兩種結論。這篇要做的事,是把那張被「中國開源追上西方」一句話壓平的分數表,重新攤開。
越過 GPT-5.5 的,是哪幾項?
GLM-5.2 領先的,集中在長程、跨檔案的軟體工程任務。
| Benchmark | GLM-5.2 | GPT-5.5 | Claude Opus 4.8 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 62.1 | 58.6 | 69.2 | 54.2 |
| FrontierSWE | 74.4 | 72.6 | 75.1 | 39.6 |
| PostTrainBench | 34.3 | 28.4 | 37.2 | 21.6 |
| SWE-Marathon | 13.0 | 12.0 | 26.0 | 4.0 |
| Terminal-Bench 2.1 | 81.0 | 84 | 85 | 74 |
| HLE Reasoning | 40.5 | 41.4 | 49.8 | — |
| GPQA-Diamond | 91.2 | 93.6 | — | 94.3 |
(全部為 Z.ai 自報數字;粗體為該列領先者。)
讀法很清楚:SWE-bench Pro、FrontierSWE、PostTrainBench 這三項——都是需要在一個 codebase 裡跨檔案改動、跑多步的任務——GLM-5.2 都贏過 GPT-5.5。FrontierSWE 更是逼到距 Claude Opus 4.8 僅 1% 的位置。對一個權重可以直接下載的模型來說,這是過去開源權重沒站上過的格子。
這幾項基準在量的,不是「能不能寫出一段對的程式碼」,而是能不能在一個真實專案裡,讀懂既有結構、跨多個檔案改動、再讓測試通過。SWE-bench Pro 用的是比舊版 Verified 更難的題庫;FrontierSWE 則把任務拉到更貼近資深工程師日常的長度。GLM-5.2 領先的,正是「agentic 編程」最吃重的那一段——長 context、多步驟、需要在錯誤裡自我修正。
這也是為什麼 Z.ai 把 GLM-5.2 的定位寫成「為長程任務打造(Built for Long-Horizon Tasks)」,而不是泛泛的「更強的模型」。它押的不是全能,是編程這條線上的特定深度。一個 1M-token 的 context window,意思是它可以一次把整個中型專案的相關檔案讀進來再動手,而不是一段一段餵進去。
那 GLM-5.2 輸在哪?
往分數表的另一半看,GPT-5.5 與 Claude Opus 4.8 把場子拿了回去。
Terminal-Bench 2.1——測模型能不能自己在真實終端環境裡操作——GLM-5.2 的 81.0 落後 GPT-5.5 的 84、Opus 4.8 的 85。SWE-Marathon(超長 horizon 的工程任務)它報 13.0,雖然壓過 GPT-5.5 的 12.0,但對照 Claude Opus 4.8 的 26.0,差了一倍。
通用推理上的差距更明顯:HLE Reasoning GLM-5.2 是 40.5,GPT-5.5 41.4,Opus 4.8 49.8;GPQA-Diamond GLM-5.2 是 91.2,GPT-5.5 93.6,Gemini 3.1 Pro 94.3。GLM-5.2 的相對強項是 agentic 編程,不是「什麼都比較聰明」。
Terminal-Bench 與 SWE-Marathon 這兩項落後,剛好點出開源權重這一代還沒補上的弱點:讓模型自己在終端裡連續操作、跨很長的時間線不迷路。SWE-Marathon 上 Claude Opus 4.8 的 26.0 幾乎是 GLM-5.2(13.0)的兩倍——超長 horizon 的任務,閉源前沿仍有明顯餘裕。
所以「越過 GPT-5.5」這句話,準確的版本是:在長程編程那幾項越過,在終端操作、超長任務與通用推理上沒有。 哪一邊對你重要,取決於你拿它做什麼任務。
這些分數,是誰報的?
一個不能跳過的細節:上面整張表,目前都是 Z.ai 自己報的數字。
GLM-5.2 的 benchmark 對照來自 Z.ai 在 Hugging Face 的官方發布與模型卡,截至發稿,尚未看到 Artificial Analysis 這類第三方獨立復現同一組 head-to-head。這不代表數字是假的,但它的性質是「廠商提供的結果」,不是中立第三方的驗證——判讀時這兩件事份量不同。
放回時間線看,一代之內的跳幅確實大:相對前代 GLM-5.1,GLM-5.2 在 Terminal-Bench 2.1 從 62.0 跳到 81.0、SWE-bench Pro 從 58.4 到 62.1。Signals 在 2026-06-10 盤點四家中國開源編程模型時,GLM-5.1 還停在 SWE-bench Pro 58.4 的位置;不到兩週,同一條產品線就把編程分數推到能與 GPT-5.5 互換領先的格子。
成本面,Z.ai 主打的是便宜:VentureBeat 的報導標題直接寫「以 1/6 的成本」擊敗 GPT-5.5。要留意這個數字的來源——Z.ai 的開發者文件並未公布 per-token 單價,公開的是 $12.60/月起的訂閱方案,以及「尖峰 3 倍、離峰 2 倍配額(9 月前促銷算 1 倍)」的計費規則。「1/6 成本」是媒體與廠商敘事下的概數,不是逐 token 對帳出來的硬事實。
MIT 授權、753B、1M context:改變了哪個決策?
撇開分數,GLM-5.2 真正動到的控制點,是「閉源 API」與「開源自託管」之間的那條路由線。
三個規格放在一起:權重採無區域限制的 MIT 授權(商業使用、修改、再分發、自託管全部允許)、753B 總參數的 sparse-MoE、1M-token context、128K 最大輸出。新增的 IndexShare 架構,Z.ai 宣稱在 1M context 長度下把 per-token FLOPs 降低 2.9 倍——這是它能把長 context 推理成本壓下來的機制。
對一個正在決定模型怎麼接的團隊,這把三件事同時推上桌:成本(自託管 vs 按量付費的 API)、資料落地(敏感 codebase 要不要送出公司)、供應鏈自主(不被單一閉源供應商綁定)。過去這條路的代價是「開源就得接受能力差一截」;GLM-5.2 把這個代價,在長程編程那幾項上,縮小到了分數表互有領先的程度。
自託管不是免費的——753B 參數的模型要跑起來,需要的是一整櫃 GPU,不是一張卡。多數團隊的實際選項是透過 Z.ai API 或第三方推理服務用它,而不是真的把權重拉回自己機房。但 MIT 授權的重點在於「保留了那個選項」:當資料合規或成本到了某個門檻,團隊可以把模型搬進自己控制的環境,而這在閉源 API 上是做不到的。IndexShare 把長 context 的算力成本壓下來,正是讓「自己跑也付得起」這條路更接近可行的那塊拼圖。
代價沒有消失,只是換了位置。對台灣企業,中國實驗室模型的信任與合規(資料流向、出口管制語境)仍是導入前的實際變數;而那張分裂的分數表也提醒:換到 GLM-5.2,等於在終端操作、超長任務與通用推理上接受一段差距。哪一段差距你付得起,是逐任務的計算。
事實收束成一句:第一個在長程編程基準越過 GPT-5.5 的開源權重模型出現了,它叫 GLM-5.2;但它越過的是 SWE-bench Pro 與 FrontierSWE,沒越過 Terminal-Bench 2.1 與通用推理,而且整張分數表目前都還是 Z.ai 自己報的。下一個值得自己盯的具體時間點,是第三方基準何時把這組數字復現出來。
資料來源:Hugging Face「GLM-5.2: Built for Long-Horizon Tasks」官方發布與 zai-org/GLM-5.2 模型卡、Z.AI Developer Documentation(GLM-5.2 overview)、VentureBeat。
SOURCES
- A GLM-5.2: Built for Long-Horizon Tasks — Hugging Face (zai-org)
- A zai-org/GLM-5.2 — Hugging Face model card
- A GLM-5.2 Overview — Z.AI Developer Documentation
- B Z.ai's open-weights GLM-5.2 beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost — VentureBeat
來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。
MACHINE-READABLE SUMMARY
- Topic
- AI 戰爭
- Key claims
-
- GLM-5.2 於 2026-06-17 由 Z.ai(Zhipu AI)釋出,為 753B 總參數的 sparse-MoE 開源權重模型,採無區域限制的 MIT 授權,1M-token context、128K 最大輸出。
- 在 SWE-bench Pro,GLM-5.2 報 62.1,高於 GPT-5.5 的 58.6;在 FrontierSWE 報 74.4,高於 GPT-5.5 的 72.6,距 Claude Opus 4.8 的 75.1 約 1 個百分點——這些為 Z.ai 自報數字。
- 在 Terminal-Bench 2.1,GLM-5.2 報 81.0,落後 GPT-5.5 的 84 與 Claude Opus 4.8 的 85;在 SWE-Marathon 報 13.0,遠落後 Opus 4.8 的 26.0。
- 相對前代 GLM-5.1,GLM-5.2 在 Terminal-Bench 2.1 從 62.0 跳到 81.0、SWE-bench Pro 從 58.4 到 62.1。
- GLM-5.2 新增 IndexShare 架構,Z.ai 宣稱在 1M context 長度下把 per-token FLOPs 降低 2.9×。
- Entities
- Z.ai · Zhipu AI · GLM-5.2 · GLM-5.1 · OpenAI · GPT-5.5 · Anthropic · Claude Opus 4.8 · Google · Gemini 3.1 Pro · SWE-bench · Hugging Face
- Taiwan relevance
- medium
- Confidence
- medium
- Last updated
- 2026-06-22
- Canonical URL
- https://signals.tw/articles/glm-52-open-weights-beats-gpt55/
SUGGESTED CITATION
如果 AI agent / 研究 / 報導要引用本文,建議格式如下:
謝皓文(編輯:廖玄同),《GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項》,矽基前沿 [Si]gnals,2026-06-22。https://signals.tw/articles/glm-52-open-weights-beats-gpt55/
AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.