GLM-5.2 真的全面超越 GPT-5.5 了嗎？

沒有。在 SWE-bench Pro（62.1 對 58.6）與 FrontierSWE（74.4 對 72.6）上 GLM-5.2 領先，但在 Terminal-Bench 2.1（81.0 對 84）、HLE Reasoning（40.5 對 41.4）、GPQA-Diamond（91.2 對 93.6）上落後。它的相對強項集中在長程編程，不是通用推理。

這些 benchmark 數字可信嗎？

目前全部為 Z.ai 自報（vendor-reported），尚無 Artificial Analysis 等第三方獨立復現。判讀時應把它當廠商提供的結果，而非中立驗證。

GLM-5.2 可以自託管嗎？授權是什麼？

權重採 MIT 授權、無區域限制，可商業使用、修改、再分發與自託管。Z.ai 同時提供付費 API 服務（屬另一回事）。

AI 戰爭 1 小時前

GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項

贏了 SWE-bench Pro，輸了 Terminal-Bench：同一張分數表

署名謝皓文編輯廖玄同

報導解讀 AI Coding 工作流 AI 模型基礎素養

重點一：2026-06-17，Z.ai（Zhipu AI）釋出 GLM-5.2——753B sparse-MoE、MIT 授權、1M-token context 的開源權重模型。 重點二：在 SWE-bench Pro 它報 62.1、越過 GPT-5.5 的 58.6，FrontierSWE 也以 74.4 超車 72.6——這是第一個在長程編程基準越過閉源前沿模型的開源權重模型。 重點三：但在 Terminal-Bench 2.1（81.0 對 84）、SWE-Marathon、通用推理上它仍落後，且所有數字皆為 Z.ai 自報、尚無第三方復現。

一個可以下載、MIT 授權、自己架在機房裡的模型，第一次在長程編程基準上越過了 OpenAI 的閉源前沿模型 GPT-5.5。

數字很具體：在 SWE-bench Pro——一個跨檔案、多步驟的工程任務基準——GLM-5.2 報 62.1，GPT-5.5 是 58.6。在 FrontierSWE 上 GLM-5.2 報 74.4，GPT-5.5 是 72.6，距離 Claude Opus 4.8 的 75.1 只剩約 1 個百分點。

但同一張分數表往下讀，結論就翻了：在 Terminal-Bench 2.1，GLM-5.2 是 81.0，GPT-5.5 是 84，Claude Opus 4.8 是 85——GLM-5.2 落在最後。同一個模型，同一週，兩種結論。這篇要做的事，是把那張被「中國開源追上西方」一句話壓平的分數表，重新攤開。

越過 GPT-5.5 的，是哪幾項？

GLM-5.2 領先的，集中在長程、跨檔案的軟體工程任務。

Benchmark	GLM-5.2	GPT-5.5	Claude Opus 4.8	Gemini 3.1 Pro
SWE-bench Pro	62.1	58.6	69.2	54.2
FrontierSWE	74.4	72.6	75.1	39.6
PostTrainBench	34.3	28.4	37.2	21.6
SWE-Marathon	13.0	12.0	26.0	4.0
Terminal-Bench 2.1	81.0	84	85	74
HLE Reasoning	40.5	41.4	49.8	—
GPQA-Diamond	91.2	93.6	—	94.3

（全部為 Z.ai 自報數字；粗體為該列領先者。）

讀法很清楚：SWE-bench Pro、FrontierSWE、PostTrainBench 這三項——都是需要在一個 codebase 裡跨檔案改動、跑多步的任務——GLM-5.2 都贏過 GPT-5.5。FrontierSWE 更是逼到距 Claude Opus 4.8 僅 1% 的位置。對一個權重可以直接下載的模型來說，這是過去開源權重沒站上過的格子。

這幾項基準在量的，不是「能不能寫出一段對的程式碼」，而是能不能在一個真實專案裡，讀懂既有結構、跨多個檔案改動、再讓測試通過。SWE-bench Pro 用的是比舊版 Verified 更難的題庫；FrontierSWE 則把任務拉到更貼近資深工程師日常的長度。GLM-5.2 領先的，正是「agentic 編程」最吃重的那一段——長 context、多步驟、需要在錯誤裡自我修正。

這也是為什麼 Z.ai 把 GLM-5.2 的定位寫成「為長程任務打造（Built for Long-Horizon Tasks）」，而不是泛泛的「更強的模型」。它押的不是全能，是編程這條線上的特定深度。一個 1M-token 的 context window，意思是它可以一次把整個中型專案的相關檔案讀進來再動手，而不是一段一段餵進去。

那 GLM-5.2 輸在哪？

往分數表的另一半看，GPT-5.5 與 Claude Opus 4.8 把場子拿了回去。

Terminal-Bench 2.1——測模型能不能自己在真實終端環境裡操作——GLM-5.2 的 81.0 落後 GPT-5.5 的 84、Opus 4.8 的 85。SWE-Marathon（超長 horizon 的工程任務）它報 13.0，雖然壓過 GPT-5.5 的 12.0，但對照 Claude Opus 4.8 的 26.0，差了一倍。

通用推理上的差距更明顯：HLE Reasoning GLM-5.2 是 40.5，GPT-5.5 41.4，Opus 4.8 49.8；GPQA-Diamond GLM-5.2 是 91.2，GPT-5.5 93.6，Gemini 3.1 Pro 94.3。GLM-5.2 的相對強項是 agentic 編程，不是「什麼都比較聰明」。

Terminal-Bench 與 SWE-Marathon 這兩項落後，剛好點出開源權重這一代還沒補上的弱點：讓模型自己在終端裡連續操作、跨很長的時間線不迷路。SWE-Marathon 上 Claude Opus 4.8 的 26.0 幾乎是 GLM-5.2（13.0）的兩倍——超長 horizon 的任務，閉源前沿仍有明顯餘裕。

所以「越過 GPT-5.5」這句話，準確的版本是：在長程編程那幾項越過，在終端操作、超長任務與通用推理上沒有。 哪一邊對你重要，取決於你拿它做什麼任務。

這些分數，是誰報的？

一個不能跳過的細節：上面整張表，目前都是 Z.ai 自己報的數字。

GLM-5.2 的 benchmark 對照來自 Z.ai 在 Hugging Face 的官方發布與模型卡，截至發稿，尚未看到 Artificial Analysis 這類第三方獨立復現同一組 head-to-head。這不代表數字是假的，但它的性質是「廠商提供的結果」，不是中立第三方的驗證——判讀時這兩件事份量不同。

放回時間線看，一代之內的跳幅確實大：相對前代 GLM-5.1，GLM-5.2 在 Terminal-Bench 2.1 從 62.0 跳到 81.0、SWE-bench Pro 從 58.4 到 62.1。Signals 在 2026-06-10 盤點四家中國開源編程模型時，GLM-5.1 還停在 SWE-bench Pro 58.4 的位置；不到兩週，同一條產品線就把編程分數推到能與 GPT-5.5 互換領先的格子。

成本面，Z.ai 主打的是便宜：VentureBeat 的報導標題直接寫「以 1/6 的成本」擊敗 GPT-5.5。要留意這個數字的來源——Z.ai 的開發者文件並未公布 per-token 單價，公開的是 $12.60/月起的訂閱方案，以及「尖峰 3 倍、離峰 2 倍配額（9 月前促銷算 1 倍）」的計費規則。「1/6 成本」是媒體與廠商敘事下的概數，不是逐 token 對帳出來的硬事實。

MIT 授權、753B、1M context：改變了哪個決策？

撇開分數，GLM-5.2 真正動到的控制點，是「閉源 API」與「開源自託管」之間的那條路由線。

三個規格放在一起：權重採無區域限制的 MIT 授權（商業使用、修改、再分發、自託管全部允許）、753B 總參數的 sparse-MoE、1M-token context、128K 最大輸出。新增的 IndexShare 架構，Z.ai 宣稱在 1M context 長度下把 per-token FLOPs 降低 2.9 倍——這是它能把長 context 推理成本壓下來的機制。

對一個正在決定模型怎麼接的團隊，這把三件事同時推上桌：成本（自託管 vs 按量付費的 API）、資料落地（敏感 codebase 要不要送出公司）、供應鏈自主（不被單一閉源供應商綁定）。過去這條路的代價是「開源就得接受能力差一截」；GLM-5.2 把這個代價，在長程編程那幾項上，縮小到了分數表互有領先的程度。

自託管不是免費的——753B 參數的模型要跑起來，需要的是一整櫃 GPU，不是一張卡。多數團隊的實際選項是透過 Z.ai API 或第三方推理服務用它，而不是真的把權重拉回自己機房。但 MIT 授權的重點在於「保留了那個選項」：當資料合規或成本到了某個門檻，團隊可以把模型搬進自己控制的環境，而這在閉源 API 上是做不到的。IndexShare 把長 context 的算力成本壓下來，正是讓「自己跑也付得起」這條路更接近可行的那塊拼圖。

代價沒有消失，只是換了位置。對台灣企業，中國實驗室模型的信任與合規（資料流向、出口管制語境）仍是導入前的實際變數；而那張分裂的分數表也提醒：換到 GLM-5.2，等於在終端操作、超長任務與通用推理上接受一段差距。哪一段差距你付得起，是逐任務的計算。

事實收束成一句：第一個在長程編程基準越過 GPT-5.5 的開源權重模型出現了，它叫 GLM-5.2；但它越過的是 SWE-bench Pro 與 FrontierSWE，沒越過 Terminal-Bench 2.1 與通用推理，而且整張分數表目前都還是 Z.ai 自己報的。下一個值得自己盯的具體時間點，是第三方基準何時把這組數字復現出來。

資料來源：Hugging Face「GLM-5.2: Built for Long-Horizon Tasks」官方發布與 zai-org/GLM-5.2 模型卡、Z.AI Developer Documentation（GLM-5.2 overview）、VentureBeat。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: AI 戰爭
Key claims: GLM-5.2 於 2026-06-17 由 Z.ai（Zhipu AI）釋出，為 753B 總參數的 sparse-MoE 開源權重模型，採無區域限制的 MIT 授權，1M-token context、128K 最大輸出。
在 SWE-bench Pro，GLM-5.2 報 62.1，高於 GPT-5.5 的 58.6；在 FrontierSWE 報 74.4，高於 GPT-5.5 的 72.6，距 Claude Opus 4.8 的 75.1 約 1 個百分點——這些為 Z.ai 自報數字。
在 Terminal-Bench 2.1，GLM-5.2 報 81.0，落後 GPT-5.5 的 84 與 Claude Opus 4.8 的 85；在 SWE-Marathon 報 13.0，遠落後 Opus 4.8 的 26.0。
相對前代 GLM-5.1，GLM-5.2 在 Terminal-Bench 2.1 從 62.0 跳到 81.0、SWE-bench Pro 從 58.4 到 62.1。
GLM-5.2 新增 IndexShare 架構，Z.ai 宣稱在 1M context 長度下把 per-token FLOPs 降低 2.9×。
Entities: Z.ai · Zhipu AI · GLM-5.2 · GLM-5.1 · OpenAI · GPT-5.5 · Anthropic · Claude Opus 4.8 · Google · Gemini 3.1 Pro · SWE-bench · Hugging Face
Taiwan relevance: medium
Confidence: medium
Last updated: 2026-06-22
Canonical URL: https://signals.tw/articles/glm-52-open-weights-beats-gpt55/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

謝皓文（編輯：廖玄同），《GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項》，矽基前沿 [Si]gnals，2026-06-22。https://signals.tw/articles/glm-52-open-weights-beats-gpt55/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

GLM-5.2 越過了 GPT-5.5——但只越過長程編程那幾項

越過 GPT-5.5 的，是哪幾項？

那 GLM-5.2 輸在哪？

這些分數，是誰報的？

MIT 授權、753B、1M context：改變了哪個決策？

繼續讀

GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7：四個架構，同一個 SWE-bench 天花板，四條不同的帳單

OpenAI 新語音模型來了：客服可以邊說邊查、邊說邊做

Claude Fable 5 該不該升級？先看價格、拒答與 30 天留存

訂閱《矽基前沿週報》