GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7:四個架構,同一個 SWE-bench 天花板,四條不同的帳單
四家中國實驗室在 2026 年 3–4 月接連釋出開源編程模型,頂規版本把 SWE-bench Verified 推到 80.6%——但 API 定價從 $0.14 到 $1.74/M tokens 不等,per-task 成本估算差距逼近 10 倍。
重點一:2026 年 3–4 月,四家中國實驗室相繼推出開源編程模型——MiniMax M2.7、GLM-5.1、Kimi K2.6、DeepSeek V4(Pro / Flash)。頂規的 DeepSeek V4-Pro 在 SWE-bench Verified 拿下 80.6%,距 Claude Opus 4.6 的 80.8% 只剩 0.2 個百分點。
重點二:能力差距幾乎消失,成本差距還在:第三方估算 DeepSeek V4-Pro 解一道 SWE-bench Verified 任務的成本約為 Claude Opus 4.7 的十分之一;DeepSeek V4-Flash 的輸入定價 $0.14/M tokens 是四個模型中最低。
重點三:四個模型不是「四個替代品」,是四種不同的架構賭注。長任務多步推理、高頻批次、自託管 MIT 授權、便宜夠用——每個需求對應不同的最佳選擇。
$4.30。這是 DeepSeek V4-Pro 在 API 模式解一道 SWE-bench Verified 難題的近似成本。Claude Opus 4.7 解同一題:約 $43。不是 10% 的差距,是 10 倍。
這個數字發生在 2026 年 4 月最後一週。就在那幾天,Anthropic 的 Claude Opus 4.7(4 月 16 日推出)和 OpenAI 的 GPT-5.5(4 月 23 日推出)剛刷新歐美陣營的能力前緣。DeepSeek V4 在 GPT-5.5 推出一天後的 4 月 24 日上線,SWE-bench Verified 80.6%,對比 Claude Opus 4.6 的 80.8%——差距縮進 0.2 個百分點。
四個架構,四條成本曲線——這場競賽的終點不是最聰明,是你 GPU 帳單裡那個小數點往左移一位。
同一個月、四份成績單:SWE-bench 數字怎麼讀、怎麼不要讀
要讀這四個模型的基準分數,得先把「SWE-bench Verified」和「SWE-bench Pro」拆開。
SWE-bench Verified 是舊版的、已驗證可解的子集,任務相對明確;SWE-bench Pro 是 2026 年推出的更難版本,任務更模糊、失敗率更高。這兩個基準的分數不能直接對比——80.6% 和 58.4% 若來自不同版本,代表的難度層次完全不同。
用這個標準重新排四個模型:
| 模型 | 發布日 | SWE-bench Verified | SWE-bench Pro |
|---|---|---|---|
| DeepSeek V4-Pro | 2026-04-24 | 80.6% | — |
| DeepSeek V4-Flash | 2026-04-24 | 79.0% | — |
| Kimi K2.6 | 2026-04-20 | 80.2% | 58.6% |
| Claude Opus 4.6(參考) | — | 80.8% | — |
| GLM-5.1 | 2026-04-07 | — | 58.4% |
| MiniMax M2.7 | 約 2026-03-18 | — | 56.22% |
DeepSeek V4-Pro 和 Kimi K2.6 在 SWE-bench Verified 上分別是 80.6% 和 80.2%,確實與 Claude Opus 4.6(80.8%)幾乎並排。GLM-5.1 和 MiniMax M2.7 的數字來自更難的 SWE-bench Pro,58% 左右是在更高難度基準上的成績,不是「落後 20 個百分點」。
白話講:這四個模型的實際編程能力都在可以認真考慮的範圍內。分數不是採購理由,它只是入場券。
四個架構,四種賭注:誰押了什麼
四個模型推出的時間點高度集中,但架構設計上各自押了截然不同的方向。
GLM-5.1(Z.ai / Zhipu AI):754B sparse MoE + 最乾淨的 MIT 授權
GLM-5.1 押的是授權。754B 總參數、40B active 參數(sparse MoE),MIT 授權。MIT 意思是商業使用、修改、再分發全部允許,連衍生模型也可以再分發。
Z.ai 的賭注是:有一群開發者和企業要的不是最高的 SWE-bench 分數,而是「授權乾淨、能自己控制的模型」。GLM-5.1 在四個模型裡是這個需求最直接的選項。
MiniMax M2.7(MiniMax):最輕 active 參數
230B 總參數、10B active 參數,是四個模型裡 active 部分最輕的。API 定價 $0.30/M input、$1.20/M output,在這個比較組裡僅高於 DeepSeek V4-Flash。
MiniMax 押的是另一個賭注:在多數 coding 任務上,「夠用」就夠了,不需要擠最後 1–2 個百分點的精度。部分開發者測試顯示 M2.7 在標準 coding 任務上可以接近 Claude Opus 4.6 的大部分品質,但成本大幅降低。(注意:這個比較來自第三方測試,非官方聲明;授權類型也尚未確認為 MIT,使用前需查原始文件。)
Kimi K2.6(Moonshot AI):工具鏈廣度 + 長任務多步推理
1 兆總參數、32B active 參數(384 個 experts,每次 8 個被選中),160K vocab,接受語音、文字、圖片輸入。依第三方基準測試回報,Kimi K2.6 在四個模型裡有最廣的 coding 工具鏈相容性。
Moonshot 押的賭注是:coding 代理人的競爭點不只是單一任務精度,還有跨步驟的任務保持能力與工具調用廣度。在需要長工作階段的代理人編程任務(多輪修改、跨檔案重構、反覆執行測試)上,這個廣度是實際優勢。
DeepSeek V4(DeepSeek):雙軌策略,Pro 追精度 / Flash 壓成本
DeepSeek 同時推出兩個版本:V4-Pro(1.6T 總參數 / 49B active)和 V4-Flash(284B 總參數 / 13B active)。兩個版本都是 MIT 授權,都支援 1M token context window。
- V4-Pro:SWE-bench Verified 80.6%,API $1.74/M input,$3.48/M output
- V4-Flash:SWE-bench Verified 79.0%,API $0.14/M input,$0.28/M output
DeepSeek 的賭注是同時服務兩個市場:要最高精度的用 Pro,要最低成本的用 Flash——而且 Flash 79.0% 的成績讓它沒有太多能力讓步。
成本差在哪裡:從 per-token 到 per-task,帳單怎麼算
Per-token 定價表看起來已經差很多,但實際的 per-task 差距更大,因為不同的任務長度讓差距被放大。
| 模型 | 輸入($/M tokens) | 輸出($/M tokens) | per-task 估算 |
|---|---|---|---|
| DeepSeek V4-Flash | $0.14 | $0.28 | 較低 |
| MiniMax M2.7 | $0.30 | $1.20 | — |
| Kimi K2.6 | $0.60 | $2.50 | ~$0.30/run(另一套 per-run 估算) |
| GLM-5.1 | $0.60 | $2.00 | — |
| DeepSeek V4-Pro | $1.74 | $3.48 | ~$4.30(估算) |
| Claude Opus 4.7(參考) | — | — | ~$43(估算) |
DeepSeek V4-Pro 的 per-task 成本約 $4.30,這個數字是根據 per-token 定價乘以 SWE-bench 任務平均 token 消耗計算的近似值,來自第三方基準分析(Artificial Analysis、AkitaOnRails)。Kimi K2.6 的 ~$0.30/run 來自另一組 per-run 測試——同一組測試裡 Claude Opus 4.7 是 $1.10/run,約 3.6 倍——兩套估算方法不同,不能跨行直接相除。實際帳單因任務長度、context 使用量、重試次數而異。
這裡要看的不是精確數字,而是數量級:10 倍的差距,不是調參數可以改變的;是選錯了成本段。
換句話說,如果你的團隊每個月跑 10,000 次 coding 代理人任務,以上述近似值計,選 DeepSeek V4-Pro 和選 Claude Opus 4.7 之間的差距,在帳單上是 5 位數美元對 6 位數美元。
自託管門檻差在哪:MIT 授權之外,還要看 active 參數和 VRAM 預算
授權和「能跑」是兩件事。
四個模型裡,GLM-5.1(754B MoE / 40B active)和 DeepSeek V4(Pro 1.6T / Flash 284B)已確認採 MIT 授權。Kimi K2.6 的權重在 Hugging Face 公開,但使用條款需自行確認。MiniMax M2.7 的授權類型目前尚未確認為 MIT,自託管前必須查原始文件。
自託管的實際門檻由總參數的權重體積和 active 參數的推理負擔共同決定:
| 模型 | 總參數 | Active 參數 | 自託管門檻 |
|---|---|---|---|
| MiniMax M2.7 | 230B | 10B | 相對較低,但授權待確認 |
| DeepSeek V4-Flash | 284B | 13B | 中等;MIT 授權、1M context |
| GLM-5.1 | 754B | 40B | 754B 權重需多卡,VRAM 預算高 |
| Kimi K2.6 | 1T | 32B | 1T 權重需多節點;第三方回報其自託管資源較完整 |
| DeepSeek V4-Pro | 1.6T | 49B | 最重;需要多節點配置 |
MiniMax M2.7 的 10B active 參數讓它在四個裡面推理負擔最輕,但授權狀態需要先確認。GLM-5.1 的 754B sparse MoE 每次推理只動用 40B active 參數,但權重本身仍要求多卡、甚至多節點的 VRAM 預算——授權最乾淨,不等於最容易跑。
DeepSeek V4-Flash 是「MIT 授權 + 中等 VRAM 需求 + 接近最前緣的精度」這個組合裡最均衡的選項,適合想自己跑但不想堆滿整台機架的團隊。
現在怎麼選:任務類型 × 成本段 × 模型路由矩陣
不是所有任務都需要最高分數,也不是所有預算都允許最貴的選項。這張矩陣從任務類型出發:
| 任務類型 | 成本敏感度 | 推薦模型 | 理由 |
|---|---|---|---|
| 長任務多步推理(多輪 refactor、複雜 agentic session) | 中 | Kimi K2.6 | SWE-bench Verified 80.2%;第三方回報工具鏈相容性最廣 |
| 高頻批次、量大、成本優先 | 高 | DeepSeek V4-Flash | $0.14/M input(四者最低)、SWE-bench Verified 79%、MIT + 1M context |
| 自託管、MIT 授權最乾淨、需要控制資料 | 中 | GLM-5.1 | MIT 確認、40B active 推理負擔可控、授權邊界清楚 |
| 便宜夠用、一般 coding 任務 | 高 | MiniMax M2.7 | $0.30/M input、10B active 最輕;授權待確認 |
| 需要最高 SWE-bench 精度、不計成本 | 低 | DeepSeek V4-Pro 或 Claude Opus 4.7 | Verified 80.6% 對約 80.8%;前者 per-task 估算成本約低 10 倍 |
這個路由不是永久的。SWE-bench 基準持續更新,各模型的 serving 生態也在演進。三個月後,這張表可能需要重畫。
但現在,工程師可以從這裡開始:
- 確認你的任務類型(長任務多步推理?高頻批次?自託管需求?)
- 從上表選對應的那一格
- 用你現有的 coding 任務集跑一次基準測試,記下 per-task 的 token 消耗
從現在起,挑 coding AI 模型之前先問任務類型:長任務多步推理 → Kimi K2.6;高頻批次量大 → DeepSeek V4-Flash;要自託管、MIT 授權最乾淨 → GLM-5.1;要便宜、夠用就好 → MiniMax M2.7。帳單決策在模型選擇之前。
成本的事,數字會自己說話。
資料來源:DeepSeek API Docs、Kimi K2.6 Tech Blog(Moonshot AI)、Artificial Analysis(DeepSeek V4-Pro、GLM-5.1)、NVIDIA Developer Blog(MiniMax M2.7)、AkitaOnRails LLM Coding Benchmark May 2026
SOURCES
- A DeepSeek V4 Preview Release
- A Kimi K2.6 Tech Blog — Moonshot AI
- B DeepSeek V4-Pro — Artificial Analysis
- B GLM-5.1 — Artificial Analysis
- B MiniMax M2.7 — NVIDIA Developer Blog
- B LLM Coding Benchmark May 2026 — AkitaOnRails
來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。
MACHINE-READABLE SUMMARY
- Topic
- AI 戰爭
- Key claims
-
- DeepSeek V4-Pro 在 API 模式解一道 SWE-bench Verified 任務的 per-task 成本約 $4.30,對比 Claude Opus 4.7 約 $43,差距約 10 倍;兩者皆為第三方基準分析的近似估算值,非官方計費單位。
- 2026 年 4 月,GLM-5.1(Z.ai)、Kimi K2.6(Moonshot AI)、DeepSeek V4(DeepSeek)在 17 天內相繼推出,加上稍早的 MiniMax M2.7(約 3 月中),四個模型在 SWE-bench Verified 或 SWE-bench Pro 達到 56–80.6%。
- 四個模型押了四種不同的架構賭注:GLM-5.1 押 754B sparse MoE 加上乾淨的 MIT 授權、MiniMax M2.7 押最輕的 10B active 參數、Kimi K2.6 押工具鏈廣度與長任務多步推理、DeepSeek V4 押雙軌策略(Pro 追精度/Flash 壓成本)。
- DeepSeek V4-Flash 的輸入定價 $0.14/M tokens 是四個模型中最低,約為 DeepSeek V4-Pro($1.74/M)的十二分之一。
- GLM-5.1(754B MoE)與 DeepSeek V4(Pro 1.6T、Flash 284B)均採 MIT 授權;MiniMax M2.7 的授權類型尚未確認為 MIT。
- Entities
- Z.ai · Zhipu AI · GLM-5.1 · MiniMax · MiniMax M2.7 · Moonshot AI · Kimi K2.6 · DeepSeek · DeepSeek V4-Pro · DeepSeek V4-Flash · Anthropic · Claude Opus 4.7 · OpenAI · GPT-5.5 · SWE-bench
- Taiwan relevance
- medium
- Confidence
- medium
- Last updated
- 2026-06-10
- Canonical URL
- https://signals.tw/articles/chinese-open-coding-models-inference-war/
SUGGESTED CITATION
如果 AI agent / 研究 / 報導要引用本文,建議格式如下:
謝皓文(編輯:廖玄同),《GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7:四個架構,同一個 SWE-bench 天花板,四條不同的帳單》,矽基前沿 [Si]gnals,2026-06-10。https://signals.tw/articles/chinese-open-coding-models-inference-war/
AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.