DeepSeek V4-Pro 的 SWE-bench 80.6% 和 GLM-5.1 的 58.4% 可以直接比較嗎？

不行。DeepSeek V4-Pro 的 80.6% 是 SWE-bench Verified（較易的子集），GLM-5.1 的 58.4% 是 SWE-bench Pro（更難的新版本）。兩個數字在不同基準上，不能直接對比高低。

這四個模型都可以自託管嗎？授權有問題嗎？

GLM-5.1 和 DeepSeek V4（Pro / Flash）均採 MIT 授權，可商業自託管。Kimi K2.6 的權重在 Hugging Face 公開，但使用條款需自行確認。MiniMax M2.7 的授權類型目前未能確認為 MIT，使用前需查原始文件。

「$4.30 vs $43 per resolved ticket」是官方計費單位嗎？

不是。這是根據 per-token 定價乘以 SWE-bench 任務平均 token 消耗計算出的近似值，來自第三方基準分析（Artificial Analysis、AkitaOnRails）。實際成本因任務長度、context 使用、重試次數而異。

AI 戰爭 2026年6月10日

GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7：四個架構，同一個 SWE-bench 天花板，四條不同的帳單

四家中國實驗室在 2026 年 3–4 月接連釋出開源編程模型，頂規版本把 SWE-bench Verified 推到 80.6%——但 API 定價從 $0.14 到 $1.74/M tokens 不等，per-task 成本估算差距逼近 10 倍。

署名謝皓文編輯廖玄同 AI 協作: 初稿輔助

報導解讀 AI Coding 工作流 AI 模型基礎素養

重點一：2026 年 3–4 月，四家中國實驗室相繼推出開源編程模型——MiniMax M2.7、GLM-5.1、Kimi K2.6、DeepSeek V4（Pro / Flash）。頂規的 DeepSeek V4-Pro 在 SWE-bench Verified 拿下 80.6%，距 Claude Opus 4.6 的 80.8% 只剩 0.2 個百分點。

重點二：能力差距幾乎消失，成本差距還在：第三方估算 DeepSeek V4-Pro 解一道 SWE-bench Verified 任務的成本約為 Claude Opus 4.7 的十分之一；DeepSeek V4-Flash 的輸入定價 $0.14/M tokens 是四個模型中最低。

重點三：四個模型不是「四個替代品」，是四種不同的架構賭注。長任務多步推理、高頻批次、自託管 MIT 授權、便宜夠用——每個需求對應不同的最佳選擇。

$4.30。這是 DeepSeek V4-Pro 在 API 模式解一道 SWE-bench Verified 難題的近似成本。Claude Opus 4.7 解同一題：約 $43。不是 10% 的差距，是 10 倍。

這個數字發生在 2026 年 4 月最後一週。就在那幾天，Anthropic 的 Claude Opus 4.7（4 月 16 日推出）和 OpenAI 的 GPT-5.5（4 月 23 日推出）剛刷新歐美陣營的能力前緣。DeepSeek V4 在 GPT-5.5 推出一天後的 4 月 24 日上線，SWE-bench Verified 80.6%，對比 Claude Opus 4.6 的 80.8%——差距縮進 0.2 個百分點。

四個架構，四條成本曲線——這場競賽的終點不是最聰明，是你 GPU 帳單裡那個小數點往左移一位。

同一個月、四份成績單：SWE-bench 數字怎麼讀、怎麼不要讀

要讀這四個模型的基準分數，得先把「SWE-bench Verified」和「SWE-bench Pro」拆開。

SWE-bench Verified 是舊版的、已驗證可解的子集，任務相對明確；SWE-bench Pro 是 2026 年推出的更難版本，任務更模糊、失敗率更高。這兩個基準的分數不能直接對比——80.6% 和 58.4% 若來自不同版本，代表的難度層次完全不同。

用這個標準重新排四個模型：

模型	發布日	SWE-bench Verified	SWE-bench Pro
DeepSeek V4-Pro	2026-04-24	80.6%	—
DeepSeek V4-Flash	2026-04-24	79.0%	—
Kimi K2.6	2026-04-20	80.2%	58.6%
Claude Opus 4.6（參考）	—	80.8%	—
GLM-5.1	2026-04-07	—	58.4%
MiniMax M2.7	約 2026-03-18	—	56.22%

DeepSeek V4-Pro 和 Kimi K2.6 在 SWE-bench Verified 上分別是 80.6% 和 80.2%，確實與 Claude Opus 4.6（80.8%）幾乎並排。GLM-5.1 和 MiniMax M2.7 的數字來自更難的 SWE-bench Pro，58% 左右是在更高難度基準上的成績，不是「落後 20 個百分點」。

白話講：這四個模型的實際編程能力都在可以認真考慮的範圍內。分數不是採購理由，它只是入場券。

四個架構，四種賭注：誰押了什麼

四個模型推出的時間點高度集中，但架構設計上各自押了截然不同的方向。

GLM-5.1（Z.ai / Zhipu AI）：754B sparse MoE + 最乾淨的 MIT 授權

GLM-5.1 押的是授權。754B 總參數、40B active 參數（sparse MoE），MIT 授權。MIT 意思是商業使用、修改、再分發全部允許，連衍生模型也可以再分發。

Z.ai 的賭注是：有一群開發者和企業要的不是最高的 SWE-bench 分數，而是「授權乾淨、能自己控制的模型」。GLM-5.1 在四個模型裡是這個需求最直接的選項。

MiniMax M2.7（MiniMax）：最輕 active 參數

230B 總參數、10B active 參數，是四個模型裡 active 部分最輕的。API 定價 $0.30/M input、$1.20/M output，在這個比較組裡僅高於 DeepSeek V4-Flash。

MiniMax 押的是另一個賭注：在多數 coding 任務上，「夠用」就夠了，不需要擠最後 1–2 個百分點的精度。部分開發者測試顯示 M2.7 在標準 coding 任務上可以接近 Claude Opus 4.6 的大部分品質，但成本大幅降低。（注意：這個比較來自第三方測試，非官方聲明；授權類型也尚未確認為 MIT，使用前需查原始文件。）

Kimi K2.6（Moonshot AI）：工具鏈廣度 + 長任務多步推理

1 兆總參數、32B active 參數（384 個 experts，每次 8 個被選中），160K vocab，接受語音、文字、圖片輸入。依第三方基準測試回報，Kimi K2.6 在四個模型裡有最廣的 coding 工具鏈相容性。

Moonshot 押的賭注是：coding 代理人的競爭點不只是單一任務精度，還有跨步驟的任務保持能力與工具調用廣度。在需要長工作階段的代理人編程任務（多輪修改、跨檔案重構、反覆執行測試）上，這個廣度是實際優勢。

DeepSeek V4（DeepSeek）：雙軌策略，Pro 追精度 / Flash 壓成本

DeepSeek 同時推出兩個版本：V4-Pro（1.6T 總參數 / 49B active）和 V4-Flash（284B 總參數 / 13B active）。兩個版本都是 MIT 授權，都支援 1M token context window。

V4-Pro：SWE-bench Verified 80.6%，API $1.74/M input，$3.48/M output
V4-Flash：SWE-bench Verified 79.0%，API $0.14/M input，$0.28/M output

DeepSeek 的賭注是同時服務兩個市場：要最高精度的用 Pro，要最低成本的用 Flash——而且 Flash 79.0% 的成績讓它沒有太多能力讓步。

成本差在哪裡：從 per-token 到 per-task，帳單怎麼算

Per-token 定價表看起來已經差很多，但實際的 per-task 差距更大，因為不同的任務長度讓差距被放大。

模型	輸入（$/M tokens）	輸出（$/M tokens）	per-task 估算
DeepSeek V4-Flash	$0.14	$0.28	較低
MiniMax M2.7	$0.30	$1.20	—
Kimi K2.6	$0.60	$2.50	~$0.30/run（另一套 per-run 估算）
GLM-5.1	$0.60	$2.00	—
DeepSeek V4-Pro	$1.74	$3.48	~$4.30（估算）
Claude Opus 4.7（參考）	—	—	~$43（估算）

DeepSeek V4-Pro 的 per-task 成本約 $4.30，這個數字是根據 per-token 定價乘以 SWE-bench 任務平均 token 消耗計算的近似值，來自第三方基準分析（Artificial Analysis、AkitaOnRails）。Kimi K2.6 的 ~$0.30/run 來自另一組 per-run 測試——同一組測試裡 Claude Opus 4.7 是 $1.10/run，約 3.6 倍——兩套估算方法不同，不能跨行直接相除。實際帳單因任務長度、context 使用量、重試次數而異。

這裡要看的不是精確數字，而是數量級：10 倍的差距，不是調參數可以改變的；是選錯了成本段。

換句話說，如果你的團隊每個月跑 10,000 次 coding 代理人任務，以上述近似值計，選 DeepSeek V4-Pro 和選 Claude Opus 4.7 之間的差距，在帳單上是 5 位數美元對 6 位數美元。

自託管門檻差在哪：MIT 授權之外，還要看 active 參數和 VRAM 預算

授權和「能跑」是兩件事。

四個模型裡，GLM-5.1（754B MoE / 40B active）和 DeepSeek V4（Pro 1.6T / Flash 284B）已確認採 MIT 授權。Kimi K2.6 的權重在 Hugging Face 公開，但使用條款需自行確認。MiniMax M2.7 的授權類型目前尚未確認為 MIT，自託管前必須查原始文件。

自託管的實際門檻由總參數的權重體積和 active 參數的推理負擔共同決定：

模型	總參數	Active 參數	自託管門檻
MiniMax M2.7	230B	10B	相對較低，但授權待確認
DeepSeek V4-Flash	284B	13B	中等；MIT 授權、1M context
GLM-5.1	754B	40B	754B 權重需多卡，VRAM 預算高
Kimi K2.6	1T	32B	1T 權重需多節點；第三方回報其自託管資源較完整
DeepSeek V4-Pro	1.6T	49B	最重；需要多節點配置

MiniMax M2.7 的 10B active 參數讓它在四個裡面推理負擔最輕，但授權狀態需要先確認。GLM-5.1 的 754B sparse MoE 每次推理只動用 40B active 參數，但權重本身仍要求多卡、甚至多節點的 VRAM 預算——授權最乾淨，不等於最容易跑。

DeepSeek V4-Flash 是「MIT 授權 + 中等 VRAM 需求 + 接近最前緣的精度」這個組合裡最均衡的選項，適合想自己跑但不想堆滿整台機架的團隊。

現在怎麼選：任務類型 × 成本段 × 模型路由矩陣

不是所有任務都需要最高分數，也不是所有預算都允許最貴的選項。這張矩陣從任務類型出發：

任務類型	成本敏感度	推薦模型	理由
長任務多步推理（多輪 refactor、複雜 agentic session）	中	Kimi K2.6	SWE-bench Verified 80.2%；第三方回報工具鏈相容性最廣
高頻批次、量大、成本優先	高	DeepSeek V4-Flash	$0.14/M input（四者最低）、SWE-bench Verified 79%、MIT + 1M context
自託管、MIT 授權最乾淨、需要控制資料	中	GLM-5.1	MIT 確認、40B active 推理負擔可控、授權邊界清楚
便宜夠用、一般 coding 任務	高	MiniMax M2.7	$0.30/M input、10B active 最輕；授權待確認
需要最高 SWE-bench 精度、不計成本	低	DeepSeek V4-Pro 或 Claude Opus 4.7	Verified 80.6% 對約 80.8%；前者 per-task 估算成本約低 10 倍

這個路由不是永久的。SWE-bench 基準持續更新，各模型的 serving 生態也在演進。三個月後，這張表可能需要重畫。

但現在，工程師可以從這裡開始：

確認你的任務類型（長任務多步推理？高頻批次？自託管需求？）
從上表選對應的那一格
用你現有的 coding 任務集跑一次基準測試，記下 per-task 的 token 消耗

從現在起，挑 coding AI 模型之前先問任務類型：長任務多步推理 → Kimi K2.6；高頻批次量大 → DeepSeek V4-Flash；要自託管、MIT 授權最乾淨 → GLM-5.1；要便宜、夠用就好 → MiniMax M2.7。帳單決策在模型選擇之前。

成本的事，數字會自己說話。

資料來源：DeepSeek API Docs、Kimi K2.6 Tech Blog（Moonshot AI）、Artificial Analysis（DeepSeek V4-Pro、GLM-5.1）、NVIDIA Developer Blog（MiniMax M2.7）、AkitaOnRails LLM Coding Benchmark May 2026

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: AI 戰爭
Key claims: DeepSeek V4-Pro 在 API 模式解一道 SWE-bench Verified 任務的 per-task 成本約 $4.30，對比 Claude Opus 4.7 約 $43，差距約 10 倍；兩者皆為第三方基準分析的近似估算值，非官方計費單位。
2026 年 4 月，GLM-5.1（Z.ai）、Kimi K2.6（Moonshot AI）、DeepSeek V4（DeepSeek）在 17 天內相繼推出，加上稍早的 MiniMax M2.7（約 3 月中），四個模型在 SWE-bench Verified 或 SWE-bench Pro 達到 56–80.6%。
四個模型押了四種不同的架構賭注：GLM-5.1 押 754B sparse MoE 加上乾淨的 MIT 授權、MiniMax M2.7 押最輕的 10B active 參數、Kimi K2.6 押工具鏈廣度與長任務多步推理、DeepSeek V4 押雙軌策略（Pro 追精度／Flash 壓成本）。
DeepSeek V4-Flash 的輸入定價 $0.14/M tokens 是四個模型中最低，約為 DeepSeek V4-Pro（$1.74/M）的十二分之一。
GLM-5.1（754B MoE）與 DeepSeek V4（Pro 1.6T、Flash 284B）均採 MIT 授權；MiniMax M2.7 的授權類型尚未確認為 MIT。
Entities: Z.ai · Zhipu AI · GLM-5.1 · MiniMax · MiniMax M2.7 · Moonshot AI · Kimi K2.6 · DeepSeek · DeepSeek V4-Pro · DeepSeek V4-Flash · Anthropic · Claude Opus 4.7 · OpenAI · GPT-5.5 · SWE-bench
Taiwan relevance: medium
Confidence: medium
Last updated: 2026-06-10
Canonical URL: https://signals.tw/articles/chinese-open-coding-models-inference-war/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

謝皓文（編輯：廖玄同），《GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7：四個架構，同一個 SWE-bench 天花板，四條不同的帳單》，矽基前沿 [Si]gnals，2026-06-10。https://signals.tw/articles/chinese-open-coding-models-inference-war/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7：四個架構，同一個 SWE-bench 天花板，四條不同的帳單

同一個月、四份成績單：SWE-bench 數字怎麼讀、怎麼不要讀

四個架構，四種賭注：誰押了什麼

成本差在哪裡：從 per-token 到 per-task，帳單怎麼算

自託管門檻差在哪：MIT 授權之外，還要看 active 參數和 VRAM 預算

現在怎麼選：任務類型 × 成本段 × 模型路由矩陣

繼續讀

OpenAI 新語音模型來了：客服可以邊說邊查、邊說邊做

AI 讓實作變便宜，PM 判斷價值更高了！

Claude Fable 5 該不該升級？先看價格、拒答與 30 天留存

訂閱《矽基前沿週報》