AI 戰爭 2026年6月10日

DeepSeek R1 推出 16 個月後：推理模型成本的崩跌，以及台灣開發者的三個選擇

一個開放權重的上傳，讓 Nvidia 單日市值蒸發逾 5,930 億美元。16 個月後，AI API 定價格局已然改變，但幾個核心假設你可能還沒更新。

重點一：DeepSeek 於 2025 年 1 月 20 日釋出 R1 開放權重模型，技術核心是 GRPO（Group Relative Policy Optimization）——一種不需要大量監督推理鏈資料就能讓模型學會 chain-of-thought 的強化學習演算法。

重點二：R1 發布後一週，Nvidia 單日市值蒸發逾 5,930 億美元。市場恐慌的不是 Nvidia 做了什麼，而是「便宜就能訓練出推理模型」這件事推翻了大家對 AI 基礎設施支出必然只升不降的假設。

重點三：16 個月後，AI API 定價格局確實改變，小型蒸餾推理模型已可在本地跑，但前沿模型的品質差距仍在，Nvidia 的市場地位也已恢復。台灣開發者面對 DeepSeek R1 有三個不同性質的決策，每個不一樣。

2025 年 1 月 27 日，Nvidia 股票在美股交易日重挫約 17%，單日市值蒸發逾 5,930 億美元——Reuters 報導稱這是當時美國股市史上規模最大的單日市值損失之一。

Nvidia 的暴跌跟任何財報無關——觸發點是一週前的事：一個中國 AI 實驗室把一組開放權重上傳到 GitHub 和 Hugging Face，附上一份技術報告，宣稱用強化學習從零訓練出接近 OpenAI o1 水準的推理模型。

這個模型叫 DeepSeek R1。

16 個月後的今天（2026 年 5 月），這件事到底留下了什麼？

2025 年 1 月 20 日：一個 GitHub 上傳，一週後讓 Nvidia 市值蒸發 5,930 億美元

DeepSeek R1 的技術報告（arXiv 2501.12948）核心只說了一件事：你不需要大量人工標注的推理鏈，也可以讓大型語言模型學會 chain-of-thought 推理。

這聽起來像學術觀察，但對 AI 基礎設施的投資邏輯來說是個炸彈。

當時的主流假設是：訓練一個會推理的前沿模型，需要海量人工標注的推理過程資料（process supervision data），加上龐大的計算資源，兩者缺一不可。DeepSeek 的做法正面打臉這個假設。

DeepSeek R1 不是中國追上了美國的訊號，而是一個更難處理的事實：讓模型學會思考，比讓模型記住更多東西，便宜了一個數量級。

R1 的訓練分兩個階段。第一階段叫 DeepSeek-R1-Zero：直接從 V3 base model 做純強化學習，不給任何監督推理鏈，只給 reward signal（答案對不對、格式有沒有遵守）。結果：模型自己學出了反思行為、自我驗證、以及延伸推理鏈——這些原本被普遍認為需要大量人工監督資料才能訓練出來的能力。

第二階段加入少量冷啟動 SFT 資料後，得到完整的 DeepSeek R1，在 AIME 2024（79.8%）、MATH-500（97.3%）、Codeforces（2029 分）等基準測試上達到接近 OpenAI o1 的分數（分別為 79.2%、96.4%、2061 分）。這些數字是 DeepSeek 自身報告的 vendor 數據，發布時成立。

這個方法叫 GRPO（Group Relative Policy Optimization）。與傳統 RLHF 不同的地方在於：它用「同一組回應的相對排名」代替「獨立的 reward model」來計算梯度更新，大幅降低訓練成本。

至於為什麼市場這麼反應——訓練成本數字是關鍵。DeepSeek V3（R1 的前身、也是 R1 的基礎模型）在技術報告（arXiv 2412.19437）中寫明了訓練預算：2,048 張 H800 GPU，訓練費用約 557.6 萬美元。這個數字是 V3 base model 的訓練成本，不是 R1 RL 訓練的直接成本。但合在一起，訊號很清楚：同樣的事情，DeepSeek 在西方業界估算「可能超過一億美元」的預算下，用了零頭做到了。

市場看到的是：如果推理模型可以用更少計算量做出來，那 AI 軍備競賽對 GPU 算力的需求，可能不會永遠只升不降。

白話講：Nvidia 被嚇到的是訓練這個模型所需的 GPU 數量，比所有人預估的少太多了。

技術報告說了什麼：GRPO 把人工標注推理鏈從訓練流程裡拿掉

在 R1 發布前，「讓 LLM 學會推理」的主流路徑是這樣的：

收集大量人工撰寫的推理鏈示例（process supervision data）
用 SFT 在這些示例上訓練模型
再用 RLHF 微調，讓模型的推理輸出更可靠

每一步都需要人工介入：標注推理過程是勞力密集的工作，reward model 的訓練需要人類偏好資料。

GRPO 做的事情是把第 1 步和第 2 步簡化掉。具體做法：給模型一道題，讓它對同一道題生成多個不同的回應，然後根據「這些回應在群組裡的相對好壞」（而不是和獨立 reward model 比較）來計算獎勵訊號。這樣只需要「最終答案對不對」這種弱監督，就能讓模型學到推理行為。

結果是 R1-Zero（純 RL、零 SFT 資料）已經學出了湧現行為（emergent behaviors）：自我驗證、反思能力、延伸推理鏈——模型在沒有人告訴它「你應該這樣思考」的情況下，自己發展出了思考結構。

除了主模型以外，R1 同步釋出了 6 個蒸餾模型：

模型	大小	基礎授權
R1-Distill-Qwen-1.5B	1.5B	Apache 2.0（Qwen 2.5 授權）
R1-Distill-Qwen-7B	7B	Apache 2.0（Qwen 2.5 授權）
R1-Distill-Qwen-14B	14B	Apache 2.0（Qwen 2.5 授權）
R1-Distill-Qwen-32B	32B	Apache 2.0（Qwen 2.5 授權）
R1-Distill-Llama-8B	8B	Meta Llama 授權
R1-Distill-Llama-70B	70B	Meta Llama 授權

這些蒸餾模型的授權分別跟隨基礎模型（Qwen 系列多半 Apache 2.0，Llama 系列用 Meta Llama license）。R1 主模型本身使用 DeepSeek 自訂授權，有部分商業使用限制。

重要的是：蒸餾讓「接近 o1 水準的推理」進了 7B 甚至更小的模型。R1-Distill-Qwen-32B 在多個數學和代碼基準上接近完整 R1 的表現，卻小到可以在本地單機硬體上跑。這件事從根本上改變了本地部署推理模型的可行性門檻。

換句話說：DeepSeek R1 的影響不只是一個大模型跑分，而是它讓「推理」這件事變成了小硬體也負擔得起的工作。

16 個月後：哪些預測成真，哪些沒有

DeepSeek R1 在 2025 年 1 月後引發了一波關於「AI 格局將改變」的預測。16 個月後來看：

確實改變的

AI API 定價格局。OpenAI、Anthropic、Google 在整個 2025 年先後大幅降低 API 定價。雖然無法直接歸因給 DeepSeek，但開放模型的競爭壓力明顯加速了這個趨勢。同一時間，R1-Distill-Qwen-7B、14B 這類蒸餾小模型已可在本地部署，把「取得推理能力」的成本再往下壓了一層。

開放模型生態系的 RL 訓練普及。Llama 3.1/3.2/3.3、Qwen 2.5（Alibaba）、Mistral 3 都在 2025 年採用了類似 GRPO 的強化學習方法，或從大型推理模型蒸餾。推理能力從「只有前沿閉源模型有」變成了「開放模型也有，且是主流做法」。

蒸餾經濟成為生產路徑。R1-Distill-Qwen-32B 已被廣泛用於成本敏感的推理任務：數學求解、代碼生成、邏輯問答。在 Claude / GPT-4o 收費太高的場景，它是真實的替代方案。

沒有改變的

Nvidia 的市場地位。Nvidia 股票在 2025 年 1 月 27 日重挫後，最終完全恢復，且 AI 訓練和推論的算力總需求繼續增長。DeepSeek 的效率示範沒有壓縮需求——它讓更多人能夠負擔 AI，進而增加了 GPU 的使用量，而不是減少。

前沿模型的品質差距。R1 在發布時與 o1 接近，但截至 2026 年中段，GPT-4o 的後繼模型、Claude 3.7 以及 Gemini Ultra 在複雜多步任務上仍然領先。這個品質梯度仍然存在，沒有被抹平。

美國對中國的晶片出口管制。DeepSeek 訓練 R1 的 H800 GPU 是在管制收緊之前採購的。管制本身並未放鬆；中國 AI 實驗室在後續規模擴張時仍然面對晶片取得的障礙，這與台灣半導體供應鏈的地緣位置直接相關。

也就是說：R1 改變的是「誰負擔得起推理模型」，沒有改變的是「最強的模型在誰手上」。

台灣開發者的三個選擇：API 定價、本地部署、資料主權

DeepSeek R1 對台灣 AI 開發者的實際意義，拆開來看有三個不同性質的決策點：

場景	選擇	理由
成本敏感的推理任務（分類、邏輯、數學）	DeepSeek API 或 R1-Distill 本地部署	定價有競爭力，32B 蒸餾模型推理能力已夠用
含個人或企業敏感資料的任務	Claude / GPT / Gemini API，或完全本地	DeepSeek API 的資料依中國法律處理，儲存在中國；對台灣用戶來說是真實的資料主權考量
前沿複雜任務（多步代理人、長文本分析）	GPT-4o 後繼 / Claude 3.7 系列	品質差距在複雜任務中仍然可見，換便宜模型會踩到明顯的能力天花板

幾個補充判斷：

本地部署的可行性門檻已降低。R1-Distill 系列的中小型模型（7B 到 32B）可以在本地或台灣境內的基礎設施上執行，不必把資料送進 DeepSeek 的 API，就能拿到接近 R1 等級的推理能力。對處理敏感資料的團隊，這是「便宜推理」與「資料主權」可以同時成立的一條路。

DeepSeek API 的定價壓力是真實的。DeepSeek API 對 R1 模型的定價約在每百萬輸入 token 0.14 美元（2025 年初公布的費率），在當時的市場上是極具競爭力的低價。這是為什麼開發者在非敏感任務上使用它是合理的。

TSMC 的位置。Nvidia 的 GPU 生產仍以台灣半導體供應鏈（晶圓代工與先進封裝）為核心。「效率提升降低了 GPU 需求」的論述在 2025 年被明顯推翻——AI 使用的增長速度超過了效率提升帶來的節省。台灣半導體供應鏈的長期角色未被動搖，反而因 AI 應用擴大而維持。

16 個月後，DeepSeek R1 留下的不是一個叫你換掉 Claude 或 GPT-4o 的理由，而是一個讓你重新計算邊際成本的工具。

對台灣開發者，最值得更新的假設只有一個：推理能力的成本已不再是你建 AI 產品的主要障礙。現在的障礙是整合品質、準確度管控，以及資料主權邊界的設計。

這三件事，便宜模型和貴模型都沒辦法幫你省掉。

資料來源：DeepSeek-R1 技術報告（arXiv 2501.12948）、DeepSeek-V3 技術報告（arXiv 2412.19437）、DeepSeek-R1 GitHub 及 Hugging Face 模型頁面、Reuters 市場報導（2025-01-27）

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: AI 戰爭
Key claims: DeepSeek 於 2025 年 1 月 20 日釋出 R1 開放權重模型，同步公開 GitHub repo 與 Hugging Face 模型頁面。
R1 技術報告中的關鍵貢獻是 GRPO（Group Relative Policy Optimization），一種讓 RL 訓練在不依賴大規模監督推理鏈的情況下仍可產生 chain-of-thought 能力的演算法。
DeepSeek V3 的技術報告列出其訓練預算約 557.6 萬美元（使用 2,048 張 H800 GPU），R1 在此基礎上進行強化學習訓練；兩者訓練成本分開計算。
R1 於發布時在多個推理基準測試（AIME 2024、MATH-500、Codeforces）上達到接近 OpenAI o1 的分數，此為 DeepSeek 自身報告的 vendor 數據。
R1 同步釋出 6 個蒸餾模型（R1-Distill-Qwen-1.5B 到 32B、Llama-8B 到 70B），授權分別跟隨 Qwen 2.5（Apache 2.0）與 Meta Llama 授權。
Reuters 報導 2025 年 1 月 27 日 Nvidia 股價單日下跌約 17%，市值蒸發逾 5,930 億美元。
Entities: DeepSeek · DeepSeek R1 · Nvidia · GRPO · DeepSeek V3 · OpenAI · Hugging Face · TSMC
Taiwan relevance: high
Confidence: high
Last updated: 2026-06-10
Canonical URL: https://signals.tw/articles/deepseek-r1-16-months/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

謝皓文（編輯：廖玄同），《DeepSeek R1 推出 16 個月後：推理模型成本的崩跌，以及台灣開發者的三個選擇》，矽基前沿 [Si]gnals，2026-06-10。https://signals.tw/articles/deepseek-r1-16-months/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

DeepSeek R1 推出 16 個月後：推理模型成本的崩跌，以及台灣開發者的三個選擇

2025 年 1 月 20 日：一個 GitHub 上傳，一週後讓 Nvidia 市值蒸發 5,930 億美元

技術報告說了什麼：GRPO 把人工標注推理鏈從訓練流程裡拿掉

16 個月後：哪些預測成真，哪些沒有

確實改變的

沒有改變的

台灣開發者的三個選擇：API 定價、本地部署、資料主權

繼續讀

Google 用 Gemini 讀新聞，補出 260 萬筆洪災紀錄：AI 預警卡在資料底稿

GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7：四個架構，同一個 SWE-bench 天花板，四條不同的帳單

全球 AI 使用率 17.8%：Microsoft 這份 diffusion 報告該怎麼讀？

訂閱《矽基前沿週報》