矽基前沿 [Si]gnals
一個概念化開發者部署控制台,中央的 DeepSeek R1 模型方塊帶著向下的成本箭頭,分出 API、本地部署與資料邊界三條決策路徑,背景有淡化的 GPU 與市場線條
AI 戰爭

DeepSeek R1 推出 16 個月後:推理模型成本的崩跌,以及台灣開發者的三個選擇

一個開放權重的上傳,讓 Nvidia 單日市值蒸發逾 5,930 億美元。16 個月後,AI API 定價格局已然改變,但幾個核心假設你可能還沒更新。

重點一:DeepSeek 於 2025 年 1 月 20 日釋出 R1 開放權重模型,技術核心是 GRPO(Group Relative Policy Optimization)——一種不需要大量監督推理鏈資料就能讓模型學會 chain-of-thought 的強化學習演算法。

重點二:R1 發布後一週,Nvidia 單日市值蒸發逾 5,930 億美元。市場恐慌的不是 Nvidia 做了什麼,而是「便宜就能訓練出推理模型」這件事推翻了大家對 AI 基礎設施支出必然只升不降的假設。

重點三:16 個月後,AI API 定價格局確實改變,小型蒸餾推理模型已可在本地跑,但前沿模型的品質差距仍在,Nvidia 的市場地位也已恢復。台灣開發者面對 DeepSeek R1 有三個不同性質的決策,每個不一樣。

2025 年 1 月 27 日,Nvidia 股票在美股交易日重挫約 17%,單日市值蒸發逾 5,930 億美元——Reuters 報導稱這是當時美國股市史上規模最大的單日市值損失之一。

Nvidia 的暴跌跟任何財報無關——觸發點是一週前的事:一個中國 AI 實驗室把一組開放權重上傳到 GitHub 和 Hugging Face,附上一份技術報告,宣稱用強化學習從零訓練出接近 OpenAI o1 水準的推理模型。

這個模型叫 DeepSeek R1

16 個月後的今天(2026 年 5 月),這件事到底留下了什麼?


2025 年 1 月 20 日:一個 GitHub 上傳,一週後讓 Nvidia 市值蒸發 5,930 億美元

DeepSeek R1 的技術報告(arXiv 2501.12948)核心只說了一件事:你不需要大量人工標注的推理鏈,也可以讓大型語言模型學會 chain-of-thought 推理

這聽起來像學術觀察,但對 AI 基礎設施的投資邏輯來說是個炸彈。

當時的主流假設是:訓練一個會推理的前沿模型,需要海量人工標注的推理過程資料(process supervision data),加上龐大的計算資源,兩者缺一不可。DeepSeek 的做法正面打臉這個假設。

DeepSeek R1 不是中國追上了美國的訊號,而是一個更難處理的事實:讓模型學會思考,比讓模型記住更多東西,便宜了一個數量級。

R1 的訓練分兩個階段。第一階段叫 DeepSeek-R1-Zero:直接從 V3 base model 做純強化學習,不給任何監督推理鏈,只給 reward signal(答案對不對、格式有沒有遵守)。結果:模型自己學出了反思行為、自我驗證、以及延伸推理鏈——這些原本被普遍認為需要大量人工監督資料才能訓練出來的能力。

第二階段加入少量冷啟動 SFT 資料後,得到完整的 DeepSeek R1,在 AIME 2024(79.8%)、MATH-500(97.3%)、Codeforces(2029 分)等基準測試上達到接近 OpenAI o1 的分數(分別為 79.2%、96.4%、2061 分)。這些數字是 DeepSeek 自身報告的 vendor 數據,發布時成立。

這個方法叫 GRPO(Group Relative Policy Optimization)。與傳統 RLHF 不同的地方在於:它用「同一組回應的相對排名」代替「獨立的 reward model」來計算梯度更新,大幅降低訓練成本。

至於為什麼市場這麼反應——訓練成本數字是關鍵。DeepSeek V3(R1 的前身、也是 R1 的基礎模型)在技術報告(arXiv 2412.19437)中寫明了訓練預算:2,048 張 H800 GPU,訓練費用約 557.6 萬美元。這個數字是 V3 base model 的訓練成本,不是 R1 RL 訓練的直接成本。但合在一起,訊號很清楚:同樣的事情,DeepSeek 在西方業界估算「可能超過一億美元」的預算下,用了零頭做到了。

市場看到的是:如果推理模型可以用更少計算量做出來,那 AI 軍備競賽對 GPU 算力的需求,可能不會永遠只升不降。

白話講:Nvidia 被嚇到的是訓練這個模型所需的 GPU 數量,比所有人預估的少太多了。


技術報告說了什麼:GRPO 把人工標注推理鏈從訓練流程裡拿掉

在 R1 發布前,「讓 LLM 學會推理」的主流路徑是這樣的:

  1. 收集大量人工撰寫的推理鏈示例(process supervision data)
  2. 用 SFT 在這些示例上訓練模型
  3. 再用 RLHF 微調,讓模型的推理輸出更可靠

每一步都需要人工介入:標注推理過程是勞力密集的工作,reward model 的訓練需要人類偏好資料。

GRPO 做的事情是把第 1 步和第 2 步簡化掉。具體做法:給模型一道題,讓它對同一道題生成多個不同的回應,然後根據「這些回應在群組裡的相對好壞」(而不是和獨立 reward model 比較)來計算獎勵訊號。這樣只需要「最終答案對不對」這種弱監督,就能讓模型學到推理行為。

結果是 R1-Zero(純 RL、零 SFT 資料)已經學出了湧現行為(emergent behaviors):自我驗證、反思能力、延伸推理鏈——模型在沒有人告訴它「你應該這樣思考」的情況下,自己發展出了思考結構。

除了主模型以外,R1 同步釋出了 6 個蒸餾模型

模型大小基礎授權
R1-Distill-Qwen-1.5B1.5BApache 2.0(Qwen 2.5 授權)
R1-Distill-Qwen-7B7BApache 2.0(Qwen 2.5 授權)
R1-Distill-Qwen-14B14BApache 2.0(Qwen 2.5 授權)
R1-Distill-Qwen-32B32BApache 2.0(Qwen 2.5 授權)
R1-Distill-Llama-8B8BMeta Llama 授權
R1-Distill-Llama-70B70BMeta Llama 授權

這些蒸餾模型的授權分別跟隨基礎模型(Qwen 系列多半 Apache 2.0,Llama 系列用 Meta Llama license)。R1 主模型本身使用 DeepSeek 自訂授權,有部分商業使用限制。

重要的是:蒸餾讓「接近 o1 水準的推理」進了 7B 甚至更小的模型。R1-Distill-Qwen-32B 在多個數學和代碼基準上接近完整 R1 的表現,卻小到可以在本地單機硬體上跑。這件事從根本上改變了本地部署推理模型的可行性門檻。

換句話說:DeepSeek R1 的影響不只是一個大模型跑分,而是它讓「推理」這件事變成了小硬體也負擔得起的工作。


16 個月後:哪些預測成真,哪些沒有

DeepSeek R1 在 2025 年 1 月後引發了一波關於「AI 格局將改變」的預測。16 個月後來看:

確實改變的

AI API 定價格局。OpenAI、Anthropic、Google 在整個 2025 年先後大幅降低 API 定價。雖然無法直接歸因給 DeepSeek,但開放模型的競爭壓力明顯加速了這個趨勢。同一時間,R1-Distill-Qwen-7B、14B 這類蒸餾小模型已可在本地部署,把「取得推理能力」的成本再往下壓了一層。

開放模型生態系的 RL 訓練普及。Llama 3.1/3.2/3.3、Qwen 2.5(Alibaba)、Mistral 3 都在 2025 年採用了類似 GRPO 的強化學習方法,或從大型推理模型蒸餾。推理能力從「只有前沿閉源模型有」變成了「開放模型也有,且是主流做法」。

蒸餾經濟成為生產路徑。R1-Distill-Qwen-32B 已被廣泛用於成本敏感的推理任務:數學求解、代碼生成、邏輯問答。在 Claude / GPT-4o 收費太高的場景,它是真實的替代方案。

沒有改變的

Nvidia 的市場地位。Nvidia 股票在 2025 年 1 月 27 日重挫後,最終完全恢復,且 AI 訓練和推論的算力總需求繼續增長。DeepSeek 的效率示範沒有壓縮需求——它讓更多人能夠負擔 AI,進而增加了 GPU 的使用量,而不是減少。

前沿模型的品質差距。R1 在發布時與 o1 接近,但截至 2026 年中段,GPT-4o 的後繼模型、Claude 3.7 以及 Gemini Ultra 在複雜多步任務上仍然領先。這個品質梯度仍然存在,沒有被抹平。

美國對中國的晶片出口管制。DeepSeek 訓練 R1 的 H800 GPU 是在管制收緊之前採購的。管制本身並未放鬆;中國 AI 實驗室在後續規模擴張時仍然面對晶片取得的障礙,這與台灣半導體供應鏈的地緣位置直接相關。

也就是說:R1 改變的是「誰負擔得起推理模型」,沒有改變的是「最強的模型在誰手上」。


台灣開發者的三個選擇:API 定價、本地部署、資料主權

DeepSeek R1 對台灣 AI 開發者的實際意義,拆開來看有三個不同性質的決策點:

場景選擇理由
成本敏感的推理任務(分類、邏輯、數學)DeepSeek API 或 R1-Distill 本地部署定價有競爭力,32B 蒸餾模型推理能力已夠用
含個人或企業敏感資料的任務Claude / GPT / Gemini API,或完全本地DeepSeek API 的資料依中國法律處理,儲存在中國;對台灣用戶來說是真實的資料主權考量
前沿複雜任務(多步代理人、長文本分析)GPT-4o 後繼 / Claude 3.7 系列品質差距在複雜任務中仍然可見,換便宜模型會踩到明顯的能力天花板

幾個補充判斷:

本地部署的可行性門檻已降低。R1-Distill 系列的中小型模型(7B 到 32B)可以在本地或台灣境內的基礎設施上執行,不必把資料送進 DeepSeek 的 API,就能拿到接近 R1 等級的推理能力。對處理敏感資料的團隊,這是「便宜推理」與「資料主權」可以同時成立的一條路。

DeepSeek API 的定價壓力是真實的。DeepSeek API 對 R1 模型的定價約在每百萬輸入 token 0.14 美元(2025 年初公布的費率),在當時的市場上是極具競爭力的低價。這是為什麼開發者在非敏感任務上使用它是合理的。

TSMC 的位置。Nvidia 的 GPU 生產仍以台灣半導體供應鏈(晶圓代工與先進封裝)為核心。「效率提升降低了 GPU 需求」的論述在 2025 年被明顯推翻——AI 使用的增長速度超過了效率提升帶來的節省。台灣半導體供應鏈的長期角色未被動搖,反而因 AI 應用擴大而維持。


16 個月後,DeepSeek R1 留下的不是一個叫你換掉 Claude 或 GPT-4o 的理由,而是一個讓你重新計算邊際成本的工具。

對台灣開發者,最值得更新的假設只有一個:推理能力的成本已不再是你建 AI 產品的主要障礙。現在的障礙是整合品質、準確度管控,以及資料主權邊界的設計。

這三件事,便宜模型和貴模型都沒辦法幫你省掉。


資料來源:DeepSeek-R1 技術報告(arXiv 2501.12948)、DeepSeek-V3 技術報告(arXiv 2412.19437)、DeepSeek-R1 GitHub 及 Hugging Face 模型頁面、Reuters 市場報導(2025-01-27)

SOURCES

  1. A DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  2. A DeepSeek-R1 GitHub Repository
  3. A DeepSeek-R1 on Hugging Face
  4. A DeepSeek-V3 Technical Report
  5. B Nvidia shares tumble as DeepSeek emerges as low-cost AI rival

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
AI 戰爭
Key claims
  • DeepSeek 於 2025 年 1 月 20 日釋出 R1 開放權重模型,同步公開 GitHub repo 與 Hugging Face 模型頁面。
  • R1 技術報告中的關鍵貢獻是 GRPO(Group Relative Policy Optimization),一種讓 RL 訓練在不依賴大規模監督推理鏈的情況下仍可產生 chain-of-thought 能力的演算法。
  • DeepSeek V3 的技術報告列出其訓練預算約 557.6 萬美元(使用 2,048 張 H800 GPU),R1 在此基礎上進行強化學習訓練;兩者訓練成本分開計算。
  • R1 於發布時在多個推理基準測試(AIME 2024、MATH-500、Codeforces)上達到接近 OpenAI o1 的分數,此為 DeepSeek 自身報告的 vendor 數據。
  • R1 同步釋出 6 個蒸餾模型(R1-Distill-Qwen-1.5B 到 32B、Llama-8B 到 70B),授權分別跟隨 Qwen 2.5(Apache 2.0)與 Meta Llama 授權。
  • Reuters 報導 2025 年 1 月 27 日 Nvidia 股價單日下跌約 17%,市值蒸發逾 5,930 億美元。
Entities
DeepSeek · DeepSeek R1 · Nvidia · GRPO · DeepSeek V3 · OpenAI · Hugging Face · TSMC
Taiwan relevance
high
Confidence
high
Last updated
2026-06-10
Canonical URL
https://signals.tw/articles/deepseek-r1-16-months/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

謝皓文(編輯:廖玄同),《DeepSeek R1 推出 16 個月後:推理模型成本的崩跌,以及台灣開發者的三個選擇》,矽基前沿 [Si]gnals,2026-06-10。https://signals.tw/articles/deepseek-r1-16-months/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。