大百科 2026年4月25日

Quantization 是什麼:讓 70B 模型跑在筆電上的魔法

Llama 70B 原版要 140GB GPU,4-bit 量化後 35GB——MacBook M4 也能跑。代價是什麼?

Quantization(量化)是把 LLM 的參數從高精度數字(FP16 / FP32)壓縮成低精度(INT8 / INT4)。這篇用實際例子解釋 quantization 是什麼、4-bit / 8-bit / FP16 各代表什麼、品質損失多少、主流格式(GGUF / GPTQ / AWQ)差在哪、以及對自架的判斷。

署名周詠晴編輯廖玄同 AI 協作: 初稿輔助

AI 大百科 AI 模型基礎素養

2024 年我把 Llama 3 70B 跑在我的 MacBook M3 Max 上——整個模型 35GB，塞進 64GB RAM 沒問題，推論速度約 5-8 token/秒。

原版 Llama 70B 要 140GB GPU 記憶體，得租兩張 H100 才跑得動。每小時 $5-10 美元。

是什麼讓它變 4 倍小？Quantization。

Quantization(量化)是把 LLM 的參數從高精度數字(每個參數 16 bit 或 32 bit)壓成低精度(8 bit、4 bit、甚至更低)。模型大小大幅減少、推論速度變快，代價是品質會略微下降。

這是讓「在筆電上跑大模型」變可能的關鍵技術。

一個簡單例子

LLM 的「參數」(parameters)就是一堆數字。Llama 70B 有 700 億個。每個數字都得佔記憶體。

FP32(32 bit / 4 bytes 每個參數):

70B × 4 bytes = 280GB
完整精度，訓練時用

FP16 / BF16(16 bit / 2 bytes):

70B × 2 bytes = 140GB
推論的「標準」精度，品質幾乎等同 FP32

INT8 / Q8(8 bit / 1 byte):

70B × 1 byte = 70GB
壓一半，品質損失極少(< 1%)

INT4 / Q4(4 bit / 0.5 byte):

70B × 0.5 = 35GB
壓 4 倍，品質損失通常 5-15%

Q2 / Q3 等更低精度:

17-26GB 級別
品質開始明顯掉(> 20%)，只在資源極限場景用

Sweet spot 是 4-bit

實務上，4-bit 是甜蜜點：

大小:原版 25%
品質:多數任務 85-95% 的原版表現
速度:常常比原版還快(因為 memory bandwidth 是瓶頸，小模型載入快)
可在哪跑:MacBook、消費級 GPU(RTX 4090 / 5090)、企業中階 GPU

這就是為什麼絕大多數開源模型(Llama、Qwen、DeepSeek、Mistral)的「實用版」都是 4-bit。Hugging Face 上的下載量，Q4_K_M 通常排第一。

為什麼能壓這麼多還能用

直覺上你會以為「精度從 16-bit 砍到 4-bit，品質應該掉一半」。實際上沒那麼慘。

理由：LLM 的參數多數時候不需要 32-bit 的精度。模型的能力來自參數之間的「整體模式」，不是單一參數的精確值。

類比：JPEG 把照片從 raw 砍到 1/10 大小，你看不太出差別——因為人眼對某些細節不敏感。Quantization 的概念類似——LLM 對某些精度不敏感。

但「完全不敏感」是錯的。極端壓縮(2-bit)會明顯損失能力，特別是 reasoning、math、code 等需要精確計算的任務。

主流量化格式

格式	特色	強項	適合
GGUF(llama.cpp 系)	跨硬體(CPU / GPU / Apple Silicon)	易用、Ollama / LM Studio 預設	個人 / 小團隊 / Mac 自架
GPTQ	GPU-only，訓練時量化	精度保留好	NVIDIA GPU 推論
AWQ(Activation-aware)	看活化值決定量化策略	品質保留比 GPTQ 更好	高品質要求的 GPU 推論
bitsandbytes	動態量化，Hugging Face 整合	最簡單，2 行 code	開發 / 實驗
EXL2 / EXL3	GPU 高效	vLLM 等 inference 框架支援	企業 production

個人 Mac 自架：Ollama 或 LM Studio 直接下 GGUF Q4_K_M,15 分鐘上手。

**企業 GPU production:**vLLM + AWQ / GPTQ，平衡品質與吞吐量。

對品質的影響

不同任務對量化的敏感度不同。

任務類型	4-bit 損失	原因
Casual chat / 寫作	幾乎沒感覺	高容錯，模型有空間「猜對」
翻譯 / 摘要	很小(~5%)	同上
Coding	中等(~10-15%)	需要精確的 token，錯一個字程式可能就壞
Math / Reasoning	較大(~15-25%)	多步推理放大每步小誤差
長 context retrieval	中等到大	Attention 計算對精度敏感

實務建議：寫作 / 客服 / 翻譯場景跑 4-bit 完全 OK,coding / math 場景建議 8-bit 或不量化。

對台灣 builder / 企業的判斷

第一，4-bit 開源模型是 cost-effective 的本地選擇。 一台 64GB RAM 的 Mac Studio 可以跑 Llama 70B Q4，每月電費幾百塊台幣。比 OpenAI / Anthropic API 大量呼叫便宜很多。

第二，資料敏感場景必選自架 + quantized。 法律、醫療、政府等不能上雲的場景，4-bit Llama / Qwen / DeepSeek 是 production-viable 選擇。

第三，評估時用實際 task 測，不要看 benchmark 排行榜。 4-bit 在 MMLU 可能掉 5%，但你的 use case 可能完全感覺不到——也可能影響大。實測你的真實 query，別預設。

第四，小心極端量化。 2-bit / 1-bit 的「超壓縮」是研究方向，現階段(2026)還不適合 production。Q4 / Q5 是穩妥選擇。

第五，quantization 不是萬能。 如果你需要的能力是頂級閉源模型(GPT-5 / Claude Opus 4)那種的，4-bit 開源 70B 還是達不到。預算高、能力要求頂尖，還是用閉源 API。

收尾

Quantization 把「跑 LLM」這件事的門檻從「需要租 GPU」降到「筆電就能跑」。

對 builder 的意義：你可以做 prototype、可以本地實驗、可以資料完全在自家。對企業：你有 production 自架的真實選擇，不用全部押 API。

理解 quantization 的 trade-off，你就有了 LLM 自架的基礎建設。

(這也是 chronicle Tier A 概念條目的最後一篇——後續進入 catalog / timeline 與更專門的 Tier B 條目。)

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 大百科
Key claims: Quantization 是把 LLM 的參數從高精度(FP16 / FP32)壓成低精度(INT8 / INT4 / Q4 等)。記憶體需求大幅降低,讓 70B 級模型可以跑在消費級硬體上。
4-bit 量化通常是 sweet spot:模型大小 ~25% 原版、品質損失 5-15%、推論速度反而變快(memory bandwidth 是瓶頸)。
主流格式各有強項:GGUF(llama.cpp 系,跨硬體)、GPTQ(GPU 專屬,精度好)、AWQ(activation-aware,品質保留多)、bitsandbytes(動態量化,最簡單)。
量化是自架 LLM 的基礎建設。對台灣中小企業跟 builder,4-bit 量化的開源模型可以在預算內 deliver 80% 頂級閉源模型的能力。
Entities: Quantization · GGUF · GPTQ · AWQ · bitsandbytes · llama.cpp · Ollama · LM Studio
Taiwan relevance: medium
Confidence: high
Last updated: 2026-04-25
Canonical URL: https://signals.tw/articles/what-is-quantization/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴（編輯：廖玄同），《Quantization 是什麼:讓 70B 模型跑在筆電上的魔法》，矽基前沿 [Si]gnals，2026-04-25。https://signals.tw/articles/what-is-quantization/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

Quantization 是什麼:讓 70B 模型跑在筆電上的魔法

一個簡單例子

Sweet spot 是 4-bit

為什麼能壓這麼多還能用

主流量化格式

對品質的影響

對台灣 builder / 企業的判斷

收尾

繼續讀

LLM 是什麼:大語言模型基礎一次看懂

Tokens 是什麼:AI 是怎麼數錢、數字的

Fine-tuning 是什麼:什麼時候該、什麼時候不該

訂閱《矽基前沿週報》