矽基前沿 [Si]gnals
LLM Quantization 概念示意 (placeholder)
大百科

Quantization 是什麼:讓 70B 模型跑在筆電上的魔法

Llama 70B 原版要 140GB GPU,4-bit 量化後 35GB——MacBook M4 也能跑。代價是什麼?

Quantization(量化)是把 LLM 的參數從高精度數字(FP16 / FP32)壓縮成低精度(INT8 / INT4)。這篇用實際例子解釋 quantization 是什麼、4-bit / 8-bit / FP16 各代表什麼、品質損失多少、主流格式(GGUF / GPTQ / AWQ)差在哪、以及對自架的判斷。

署名 周詠晴 編輯 廖玄同 AI 協作: 初稿輔助

2024 年我把 Llama 3 70B 跑在我的 MacBook M3 Max 上——整個模型 35GB,塞進 64GB RAM 沒問題,推論速度約 5-8 token/秒

原版 Llama 70B 要 140GB GPU 記憶體,得租兩張 H100 才跑得動。每小時 $5-10 美元。

是什麼讓它變 4 倍小?Quantization。

Quantization(量化)是把 LLM 的參數從高精度數字(每個參數 16 bit 或 32 bit)壓成低精度(8 bit、4 bit、甚至更低)。模型大小大幅減少、推論速度變快,代價是品質會略微下降。

這是讓「在筆電上跑大模型」變可能的關鍵技術。

一個簡單例子

LLM 的「參數」(parameters)就是一堆數字。Llama 70B 有 700 億個。每個數字都得佔記憶體。

FP32(32 bit / 4 bytes 每個參數):

  • 70B × 4 bytes = 280GB
  • 完整精度,訓練時用

FP16 / BF16(16 bit / 2 bytes):

  • 70B × 2 bytes = 140GB
  • 推論的「標準」精度,品質幾乎等同 FP32

INT8 / Q8(8 bit / 1 byte):

  • 70B × 1 byte = 70GB
  • 壓一半,品質損失極少(< 1%)

INT4 / Q4(4 bit / 0.5 byte):

  • 70B × 0.5 = 35GB
  • 壓 4 倍,品質損失通常 5-15%

Q2 / Q3 等更低精度:

  • 17-26GB 級別
  • 品質開始明顯掉(> 20%),只在資源極限場景用

Sweet spot 是 4-bit

實務上,4-bit 是甜蜜點:

  • 大小:原版 25%
  • 品質:多數任務 85-95% 的原版表現
  • 速度:常常比原版還快(因為 memory bandwidth 是瓶頸,小模型載入快)
  • 可在哪跑:MacBook、消費級 GPU(RTX 4090 / 5090)、企業中階 GPU

這就是為什麼絕大多數開源模型(Llama、Qwen、DeepSeek、Mistral)的「實用版」都是 4-bit。Hugging Face 上的下載量,Q4_K_M 通常排第一。

為什麼能壓這麼多還能用

直覺上你會以為「精度從 16-bit 砍到 4-bit,品質應該掉一半」。實際上沒那麼慘。

理由:LLM 的參數多數時候不需要 32-bit 的精度。模型的能力來自參數之間的「整體模式」,不是單一參數的精確值。

類比:JPEG 把照片從 raw 砍到 1/10 大小,你看不太出差別——因為人眼對某些細節不敏感。Quantization 的概念類似——LLM 對某些精度不敏感。

但「完全不敏感」是錯的。極端壓縮(2-bit)會明顯損失能力,特別是 reasoning、math、code 等需要精確計算的任務。

主流量化格式

格式特色強項適合
GGUF(llama.cpp 系)跨硬體(CPU / GPU / Apple Silicon)易用、Ollama / LM Studio 預設個人 / 小團隊 / Mac 自架
GPTQGPU-only,訓練時量化精度保留好NVIDIA GPU 推論
AWQ(Activation-aware)看活化值決定量化策略品質保留比 GPTQ 更好高品質要求的 GPU 推論
bitsandbytes動態量化,Hugging Face 整合最簡單,2 行 code開發 / 實驗
EXL2 / EXL3GPU 高效vLLM 等 inference 框架支援企業 production

個人 Mac 自架:OllamaLM Studio 直接下 GGUF Q4_K_M,15 分鐘上手。

**企業 GPU production:**vLLM + AWQ / GPTQ,平衡品質與吞吐量。

對品質的影響

不同任務對量化的敏感度不同。

任務類型4-bit 損失原因
Casual chat / 寫作幾乎沒感覺高容錯,模型有空間「猜對」
翻譯 / 摘要很小(~5%)同上
Coding中等(~10-15%)需要精確的 token,錯一個字程式可能就壞
Math / Reasoning較大(~15-25%)多步推理放大每步小誤差
長 context retrieval中等到大Attention 計算對精度敏感

實務建議:寫作 / 客服 / 翻譯場景跑 4-bit 完全 OK,coding / math 場景建議 8-bit 或不量化

對台灣 builder / 企業的判斷

第一,4-bit 開源模型是 cost-effective 的本地選擇。 一台 64GB RAM 的 Mac Studio 可以跑 Llama 70B Q4,每月電費幾百塊台幣。比 OpenAI / Anthropic API 大量呼叫便宜很多。

第二,資料敏感場景必選自架 + quantized。 法律、醫療、政府等不能上雲的場景,4-bit Llama / Qwen / DeepSeek 是 production-viable 選擇。

第三,評估時用實際 task 測,不要看 benchmark 排行榜。 4-bit 在 MMLU 可能掉 5%,但你的 use case 可能完全感覺不到——也可能影響大。實測你的真實 query,別預設。

第四,小心極端量化。 2-bit / 1-bit 的「超壓縮」是研究方向,現階段(2026)還不適合 production。Q4 / Q5 是穩妥選擇。

第五,quantization 不是萬能。 如果你需要的能力是頂級閉源模型(GPT-5 / Claude Opus 4)那種的,4-bit 開源 70B 還是達不到。預算高、能力要求頂尖,還是用閉源 API。

收尾

Quantization 把「跑 LLM」這件事的門檻從「需要租 GPU」降到「筆電就能跑」。

對 builder 的意義:你可以做 prototype、可以本地實驗、可以資料完全在自家。對企業:你有 production 自架的真實選擇,不用全部押 API。

理解 quantization 的 trade-off,你就有了 LLM 自架的基礎建設。

(這也是 chronicle Tier A 概念條目的最後一篇——後續進入 catalog / timeline 與更專門的 Tier B 條目。)

SOURCES

  1. A Hugging Face — Quantization documentation
  2. A llama.cpp — GGUF format specification
  3. A Lin et al. — AWQ: Activation-aware Weight Quantization

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
大百科
Key claims
  • Quantization 是把 LLM 的參數從高精度(FP16 / FP32)壓成低精度(INT8 / INT4 / Q4 等)。記憶體需求大幅降低,讓 70B 級模型可以跑在消費級硬體上。
  • 4-bit 量化通常是 sweet spot:模型大小 ~25% 原版、品質損失 5-15%、推論速度反而變快(memory bandwidth 是瓶頸)。
  • 主流格式各有強項:GGUF(llama.cpp 系,跨硬體)、GPTQ(GPU 專屬,精度好)、AWQ(activation-aware,品質保留多)、bitsandbytes(動態量化,最簡單)。
  • 量化是自架 LLM 的基礎建設。對台灣中小企業跟 builder,4-bit 量化的開源模型可以在預算內 deliver 80% 頂級閉源模型的能力。
Entities
Quantization · GGUF · GPTQ · AWQ · bitsandbytes · llama.cpp · Ollama · LM Studio
Taiwan relevance
medium
Confidence
high
Last updated
2026-04-25
Canonical URL
https://signals.tw/articles/what-is-quantization/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴(編輯:廖玄同),《Quantization 是什麼:讓 70B 模型跑在筆電上的魔法》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-quantization/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。