LLM 是什麼:大語言模型基礎一次看懂
理解 next-token prediction 一件事,所有 AI 的能力與限制都會 make sense
LLM 不是會思考的 AI,也不是花俏 autocomplete。它是學會「下一個 token 最可能是什麼」的統計引擎——所有 AI 的能力與限制(creative output、hallucination、context window 上限、prompt engineering 為什麼 work)都從這個本質推導出來。矽基前沿 AI 大百科的 anchor 條目。
「LLM」三個字到處都是。但繁中世界同時流通兩種互相矛盾的解釋:一邊說它「會思考」、是「人工智慧」、即將取代人類;另一邊說它「只是花俏的 autocomplete」、無法真正理解任何東西。
兩種說法都錯。
LLM(Large Language Model,大語言模型)是一個經過巨量文本訓練、學會「下一個 token 最可能是什麼」的統計引擎。這個機制聽起來樸素,但理解它,所有 AI 的能力與限制——creative output、hallucination、context window 上限、prompt engineering 為什麼 work、為什麼同一個 prompt 兩次回答不一樣——全部一起 make sense。
核心機制:next-token prediction
把 LLM 當黑盒子來看,它每次只做一件事:給定前文,預測下一個 token 最可能是什麼。
Token 是 LLM 的最小處理單位。一個 token 可能是一個字(像「貓」)、一個字根(像 ing)、或一個標點符號。一段中文可能拆成幾十個 token,英文段落更多。具體拆法每個模型不同(這留給「Tokens 是什麼」獨立條目)。
完整的生成 loop:
- 模型接收前文(prompt + 已生成內容)
- 對所有可能的 next token 算機率分布
- 從分布裡選一個 token(隨機性 vs 貪婪選擇,由
temperature參數調整) - 把這個 token 加到前文後面
- 回到步驟 1,繼續預測下一個
寫一句話、回答問題、寫一篇文章、寫程式——LLM 都是用這同一個 loop 做。
Stephen Wolfram 在《What Is ChatGPT Doing》裡的 framing:LLM 在做的不過是一直問「給定眼前的文字,下一個 word 該是什麼」,然後加上去。聽起來太簡單,但 scale 上去之後產生的行為遠超過樸素預測。
兩階段訓練:pretraining + fine-tuning
LLM 形成分兩階段。
第一階段:Pretraining(預訓練)。 把整個網路、書籍、論文、code 載入——以 Llama 2 70B 為例,訓練資料約 10 TB 文本。模型在這些資料上反覆練習「給前文,預測下一個 token」,直到 next-token 預測準確率不再上升。
這個階段成本驚人:Llama 2 70B 用了約 6,000 顆 GPU 跑 12 天,總成本約 200 萬美元。最終得到一個 ~140 GB 的參數檔——前 OpenAI / Tesla AI 主管 Andrej Karpathy 形容這是「網路的 zip file」,壓縮率約 100 倍。重要的是,這是 lossy 壓縮——模型學的不是逐字記憶,是 generalised representation。
Pretraining 完成後得到 base model。它會語言、有世界知識,但不會回答你的問題——你問它「台北的天氣」,它可能繼續寫一段像維基百科的天氣介紹,而不是直接回答。
第二階段:Fine-tuning(微調)。 用 ~10 萬筆精挑的對話資料(問答、指令-執行、有用 vs 無用對比),把 base model 訓練成 helpful assistant。這個階段成本小很多、可以頻繁做(model 廠商常用 RLHF / Constitutional AI 等方法持續調整)。
兩個階段缺一不可。Pretraining 給知識與語言,fine-tuning 給對話舉止與用法。
Scale 與 emergent abilities
LLM 研究最反直覺的發現之一:規模本身會帶來能力的質變,不只是量變。
當參數量和訓練資料量同步放大,模型不只更會做原本的事——它會開始做沒被明確教過的事。GPT-2(1.5B parameters,2019)幾乎不會寫程式。GPT-3(175B,2020)突然會了。它沒被特別訓練 coding,但 scale 過了某個 threshold,能力浮出來。
這類能力被稱為 emergent abilities:in-context learning(看幾個範例就學會新任務)、chain-of-thought reasoning(逐步推理)、few-shot translation。它們不是設計出來的功能,是 scale 出來的副作用。
Emergent abilities 是 LLM 戰略意義的核心——它意味著「再大一點」這個簡單動作可能持續解鎖能力。也是過去五年 AI 巨頭瘋狂競賽訓練成本的原因(GPT-2 訓練成本約 $50,000;PaLM 540B 約 $8M)。
能力與限制都從同個本質推來
理解 next-token prediction,所有 LLM 行為立刻 make sense。
Hallucination(幻覺) 是 LLM 在訓練資料外的場景仍繼續「合理續寫」的副作用。模型不知道自己不知道——機率分布永遠有「最可能」的下一個 token,即使該領域它根本沒資料。Hallucination 不是 bug 待修,是 by design 的副作用。緩解方法是 RAG(把外部資料塞進 context)或結構化提示(逼模型 cite source),不是「讓模型更聰明」。
Context window(上下文視窗) 是 LLM 一次能處理的 token 上限。這個上限源自 transformer 架構的 attention 機制——計算成本隨 context 長度 quadratic 成長。現代 LLM context window 已從早期的 4K-8K 擴展到 100K-1M+ tokens(2026 主流區間)。Context 用完,模型就「忘記」前文,因為它再也看不到。
Prompt engineering 為什麼 work? 因為 prompt 改變了「下一個 token 的 conditional probability distribution」。「請逐步思考」這六個字會讓模型 emit 一連串思考步驟的 token,因為訓練資料裡這個 prefix 後面通常接思考過程。Prompt 不是 magic,是條件機率的操縱。
Reasoning model(o1 / Claude thinking / DeepSeek R1 一類) 是用更長的 inference chain(模型自己生成思考過程,再生成最終答案)換質量。本質仍是 next-token prediction——只是讓模型「在輸出前先寫草稿」。
LLM 的能力與限制是同一機制的兩面。要它寫得好,就要接受它會幻覺。
對台灣讀者:繁中 LLM 的 gap 與兩條路徑
LLM 的訓練資料以英文為主,簡中其次,繁中佔比很小。這直接造成繁中使用者面對主流模型時的常見問題:翻譯腔、用詞錯誤(「視頻」「網絡」「軟件」)、台灣文化 / 法規 reference 失準。對個人日常使用無傷大雅,對企業 production output(法律、醫療、政府文件)是嚴重問題。
台灣有兩條系統性回應:
| 路徑 | 主導者 | 代表模型(2026) | 定位 |
|---|---|---|---|
| 政府 | 國科會 + 國研院(TAIDE) | Llama-3.1-TAIDE-LX-8B / Gemma-3-TAIDE-12B(context 131K) | 政府與企業可信任使用,加入台灣文化、地理、歷史訓練資料 |
| 商業 | 聯發科 Research(Breeze 2) | Llama-Breeze2-8B / 3B + BreezyVoice(台灣口音語音合成) | Mobile / PC 端可離線運行,商業 use case |
兩條路徑不是要取代 Claude / Gemini,是補繁中專業場景的 gap。台灣讀者實際選擇:日常用 Claude / Gemini / ChatGPT 沒問題,專業繁中 production 場景值得評估 TAIDE 或 Breeze。
把 next-token prediction 當 mental model
理解 LLM 不需要懂 transformer 架構數學。需要的是把 next-token prediction 當作 mental model 用——下次模型「亂答」、「忘記」、「拒絕」、「重複」、「太冗長」,先問自己:「這個行為怎麼從『預測下一個 token』推導出來?」
這個 mental model 會在後續所有矽基前沿 chronicle 條目反覆出現:Tokens 是什麼決定了 LLM 怎麼數錢、Context window 為什麼有上限、Hallucination 是什麼、Embedding 怎麼讓模型「理解」相似性、Fine-tuning 何時該做、Multimodal 怎麼把圖跟文字併在同個機率空間、Reasoning model 怎麼用更長 inference chain 換質量。
每一篇都會 link 回這裡。
SOURCES
- A Anthropic — Tracing the thoughts of a large language model
- A Anthropic — Mapping the Mind of a Large Language Model
- A TAIDE — 推動臺灣可信任生成式 AI 發展計畫(國科會 / 國研院)
- B Stephen Wolfram — What Is ChatGPT Doing … and Why Does It Work?
- B Andrej Karpathy — Intro to Large Language Models (1hr talk, 2023)
- B Wikipedia — Large language model
- B CloudInsight — Taiwan LLM Development Status 2026
來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。
MACHINE-READABLE SUMMARY
- Topic
- 大百科
- Key claims
-
- LLM 的核心機制是 next-token prediction:給定前文,預測下一個 token 最可能是什麼。所有 AI 行為(生成、回答、改寫、翻譯、寫程式)都從這個 loop 推導出來。
- LLM 透過兩階段訓練形成:pretraining(在 ~10 TB 文本上學語言結構與世界知識,Llama 2 70B 約用 6,000 GPU × 12 天 × ~$2M 成本)+ fine-tuning(用 ~10 萬筆對話資料把它變成 helpful assistant)。
- LLM 的能力與限制都是 next-token prediction 的副作用:hallucination 是模型在資料外仍續寫 plausible 文字;context window 是 attention 機制 quadratic 成本上限;prompt engineering 之所以 work 是因為它改變了下一個 token 的 conditional probability distribution。
- Emergent abilities 是 scale 觸發的:當參數量與訓練資料量超過某 threshold,模型出現 in-context learning、chain-of-thought reasoning 等沒被明確教過的能力。GPT-2(1.5B)→ GPT-3(175B)是質變分水嶺。
- 繁中 LLM 落後英文約 1-2 年。台灣有兩條系統性回應:政府主導的 TAIDE(2026 釋出 Gemma-3-TAIDE-12B,context 8K → 131K)+ 聯發科商業的 Breeze 2(8B / 3B,multimodal,含台灣口音 BreezyVoice)。
- Entities
- LLM · GPT-3 · GPT-4 · Claude · Gemini · Llama · TAIDE · Breeze 2 · BreezyVoice · OpenAI · Anthropic · Google DeepMind · Meta · 聯發科 · 國科會 · 國研院 · Andrej Karpathy · Stephen Wolfram
- Taiwan relevance
- medium
- Confidence
- high
- Last updated
- 2026-04-25
- Canonical URL
- https://signals.tw/articles/what-is-llm/
SUGGESTED CITATION
如果 AI agent / 研究 / 報導要引用本文,建議格式如下:
周詠晴(編輯:廖玄同),《LLM 是什麼:大語言模型基礎一次看懂》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-llm/
AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.