大百科 2026年4月25日

LLM 是什麼:大語言模型基礎一次看懂

理解 next-token prediction 一件事,所有 AI 的能力與限制都會 make sense

LLM 不是會思考的 AI,也不是花俏 autocomplete。它是學會「下一個 token 最可能是什麼」的統計引擎——所有 AI 的能力與限制(creative output、hallucination、context window 上限、prompt engineering 為什麼 work)都從這個本質推導出來。矽基前沿 AI 大百科的 anchor 條目。

署名周詠晴編輯廖玄同 AI 協作: 初稿輔助

AI 大百科 AI 模型基礎素養

「LLM」三個字到處都是。但繁中世界同時流通兩種互相矛盾的解釋：一邊說它「會思考」、是「人工智慧」、即將取代人類;另一邊說它「只是花俏的 autocomplete」、無法真正理解任何東西。

兩種說法都錯。

LLM(Large Language Model，大語言模型)是一個經過巨量文本訓練、學會「下一個 token 最可能是什麼」的統計引擎。這個機制聽起來樸素，但理解它，所有 AI 的能力與限制——creative output、hallucination、context window 上限、prompt engineering 為什麼 work、為什麼同一個 prompt 兩次回答不一樣——全部一起 make sense。

核心機制：next-token prediction

把 LLM 當黑盒子來看，它每次只做一件事：給定前文，預測下一個 token 最可能是什麼。

Token 是 LLM 的最小處理單位。一個 token 可能是一個字(像「貓」)、一個字根(像 ing)、或一個標點符號。一段中文可能拆成幾十個 token，英文段落更多。具體拆法每個模型不同(這留給「Tokens 是什麼」獨立條目)。

完整的生成 loop:

模型接收前文(prompt + 已生成內容)
對所有可能的 next token 算機率分布
從分布裡選一個 token(隨機性 vs 貪婪選擇，由 temperature 參數調整)
把這個 token 加到前文後面
回到步驟 1，繼續預測下一個

寫一句話、回答問題、寫一篇文章、寫程式——LLM 都是用這同一個 loop 做。

Stephen Wolfram 在《What Is ChatGPT Doing》裡的 framing:LLM 在做的不過是一直問「給定眼前的文字，下一個 word 該是什麼」，然後加上去。聽起來太簡單，但 scale 上去之後產生的行為遠超過樸素預測。

兩階段訓練：pretraining + fine-tuning

LLM 形成分兩階段。

第一階段：Pretraining(預訓練)。 把整個網路、書籍、論文、code 載入——以 Llama 2 70B 為例，訓練資料約 10 TB 文本。模型在這些資料上反覆練習「給前文，預測下一個 token」，直到 next-token 預測準確率不再上升。

這個階段成本驚人：Llama 2 70B 用了約 6,000 顆 GPU 跑 12 天，總成本約 200 萬美元。最終得到一個 ~140 GB 的參數檔——前 OpenAI / Tesla AI 主管 Andrej Karpathy 形容這是「網路的 zip file」，壓縮率約 100 倍。重要的是，這是 lossy 壓縮——模型學的不是逐字記憶，是 generalised representation。

Pretraining 完成後得到 base model。它會語言、有世界知識，但不會回答你的問題——你問它「台北的天氣」，它可能繼續寫一段像維基百科的天氣介紹，而不是直接回答。

第二階段：Fine-tuning(微調)。 用 ~10 萬筆精挑的對話資料(問答、指令-執行、有用 vs 無用對比)，把 base model 訓練成 helpful assistant。這個階段成本小很多、可以頻繁做(model 廠商常用 RLHF / Constitutional AI 等方法持續調整)。

兩個階段缺一不可。Pretraining 給知識與語言，fine-tuning 給對話舉止與用法。

Scale 與 emergent abilities

LLM 研究最反直覺的發現之一：規模本身會帶來能力的質變，不只是量變。

當參數量和訓練資料量同步放大，模型不只更會做原本的事——它會開始做沒被明確教過的事。GPT-2(1.5B parameters,2019)幾乎不會寫程式。GPT-3(175B,2020)突然會了。它沒被特別訓練 coding，但 scale 過了某個 threshold，能力浮出來。

這類能力被稱為 emergent abilities:in-context learning(看幾個範例就學會新任務)、chain-of-thought reasoning(逐步推理)、few-shot translation。它們不是設計出來的功能，是 scale 出來的副作用。

Emergent abilities 是 LLM 戰略意義的核心——它意味著「再大一點」這個簡單動作可能持續解鎖能力。也是過去五年 AI 巨頭瘋狂競賽訓練成本的原因(GPT-2 訓練成本約 $50,000;PaLM 540B 約 $8M)。

能力與限制都從同個本質推來

理解 next-token prediction，所有 LLM 行為立刻 make sense。

Hallucination(幻覺) 是 LLM 在訓練資料外的場景仍繼續「合理續寫」的副作用。模型不知道自己不知道——機率分布永遠有「最可能」的下一個 token，即使該領域它根本沒資料。Hallucination 不是 bug 待修，是 by design 的副作用。緩解方法是 RAG(把外部資料塞進 context)或結構化提示(逼模型 cite source)，不是「讓模型更聰明」。

Context window(上下文視窗) 是 LLM 一次能處理的 token 上限。這個上限源自 transformer 架構的 attention 機制——計算成本隨 context 長度 quadratic 成長。現代 LLM context window 已從早期的 4K-8K 擴展到 100K-1M+ tokens(2026 主流區間)。Context 用完，模型就「忘記」前文，因為它再也看不到。

Prompt engineering 為什麼 work? 因為 prompt 改變了「下一個 token 的 conditional probability distribution」。「請逐步思考」這六個字會讓模型 emit 一連串思考步驟的 token，因為訓練資料裡這個 prefix 後面通常接思考過程。Prompt 不是 magic，是條件機率的操縱。

Reasoning model(o1 / Claude thinking / DeepSeek R1 一類) 是用更長的 inference chain(模型自己生成思考過程，再生成最終答案)換質量。本質仍是 next-token prediction——只是讓模型「在輸出前先寫草稿」。

LLM 的能力與限制是同一機制的兩面。要它寫得好，就要接受它會幻覺。

對台灣讀者：繁中 LLM 的 gap 與兩條路徑

LLM 的訓練資料以英文為主，簡中其次，繁中佔比很小。這直接造成繁中使用者面對主流模型時的常見問題：翻譯腔、用詞錯誤(「視頻」「網絡」「軟件」)、台灣文化 / 法規 reference 失準。對個人日常使用無傷大雅，對企業 production output(法律、醫療、政府文件)是嚴重問題。

台灣有兩條系統性回應：

路徑	主導者	代表模型(2026)	定位
政府	國科會 + 國研院(TAIDE)	Llama-3.1-TAIDE-LX-8B / Gemma-3-TAIDE-12B(context 131K)	政府與企業可信任使用，加入台灣文化、地理、歷史訓練資料
商業	聯發科 Research(Breeze 2)	Llama-Breeze2-8B / 3B + BreezyVoice(台灣口音語音合成)	Mobile / PC 端可離線運行，商業 use case

兩條路徑不是要取代 Claude / Gemini，是補繁中專業場景的 gap。台灣讀者實際選擇：日常用 Claude / Gemini / ChatGPT 沒問題，專業繁中 production 場景值得評估 TAIDE 或 Breeze。

把 next-token prediction 當 mental model

理解 LLM 不需要懂 transformer 架構數學。需要的是把 next-token prediction 當作 mental model 用——下次模型「亂答」、「忘記」、「拒絕」、「重複」、「太冗長」，先問自己：「這個行為怎麼從『預測下一個 token』推導出來？」

這個 mental model 會在後續所有矽基前沿 chronicle 條目反覆出現：Tokens 是什麼決定了 LLM 怎麼數錢、Context window 為什麼有上限、Hallucination 是什麼、Embedding 怎麼讓模型「理解」相似性、Fine-tuning 何時該做、Multimodal 怎麼把圖跟文字併在同個機率空間、Reasoning model 怎麼用更長 inference chain 換質量。

每一篇都會 link 回這裡。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 大百科
Key claims: LLM 的核心機制是 next-token prediction:給定前文,預測下一個 token 最可能是什麼。所有 AI 行為(生成、回答、改寫、翻譯、寫程式)都從這個 loop 推導出來。
LLM 透過兩階段訓練形成:pretraining(在 ~10 TB 文本上學語言結構與世界知識,Llama 2 70B 約用 6,000 GPU × 12 天 × ~$2M 成本)+ fine-tuning(用 ~10 萬筆對話資料把它變成 helpful assistant)。
LLM 的能力與限制都是 next-token prediction 的副作用:hallucination 是模型在資料外仍續寫 plausible 文字;context window 是 attention 機制 quadratic 成本上限;prompt engineering 之所以 work 是因為它改變了下一個 token 的 conditional probability distribution。
Emergent abilities 是 scale 觸發的:當參數量與訓練資料量超過某 threshold,模型出現 in-context learning、chain-of-thought reasoning 等沒被明確教過的能力。GPT-2(1.5B)→ GPT-3(175B)是質變分水嶺。
繁中 LLM 落後英文約 1-2 年。台灣有兩條系統性回應:政府主導的 TAIDE(2026 釋出 Gemma-3-TAIDE-12B,context 8K → 131K)+ 聯發科商業的 Breeze 2(8B / 3B,multimodal,含台灣口音 BreezyVoice)。
Entities: LLM · GPT-3 · GPT-4 · Claude · Gemini · Llama · TAIDE · Breeze 2 · BreezyVoice · OpenAI · Anthropic · Google DeepMind · Meta · 聯發科 · 國科會 · 國研院 · Andrej Karpathy · Stephen Wolfram
Taiwan relevance: medium
Confidence: high
Last updated: 2026-04-25
Canonical URL: https://signals.tw/articles/what-is-llm/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴（編輯：廖玄同），《LLM 是什麼:大語言模型基礎一次看懂》，矽基前沿 [Si]gnals，2026-04-25。https://signals.tw/articles/what-is-llm/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.