矽基前沿 [Si]gnals
LLM 大語言模型運作概念示意
大百科

LLM 是什麼:大語言模型基礎一次看懂

理解 next-token prediction 一件事,所有 AI 的能力與限制都會 make sense

「LLM」三個字到處都是。但繁中世界同時流通兩種互相矛盾的解釋:一邊說它「會思考」、是「人工智慧」、即將取代人類;另一邊說它「只是花俏的 autocomplete」、無法真正理解任何東西。

兩種說法都錯。

LLM(Large Language Model,大語言模型)是一個經過巨量文本訓練、學會「下一個 token 最可能是什麼」的統計引擎。這個機制聽起來樸素,但理解它,所有 AI 的能力與限制——creative output、hallucination、context window 上限、prompt engineering 為什麼 work、為什麼同一個 prompt 兩次回答不一樣——全部一起 make sense。

核心機制:next-token prediction

把 LLM 當黑盒子來看,它每次只做一件事:給定前文,預測下一個 token 最可能是什麼。

Token 是 LLM 的最小處理單位。一個 token 可能是一個字(像「貓」)、一個字根(像 ing)、或一個標點符號。一段中文可能拆成幾十個 token,英文段落更多。具體拆法每個模型不同(這留給「Tokens 是什麼」獨立條目)。

完整的生成 loop:

  1. 模型接收前文(prompt + 已生成內容)
  2. 對所有可能的 next token 算機率分布
  3. 從分布裡選一個 token(隨機性 vs 貪婪選擇,由 temperature 參數調整)
  4. 把這個 token 加到前文後面
  5. 回到步驟 1,繼續預測下一個

寫一句話、回答問題、寫一篇文章、寫程式——LLM 都是用這同一個 loop 做。

Stephen Wolfram 在《What Is ChatGPT Doing》裡的 framing:LLM 在做的不過是一直問「給定眼前的文字,下一個 word 該是什麼」,然後加上去。聽起來太簡單,但 scale 上去之後產生的行為遠超過樸素預測。

兩階段訓練:pretraining + fine-tuning

LLM 形成分兩階段。

第一階段:Pretraining(預訓練)。 把整個網路、書籍、論文、code 載入——以 Llama 2 70B 為例,訓練資料約 10 TB 文本。模型在這些資料上反覆練習「給前文,預測下一個 token」,直到 next-token 預測準確率不再上升。

這個階段成本驚人:Llama 2 70B 用了約 6,000 顆 GPU 跑 12 天,總成本約 200 萬美元。最終得到一個 ~140 GB 的參數檔——前 OpenAI / Tesla AI 主管 Andrej Karpathy 形容這是「網路的 zip file」,壓縮率約 100 倍。重要的是,這是 lossy 壓縮——模型學的不是逐字記憶,是 generalised representation。

Pretraining 完成後得到 base model。它會語言、有世界知識,但不會回答你的問題——你問它「台北的天氣」,它可能繼續寫一段像維基百科的天氣介紹,而不是直接回答。

第二階段:Fine-tuning(微調)。 用 ~10 萬筆精挑的對話資料(問答、指令-執行、有用 vs 無用對比),把 base model 訓練成 helpful assistant。這個階段成本小很多、可以頻繁做(model 廠商常用 RLHF / Constitutional AI 等方法持續調整)。

兩個階段缺一不可。Pretraining 給知識與語言,fine-tuning 給對話舉止與用法。

Scale 與 emergent abilities

LLM 研究最反直覺的發現之一:規模本身會帶來能力的質變,不只是量變。

當參數量和訓練資料量同步放大,模型不只更會做原本的事——它會開始做沒被明確教過的事。GPT-2(1.5B parameters,2019)幾乎不會寫程式。GPT-3(175B,2020)突然會了。它沒被特別訓練 coding,但 scale 過了某個 threshold,能力浮出來。

這類能力被稱為 emergent abilities:in-context learning(看幾個範例就學會新任務)、chain-of-thought reasoning(逐步推理)、few-shot translation。它們不是設計出來的功能,是 scale 出來的副作用。

Emergent abilities 是 LLM 戰略意義的核心——它意味著「再大一點」這個簡單動作可能持續解鎖能力。也是過去五年 AI 巨頭瘋狂競賽訓練成本的原因(GPT-2 訓練成本約 $50,000;PaLM 540B 約 $8M)。

能力與限制都從同個本質推來

理解 next-token prediction,所有 LLM 行為立刻 make sense。

Hallucination(幻覺) 是 LLM 在訓練資料外的場景仍繼續「合理續寫」的副作用。模型不知道自己不知道——機率分布永遠有「最可能」的下一個 token,即使該領域它根本沒資料。Hallucination 不是 bug 待修,是 by design 的副作用。緩解方法是 RAG(把外部資料塞進 context)或結構化提示(逼模型 cite source),不是「讓模型更聰明」。

Context window(上下文視窗) 是 LLM 一次能處理的 token 上限。這個上限源自 transformer 架構的 attention 機制——計算成本隨 context 長度 quadratic 成長。現代 LLM context window 已從早期的 4K-8K 擴展到 100K-1M+ tokens(2026 主流區間)。Context 用完,模型就「忘記」前文,因為它再也看不到。

Prompt engineering 為什麼 work? 因為 prompt 改變了「下一個 token 的 conditional probability distribution」。「請逐步思考」這六個字會讓模型 emit 一連串思考步驟的 token,因為訓練資料裡這個 prefix 後面通常接思考過程。Prompt 不是 magic,是條件機率的操縱。

Reasoning model(o1 / Claude thinking / DeepSeek R1 一類) 是用更長的 inference chain(模型自己生成思考過程,再生成最終答案)換質量。本質仍是 next-token prediction——只是讓模型「在輸出前先寫草稿」。

LLM 的能力與限制是同一機制的兩面。要它寫得好,就要接受它會幻覺。

對台灣讀者:繁中 LLM 的 gap 與兩條路徑

LLM 的訓練資料以英文為主,簡中其次,繁中佔比很小。這直接造成繁中使用者面對主流模型時的常見問題:翻譯腔、用詞錯誤(「視頻」「網絡」「軟件」)、台灣文化 / 法規 reference 失準。對個人日常使用無傷大雅,對企業 production output(法律、醫療、政府文件)是嚴重問題。

台灣有兩條系統性回應:

路徑主導者代表模型(2026)定位
政府國科會 + 國研院(TAIDE)Llama-3.1-TAIDE-LX-8B / Gemma-3-TAIDE-12B(context 131K)政府與企業可信任使用,加入台灣文化、地理、歷史訓練資料
商業聯發科 Research(Breeze 2)Llama-Breeze2-8B / 3B + BreezyVoice(台灣口音語音合成)Mobile / PC 端可離線運行,商業 use case

兩條路徑不是要取代 Claude / Gemini,是補繁中專業場景的 gap。台灣讀者實際選擇:日常用 Claude / Gemini / ChatGPT 沒問題,專業繁中 production 場景值得評估 TAIDE 或 Breeze。

把 next-token prediction 當 mental model

理解 LLM 不需要懂 transformer 架構數學。需要的是把 next-token prediction 當作 mental model 用——下次模型「亂答」、「忘記」、「拒絕」、「重複」、「太冗長」,先問自己:「這個行為怎麼從『預測下一個 token』推導出來?」

這個 mental model 會在後續所有矽基前沿 chronicle 條目反覆出現:Tokens 是什麼決定了 LLM 怎麼數錢、Context window 為什麼有上限、Hallucination 是什麼、Embedding 怎麼讓模型「理解」相似性、Fine-tuning 何時該做、Multimodal 怎麼把圖跟文字併在同個機率空間、Reasoning model 怎麼用更長 inference chain 換質量。

每一篇都會 link 回這裡。

SOURCES

  1. A Anthropic — Tracing the thoughts of a large language model
  2. A Anthropic — Mapping the Mind of a Large Language Model
  3. A TAIDE — 推動臺灣可信任生成式 AI 發展計畫(國科會 / 國研院)
  4. B Stephen Wolfram — What Is ChatGPT Doing … and Why Does It Work?
  5. B Andrej Karpathy — Intro to Large Language Models (1hr talk, 2023)
  6. B Wikipedia — Large language model
  7. B CloudInsight — Taiwan LLM Development Status 2026

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
大百科
Key claims
  • LLM 的核心機制是 next-token prediction:給定前文,預測下一個 token 最可能是什麼。所有 AI 行為(生成、回答、改寫、翻譯、寫程式)都從這個 loop 推導出來。
  • LLM 透過兩階段訓練形成:pretraining(在 ~10 TB 文本上學語言結構與世界知識,Llama 2 70B 約用 6,000 GPU × 12 天 × ~$2M 成本)+ fine-tuning(用 ~10 萬筆對話資料把它變成 helpful assistant)。
  • LLM 的能力與限制都是 next-token prediction 的副作用:hallucination 是模型在資料外仍續寫 plausible 文字;context window 是 attention 機制 quadratic 成本上限;prompt engineering 之所以 work 是因為它改變了下一個 token 的 conditional probability distribution。
  • Emergent abilities 是 scale 觸發的:當參數量與訓練資料量超過某 threshold,模型出現 in-context learning、chain-of-thought reasoning 等沒被明確教過的能力。GPT-2(1.5B)→ GPT-3(175B)是質變分水嶺。
  • 繁中 LLM 落後英文約 1-2 年。台灣有兩條系統性回應:政府主導的 TAIDE(2026 釋出 Gemma-3-TAIDE-12B,context 8K → 131K)+ 聯發科商業的 Breeze 2(8B / 3B,multimodal,含台灣口音 BreezyVoice)。
Entities
LLM · GPT-3 · GPT-4 · Claude · Gemini · Llama · TAIDE · Breeze 2 · BreezyVoice · OpenAI · Anthropic · Google DeepMind · Meta · 聯發科 · 國科會 · 國研院 · Andrej Karpathy · Stephen Wolfram
Taiwan relevance
medium
Confidence
high
Last updated
2026-04-25
Canonical URL
https://signals.tw/articles/what-is-llm/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴(編輯:廖玄同),《LLM 是什麼:大語言模型基礎一次看懂》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-llm/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

CONTINUE READING

繼續讀

編輯部從相同 beat 與主題挑出最可能讓你接著看的三篇。

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。