矽基前沿 [Si]gnals
LLM 大語言模型運作概念示意
大百科

LLM 是什麼:大語言模型基礎一次看懂

理解 next-token prediction 一件事,所有 AI 的能力與限制都會 make sense

LLM 不是會思考的 AI,也不是花俏 autocomplete。它是學會「下一個 token 最可能是什麼」的統計引擎——所有 AI 的能力與限制(creative output、hallucination、context window 上限、prompt engineering 為什麼 work)都從這個本質推導出來。矽基前沿 AI 大百科的 anchor 條目。

署名 周詠晴 編輯 廖玄同 AI 協作: 初稿輔助

「LLM」三個字到處都是。但繁中世界同時流通兩種互相矛盾的解釋:一邊說它「會思考」、是「人工智慧」、即將取代人類;另一邊說它「只是花俏的 autocomplete」、無法真正理解任何東西。

兩種說法都錯。

LLM(Large Language Model,大語言模型)是一個經過巨量文本訓練、學會「下一個 token 最可能是什麼」的統計引擎。這個機制聽起來樸素,但理解它,所有 AI 的能力與限制——creative output、hallucination、context window 上限、prompt engineering 為什麼 work、為什麼同一個 prompt 兩次回答不一樣——全部一起 make sense。

核心機制:next-token prediction

把 LLM 當黑盒子來看,它每次只做一件事:給定前文,預測下一個 token 最可能是什麼。

Token 是 LLM 的最小處理單位。一個 token 可能是一個字(像「貓」)、一個字根(像 ing)、或一個標點符號。一段中文可能拆成幾十個 token,英文段落更多。具體拆法每個模型不同(這留給「Tokens 是什麼」獨立條目)。

完整的生成 loop:

  1. 模型接收前文(prompt + 已生成內容)
  2. 對所有可能的 next token 算機率分布
  3. 從分布裡選一個 token(隨機性 vs 貪婪選擇,由 temperature 參數調整)
  4. 把這個 token 加到前文後面
  5. 回到步驟 1,繼續預測下一個

寫一句話、回答問題、寫一篇文章、寫程式——LLM 都是用這同一個 loop 做。

Stephen Wolfram 在《What Is ChatGPT Doing》裡的 framing:LLM 在做的不過是一直問「給定眼前的文字,下一個 word 該是什麼」,然後加上去。聽起來太簡單,但 scale 上去之後產生的行為遠超過樸素預測。

兩階段訓練:pretraining + fine-tuning

LLM 形成分兩階段。

第一階段:Pretraining(預訓練)。 把整個網路、書籍、論文、code 載入——以 Llama 2 70B 為例,訓練資料約 10 TB 文本。模型在這些資料上反覆練習「給前文,預測下一個 token」,直到 next-token 預測準確率不再上升。

這個階段成本驚人:Llama 2 70B 用了約 6,000 顆 GPU 跑 12 天,總成本約 200 萬美元。最終得到一個 ~140 GB 的參數檔——前 OpenAI / Tesla AI 主管 Andrej Karpathy 形容這是「網路的 zip file」,壓縮率約 100 倍。重要的是,這是 lossy 壓縮——模型學的不是逐字記憶,是 generalised representation。

Pretraining 完成後得到 base model。它會語言、有世界知識,但不會回答你的問題——你問它「台北的天氣」,它可能繼續寫一段像維基百科的天氣介紹,而不是直接回答。

第二階段:Fine-tuning(微調)。 用 ~10 萬筆精挑的對話資料(問答、指令-執行、有用 vs 無用對比),把 base model 訓練成 helpful assistant。這個階段成本小很多、可以頻繁做(model 廠商常用 RLHF / Constitutional AI 等方法持續調整)。

兩個階段缺一不可。Pretraining 給知識與語言,fine-tuning 給對話舉止與用法。

Scale 與 emergent abilities

LLM 研究最反直覺的發現之一:規模本身會帶來能力的質變,不只是量變。

當參數量和訓練資料量同步放大,模型不只更會做原本的事——它會開始做沒被明確教過的事。GPT-2(1.5B parameters,2019)幾乎不會寫程式。GPT-3(175B,2020)突然會了。它沒被特別訓練 coding,但 scale 過了某個 threshold,能力浮出來。

這類能力被稱為 emergent abilities:in-context learning(看幾個範例就學會新任務)、chain-of-thought reasoning(逐步推理)、few-shot translation。它們不是設計出來的功能,是 scale 出來的副作用。

Emergent abilities 是 LLM 戰略意義的核心——它意味著「再大一點」這個簡單動作可能持續解鎖能力。也是過去五年 AI 巨頭瘋狂競賽訓練成本的原因(GPT-2 訓練成本約 $50,000;PaLM 540B 約 $8M)。

能力與限制都從同個本質推來

理解 next-token prediction,所有 LLM 行為立刻 make sense。

Hallucination(幻覺) 是 LLM 在訓練資料外的場景仍繼續「合理續寫」的副作用。模型不知道自己不知道——機率分布永遠有「最可能」的下一個 token,即使該領域它根本沒資料。Hallucination 不是 bug 待修,是 by design 的副作用。緩解方法是 RAG(把外部資料塞進 context)或結構化提示(逼模型 cite source),不是「讓模型更聰明」。

Context window(上下文視窗) 是 LLM 一次能處理的 token 上限。這個上限源自 transformer 架構的 attention 機制——計算成本隨 context 長度 quadratic 成長。現代 LLM context window 已從早期的 4K-8K 擴展到 100K-1M+ tokens(2026 主流區間)。Context 用完,模型就「忘記」前文,因為它再也看不到。

Prompt engineering 為什麼 work? 因為 prompt 改變了「下一個 token 的 conditional probability distribution」。「請逐步思考」這六個字會讓模型 emit 一連串思考步驟的 token,因為訓練資料裡這個 prefix 後面通常接思考過程。Prompt 不是 magic,是條件機率的操縱。

Reasoning model(o1 / Claude thinking / DeepSeek R1 一類) 是用更長的 inference chain(模型自己生成思考過程,再生成最終答案)換質量。本質仍是 next-token prediction——只是讓模型「在輸出前先寫草稿」。

LLM 的能力與限制是同一機制的兩面。要它寫得好,就要接受它會幻覺。

對台灣讀者:繁中 LLM 的 gap 與兩條路徑

LLM 的訓練資料以英文為主,簡中其次,繁中佔比很小。這直接造成繁中使用者面對主流模型時的常見問題:翻譯腔、用詞錯誤(「視頻」「網絡」「軟件」)、台灣文化 / 法規 reference 失準。對個人日常使用無傷大雅,對企業 production output(法律、醫療、政府文件)是嚴重問題。

台灣有兩條系統性回應:

路徑主導者代表模型(2026)定位
政府國科會 + 國研院(TAIDE)Llama-3.1-TAIDE-LX-8B / Gemma-3-TAIDE-12B(context 131K)政府與企業可信任使用,加入台灣文化、地理、歷史訓練資料
商業聯發科 Research(Breeze 2)Llama-Breeze2-8B / 3B + BreezyVoice(台灣口音語音合成)Mobile / PC 端可離線運行,商業 use case

兩條路徑不是要取代 Claude / Gemini,是補繁中專業場景的 gap。台灣讀者實際選擇:日常用 Claude / Gemini / ChatGPT 沒問題,專業繁中 production 場景值得評估 TAIDE 或 Breeze。

把 next-token prediction 當 mental model

理解 LLM 不需要懂 transformer 架構數學。需要的是把 next-token prediction 當作 mental model 用——下次模型「亂答」、「忘記」、「拒絕」、「重複」、「太冗長」,先問自己:「這個行為怎麼從『預測下一個 token』推導出來?」

這個 mental model 會在後續所有矽基前沿 chronicle 條目反覆出現:Tokens 是什麼決定了 LLM 怎麼數錢、Context window 為什麼有上限、Hallucination 是什麼、Embedding 怎麼讓模型「理解」相似性、Fine-tuning 何時該做、Multimodal 怎麼把圖跟文字併在同個機率空間、Reasoning model 怎麼用更長 inference chain 換質量。

每一篇都會 link 回這裡。

SOURCES

  1. A Anthropic — Tracing the thoughts of a large language model
  2. A Anthropic — Mapping the Mind of a Large Language Model
  3. A TAIDE — 推動臺灣可信任生成式 AI 發展計畫(國科會 / 國研院)
  4. B Stephen Wolfram — What Is ChatGPT Doing … and Why Does It Work?
  5. B Andrej Karpathy — Intro to Large Language Models (1hr talk, 2023)
  6. B Wikipedia — Large language model
  7. B CloudInsight — Taiwan LLM Development Status 2026

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
大百科
Key claims
  • LLM 的核心機制是 next-token prediction:給定前文,預測下一個 token 最可能是什麼。所有 AI 行為(生成、回答、改寫、翻譯、寫程式)都從這個 loop 推導出來。
  • LLM 透過兩階段訓練形成:pretraining(在 ~10 TB 文本上學語言結構與世界知識,Llama 2 70B 約用 6,000 GPU × 12 天 × ~$2M 成本)+ fine-tuning(用 ~10 萬筆對話資料把它變成 helpful assistant)。
  • LLM 的能力與限制都是 next-token prediction 的副作用:hallucination 是模型在資料外仍續寫 plausible 文字;context window 是 attention 機制 quadratic 成本上限;prompt engineering 之所以 work 是因為它改變了下一個 token 的 conditional probability distribution。
  • Emergent abilities 是 scale 觸發的:當參數量與訓練資料量超過某 threshold,模型出現 in-context learning、chain-of-thought reasoning 等沒被明確教過的能力。GPT-2(1.5B)→ GPT-3(175B)是質變分水嶺。
  • 繁中 LLM 落後英文約 1-2 年。台灣有兩條系統性回應:政府主導的 TAIDE(2026 釋出 Gemma-3-TAIDE-12B,context 8K → 131K)+ 聯發科商業的 Breeze 2(8B / 3B,multimodal,含台灣口音 BreezyVoice)。
Entities
LLM · GPT-3 · GPT-4 · Claude · Gemini · Llama · TAIDE · Breeze 2 · BreezyVoice · OpenAI · Anthropic · Google DeepMind · Meta · 聯發科 · 國科會 · 國研院 · Andrej Karpathy · Stephen Wolfram
Taiwan relevance
medium
Confidence
high
Last updated
2026-04-25
Canonical URL
https://signals.tw/articles/what-is-llm/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴(編輯:廖玄同),《LLM 是什麼:大語言模型基礎一次看懂》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-llm/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

CONTINUE READING

繼續讀

編輯部從相同 beat 與主題挑出最可能讓你接著看的三篇。

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。