大百科 2026年4月25日

Tokens 是什麼:AI 是怎麼數錢、數字的

為什麼你的 OpenAI 帳單不是按字算,你的 Claude context 也不是按字算

Token 是 LLM 處理文字的最小單位,介於「字母」和「字」之間。所有 AI 模型的計費、context window 上限、輸出長度都用 token 算。這篇用實際例子講 token 是什麼、繁中為什麼比英文吃 token、以及這對成本與設計的實際影響。

署名周詠晴編輯廖玄同 AI 協作: 初稿輔助

AI 大百科 AI 模型基礎素養

第一次用 OpenAI API 收到帳單的人，都會困惑：

「我明明只發了 100 個字，為什麼算 150 token?」

或者：

「Claude 200K context 是什麼意思？20 萬個字嗎？」

都不是。LLM 的世界不用「字」這個單位，它用 token。

Token 是 LLM 處理文字的最小單位。它不是字母，也不是字，而是介於兩者之間的「片段」——可能是一個字、一個字根、或一個標點符號。

要理解 token，因為：

計費按 token 算——OpenAI、Anthropic、Google 全部按 token 賣 input + output
Context window 用 token 量——「Claude 200K context」意思是 20 萬個 token，不是 20 萬個字
輸出限制是 token——「max_tokens: 4000」是輸出最多 4000 個 token
prompt 設計受 token 影響——同樣意思可以用更少 token 表達，直接省錢

Token 長什麼樣

最直覺的方式是看一個英文句子怎麼拆。

“The quick brown fox jumps over the lazy dog.”

OpenAI 的 GPT-4 tokenizer 把它拆成：

[The] [ quick] [ brown] [ fox] [ jumps] [ over] [ the] [ lazy] [ dog] [.]

10 個 token，跟單字數差不多。每個 token 前面那個空白也算進去。

但遇到複合詞會拆得更細：

“tokenization”

→ [token] [ization](2 個 token)

“supercalifragilisticexpialidocious”

→ [super] [cal] [if] [rag] [ilist] [ice] [xp] [ial] [id] [ocious](10 個 token)

英文常見字大概 1 字 = 1 token。罕見字、長字、組合字會被拆成多個 token。

繁中比英文吃 token

這是台灣使用者實際會被影響的事。

英文:平均約 4 個字元 = 1 token。

繁中:平均約 1.5 到 2 個字 = 1 token，有些字一個字就 2-3 token。

實測。一句 25 字繁中：

「LLM 不是會思考的 AI，它是學會預測下一個字的統計引擎。」

GPT-4 tokenizer 拆出來大約 35-45 個 token，看 tokenizer 版本而定。

同樣意思的英文：

“An LLM isn’t a thinking AI; it’s a statistical engine that learned to predict the next word.”

大約 22 個 token。

結論：同樣意思，繁中通常吃 1.5-3 倍的 token。

這不只是計費問題，還是 context 問題。Claude 200K context 對英文使用者是約 15 萬個英文字;對繁中使用者大概只剩 6-10 萬字。差很多。

為什麼繁中這麼吃

LLM 的 tokenizer 是用 Byte-Pair Encoding(BPE) 或類似算法，基於訓練資料統計出最常見的字元組合，把它們合成 token。

訓練資料裡英文佔絕大多數、簡中其次、繁中佔比小。結果就是：繁中常見組合沒被學成單一 token，常常一個字就拆成 2-3 個 token。

「醫療」這兩個字在英文中心模型裡可能拆成 4-6 個 token(每個字拆成多個 byte token)。在針對繁中優化的模型(像 TAIDE、聯發科 Breeze)裡可能只有 2 個 token。

這就是為什麼：

繁中專屬 LLM 在 token 效率上比通用模型強很多(同樣 context 能塞更多內容)
繁中 RAG 設計要更小心 chunk 大小(同樣 chunk size 在繁中裝的內容比英文少)
長繁中 prompt 在通用 model 上成本驚人(每次一些套路 prompt 可能就吃掉幾百 token)

Token 對成本的影響

2026 年主流模型大概的 token 計價(會變，看官方):

模型	Input(每 1M token)	Output(每 1M token)
GPT-5(假設)	$5-10	$20-30
Claude Opus 4	$15	$75
Claude Sonnet 4	$3	$15
Gemini 2.5 Pro	$3-7	$15-25
Llama 4(自架)	看自家 GPU 成本	同左

(實際數字以官方為準。這裡只示意量級。)

實務上：

Input 通常便宜，output 貴 3-5 倍。 這是為什麼長 prompt + 短輸出常常划算。
Reasoning model(o1、Claude thinking)的 token 包含「思考過程」，即使你只看到最後輸出，中間的 reasoning chain 也計費。一個複雜 task 可能燒掉幾萬 token，成本可觀。
Context caching 有折扣——重複用的 system prompt 或 context 開啟 caching，常見折扣 50-90%。生產級應用一定要用。

怎麼算自己的 prompt 多少 token

OpenAI 系列:

線上工具：platform.openai.com/tokenizer
程式內：Python 用 tiktoken 套件，JavaScript 用 gpt-tokenizer

Anthropic / Claude:

API 有 count_tokens endpoint，輸入 prompt 回傳 token 數
估算規則：英文 1 word ≈ 1.3 tokens、中文 1 字 ≈ 1.5-2 tokens

Google Gemini:

API 也有 count_tokens
跟 Anthropic 規則類似

這對 builder / 企業的實際意義

第一，production 上線前做 token cost projection。 不要等帳單來才驚訝。算清楚平均 prompt token、平均 output token、預期月使用量，再乘上 unit price。

第二，prompt engineering 也是 token engineering。 同樣意思，500 token 的 prompt 跟 1500 token 的 prompt 在大規模呼叫下成本差三倍。

第三，context caching 必開。 重複的 system prompt、文件、few-shot example 一定要 cache。一個 50K token 的長 prompt cache 後，每次呼叫只算一次全價，後續打 5-10% 折扣。

第四，評估繁中模型的 token 效率。 如果你的 production 工作流大量處理繁中，一個 token 效率好的繁中模型(TAIDE、Breeze)可能在 context、成本、延遲三個面向都贏通用模型，儘管它「benchmark 分數沒那麼高」。

收尾

Token 是 AI 經濟的底層計量單位。

不懂它，你算不出 ROI、規劃不了 context、控制不了成本。懂它，你會發現很多看起來「AI 太貴」的場景，其實是 prompt 設計浪費。

下一篇 chronicle:Context window 是什麼——這些 token 能塞進去多少、為什麼有上限。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 大百科
Key claims: Token 是 LLM 處理文字的最小單位,介於字母與字之間。一個 token 可能是一個字、一個字根、或一個標點符號。
幾乎所有 LLM 計費、context window、最大輸出長度都以 token 為單位,不是字也不是字元。
繁中比英文吃 token:同樣意思的句子,繁中通常用 1.5 到 3 倍的 token 數。這直接影響成本與 context 規劃。
理解 token 是控制 LLM 成本與設計 prompt 的基礎,不懂這個就會在 production 帳單上吃驚。
Entities: Token · Tokenizer · BPE · Byte-Pair Encoding · tiktoken · SentencePiece
Taiwan relevance: medium
Confidence: high
Last updated: 2026-04-25
Canonical URL: https://signals.tw/articles/what-are-tokens/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴（編輯：廖玄同），《Tokens 是什麼:AI 是怎麼數錢、數字的》，矽基前沿 [Si]gnals，2026-04-25。https://signals.tw/articles/what-are-tokens/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.