矽基前沿 [Si]gnals
Tokens 與 LLM 計費示意 (placeholder)
大百科

Tokens 是什麼:AI 是怎麼數錢、數字的

為什麼你的 OpenAI 帳單不是按字算,你的 Claude context 也不是按字算

Token 是 LLM 處理文字的最小單位,介於「字母」和「字」之間。所有 AI 模型的計費、context window 上限、輸出長度都用 token 算。這篇用實際例子講 token 是什麼、繁中為什麼比英文吃 token、以及這對成本與設計的實際影響。

署名 周詠晴 編輯 廖玄同 AI 協作: 初稿輔助

第一次用 OpenAI API 收到帳單的人,都會困惑:

「我明明只發了 100 個字,為什麼算 150 token?」

或者:

「Claude 200K context 是什麼意思?20 萬個字嗎?」

都不是。LLM 的世界不用「字」這個單位,它用 token

Token 是 LLM 處理文字的最小單位。它不是字母,也不是字,而是介於兩者之間的「片段」——可能是一個字、一個字根、或一個標點符號。

要理解 token,因為:

  • 計費按 token 算——OpenAI、Anthropic、Google 全部按 token 賣 input + output
  • Context window 用 token 量——「Claude 200K context」意思是 20 萬個 token,不是 20 萬個字
  • 輸出限制是 token——「max_tokens: 4000」是輸出最多 4000 個 token
  • prompt 設計受 token 影響——同樣意思可以用更少 token 表達,直接省錢

Token 長什麼樣

最直覺的方式是看一個英文句子怎麼拆。

“The quick brown fox jumps over the lazy dog.”

OpenAI 的 GPT-4 tokenizer 把它拆成:

[The] [ quick] [ brown] [ fox] [ jumps] [ over] [ the] [ lazy] [ dog] [.]

10 個 token,跟單字數差不多。每個 token 前面那個空白也算進去。

但遇到複合詞會拆得更細:

“tokenization”

[token] [ization](2 個 token)

“supercalifragilisticexpialidocious”

[super] [cal] [if] [rag] [ilist] [ice] [xp] [ial] [id] [ocious](10 個 token)

英文常見字大概 1 字 = 1 token。罕見字、長字、組合字會被拆成多個 token。

繁中比英文吃 token

這是台灣使用者實際會被影響的事。

英文:平均約 4 個字元 = 1 token。

繁中:平均約 1.5 到 2 個字 = 1 token,有些字一個字就 2-3 token。

實測。一句 25 字繁中:

「LLM 不是會思考的 AI,它是學會預測下一個字的統計引擎。」

GPT-4 tokenizer 拆出來大約 35-45 個 token,看 tokenizer 版本而定。

同樣意思的英文:

“An LLM isn’t a thinking AI; it’s a statistical engine that learned to predict the next word.”

大約 22 個 token。

結論:同樣意思,繁中通常吃 1.5-3 倍的 token。

這不只是計費問題,還是 context 問題。Claude 200K context 對英文使用者是約 15 萬個英文字;對繁中使用者大概只剩 6-10 萬字。差很多。

為什麼繁中這麼吃

LLM 的 tokenizer 是用 Byte-Pair Encoding(BPE) 或類似算法,基於訓練資料統計出最常見的字元組合,把它們合成 token。

訓練資料裡英文佔絕大多數、簡中其次、繁中佔比小。結果就是:繁中常見組合沒被學成單一 token,常常一個字就拆成 2-3 個 token。

「醫療」這兩個字在英文中心模型裡可能拆成 4-6 個 token(每個字拆成多個 byte token)。在針對繁中優化的模型(像 TAIDE、聯發科 Breeze)裡可能只有 2 個 token。

這就是為什麼:

  • 繁中專屬 LLM 在 token 效率上比通用模型強很多(同樣 context 能塞更多內容)
  • 繁中 RAG 設計要更小心 chunk 大小(同樣 chunk size 在繁中裝的內容比英文少)
  • 長繁中 prompt 在通用 model 上成本驚人(每次一些套路 prompt 可能就吃掉幾百 token)

Token 對成本的影響

2026 年主流模型大概的 token 計價(會變,看官方):

模型Input(每 1M token)Output(每 1M token)
GPT-5(假設)$5-10$20-30
Claude Opus 4$15$75
Claude Sonnet 4$3$15
Gemini 2.5 Pro$3-7$15-25
Llama 4(自架)看自家 GPU 成本同左

(實際數字以官方為準。這裡只示意量級。)

實務上:

  • Input 通常便宜,output 貴 3-5 倍。 這是為什麼長 prompt + 短輸出常常划算。
  • Reasoning model(o1、Claude thinking)的 token 包含「思考過程」,即使你只看到最後輸出,中間的 reasoning chain 也計費。一個複雜 task 可能燒掉幾萬 token,成本可觀。
  • Context caching 有折扣——重複用的 system prompt 或 context 開啟 caching,常見折扣 50-90%。生產級應用一定要用。

怎麼算自己的 prompt 多少 token

OpenAI 系列:

Anthropic / Claude:

  • API 有 count_tokens endpoint,輸入 prompt 回傳 token 數
  • 估算規則:英文 1 word ≈ 1.3 tokens、中文 1 字 ≈ 1.5-2 tokens

Google Gemini:

  • API 也有 count_tokens
  • 跟 Anthropic 規則類似

這對 builder / 企業的實際意義

第一,production 上線前做 token cost projection。 不要等帳單來才驚訝。算清楚平均 prompt token、平均 output token、預期月使用量,再乘上 unit price。

第二,prompt engineering 也是 token engineering。 同樣意思,500 token 的 prompt 跟 1500 token 的 prompt 在大規模呼叫下成本差三倍。

第三,context caching 必開。 重複的 system prompt、文件、few-shot example 一定要 cache。一個 50K token 的長 prompt cache 後,每次呼叫只算一次全價,後續打 5-10% 折扣。

第四,評估繁中模型的 token 效率。 如果你的 production 工作流大量處理繁中,一個 token 效率好的繁中模型(TAIDE、Breeze)可能在 context、成本、延遲三個面向都贏通用模型,儘管它「benchmark 分數沒那麼高」。

收尾

Token 是 AI 經濟的底層計量單位。

不懂它,你算不出 ROI、規劃不了 context、控制不了成本。懂它,你會發現很多看起來「AI 太貴」的場景,其實是 prompt 設計浪費。

下一篇 chronicle:Context window 是什麼——這些 token 能塞進去多少、為什麼有上限。

SOURCES

  1. A OpenAI — Tokenizer tool
  2. A OpenAI — How tokens are counted
  3. A Anthropic — Token counting

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
大百科
Key claims
  • Token 是 LLM 處理文字的最小單位,介於字母與字之間。一個 token 可能是一個字、一個字根、或一個標點符號。
  • 幾乎所有 LLM 計費、context window、最大輸出長度都以 token 為單位,不是字也不是字元。
  • 繁中比英文吃 token:同樣意思的句子,繁中通常用 1.5 到 3 倍的 token 數。這直接影響成本與 context 規劃。
  • 理解 token 是控制 LLM 成本與設計 prompt 的基礎,不懂這個就會在 production 帳單上吃驚。
Entities
Token · Tokenizer · BPE · Byte-Pair Encoding · tiktoken · SentencePiece
Taiwan relevance
medium
Confidence
high
Last updated
2026-04-25
Canonical URL
https://signals.tw/articles/what-are-tokens/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴(編輯:廖玄同),《Tokens 是什麼:AI 是怎麼數錢、數字的》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-are-tokens/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。