矽基前沿 [Si]gnals
Context window 限制示意 (placeholder)
大百科

Context window 是什麼:為什麼 AI 會「忘記」

聊到第 30 輪 ChatGPT 忘了第一句、塞 100 頁 PDF 給 Claude 它只讀前 30 頁——這不是 bug

Context window 是 LLM 一次能處理的 token 上限。它不是 bug,是 transformer 架構的數學限制。這篇用實際使用情境拆解 context window 的成因、2026 年主流模型上限對照、用完了會發生什麼、以及怎麼用 RAG / 結構化 prompt 跨過它。

署名 周詠晴 編輯 廖玄同 AI 協作: 初稿輔助

兩個你應該見過的場景:

場景一:你跟 ChatGPT 一路聊了 30 多輪。第 31 輪它回答時突然忘了你第一輪講過的設定,還可能把你前後文搞混。

場景二:你貼了一份 100 頁 PDF 給 Claude,問「總結重點」。它的回答看起來只用了前 20-30 頁的內容,後半被忽略。

這不是 bug。Context window 用完了。

Context window(上下文視窗)是 LLM 一次能處理的 token 總量上限。它包含 prompt + 歷史對話 + 文件 + 模型輸出——全部加起來不能超過上限。

理解 context window 是用 LLM 的第二堂基礎課(第一堂是 Tokens)。不懂它,你會在 production 撞到一堆「為什麼模型答得這麼爛」的問題。

為什麼 context window 有上限

不是工程師偷懶。是數學成本的限制

LLM 用 transformer 架構,核心是 attention 機制——每個 token 都要跟其他所有 token 算相關性。

關鍵字:所有

如果 context 有 N 個 token,attention 計算量是 N² 級。Context 變兩倍,計算成本變四倍。Context 變十倍,成本變一百倍。

這就是為什麼:

  • 2020 年 GPT-3:context 2K(約 1500 字英文)
  • 2023 年 Claude 2:擴到 100K
  • 2024 年 Gemini 1.5:推到 1M
  • 2026 年:Gemini / Claude / GPT-5 級別:1M-2M+ 是新常態

每次擴展都是工程跟成本上的硬仗。

2026 主流模型 context window

(數字會變,以官方為準。)

模型Context window註解
Claude Opus 4~200K標準長 context,實務 sweet spot
Claude Sonnet 4~200K同上,更便宜
GPT-5~256K-400K(看 tier)從 GPT-4 的 128K 擴大
Gemini 2.5 Pro~1M-2M最大 context,適合長文件
Llama 4 系列128K-2M+開源,看廠商實作
多數 reasoning model~128K-256Kreasoning 吃額外 token

「context 大」不等於「跑得好」。 後面解釋。

Lost in the Middle:長 context 的隱形問題

2023 年史丹佛 Liu et al. 的研究揭露一個重要現象:LLM 在長 context 中會「Lost in the Middle」

研究方法:把關鍵資訊塞在 context 的開頭、中間、或結尾,看模型能不能正確回答。

結果:

  • 資訊在開頭:模型答對率高
  • 資訊在結尾:模型答對率高
  • 資訊在中間:模型答對率明顯下降

換句話說,塞 100K context 給模型,中段的內容它不一定真的「讀進去」

這不是個別模型的 bug,是 attention 機制的普遍特性。2026 年的長 context 模型有改善,但這個 U 型曲線還在。

實務影響:

  • 長文件 RAG 不能假設模型會均衡讀完——重要 chunk 應該放在 prompt 開頭或結尾
  • 多輪對話超過幾十輪後,前期內容效力會降——必要時做 summarization 重啟對話
  • 長 prompt 不等於好 prompt——精簡的 5K prompt 經常贏過冗長的 50K prompt

Context 用完了會發生什麼

四種具體症狀:

遺忘前文。 多輪對話超過 context 上限,最早的訊息會被擠掉。模型表現像「失憶」。

截斷輸出。 你問「寫一份 50 頁的 report」,模型寫到一半被切斷——因為 input + output 加起來碰到 context 上限。

回答品質下降。 Lost in the middle 效應讓模型「漏讀」中段資訊,答得不完整或斷章取義。

成本飆升。 Context 越長,每次呼叫 token 越多。100K context 比 10K context 貴 10 倍。沒控好就燒錢。

怎麼跨過 context 限制

不要等更大模型——設計層的解法更可靠。

第一,RAG。 不把整本書塞進 prompt,只撈最相關的 5-10 個 chunk 塞進去。 詳見 RAG 是什麼

第二,Structured summaries。 多輪對話定期摘要——把前 20 輪壓成一段 500 字 summary,新對話從 summary 開始。OpenAI / Anthropic 的 SDK 都有 conversation memory 模式做這件事。

第三,Agent 切分子任務。 不要一次丟「研究 X 的所有面向」,而是讓 agent 拆成子任務,每個子任務獨立 context、獨立 model call,最後合併。

第四,Context caching。 重複使用的 system prompt、文件、few-shot 例子開啟 caching,只算一次全價、後續呼叫打折(50-90%)。長 context 的成本通常從這裡省下。

第五,選對 context size。 不是越大越好。對 5K token 的任務用 1M context model,只是付溢價買用不到的能力。

對 builder / 企業的判斷

第一,評估你真正需要的 context size。 大部分企業 use case 用 32K-128K 已經夠。1M context 適合長文件分析、long-form research,但成本高。

第二,測試「lost in the middle」效應。 在你的具體場景下放關鍵資訊在不同位置,看模型答對率。決定 prompt 結構。

第三,設計 fallback。 當 context 接近上限,系統要能自動切換策略(切 RAG、做 summarization、提示使用者 reset)。production 不能讓使用者撞牆。

第四,監控 token 使用。 大部分 production AI 帳單失控的原因是 context 沒控好。每次呼叫 log token 數,設 cost ceiling。

收尾

Context window 是 LLM 跟「你的世界」之間的窗。

窗大,看得多,但代價是計算 quadratic 成長 + middle 段被忽略。窗小,要你聰明設計 prompt + RAG + summarization。

2026 年的好 builder 不是用最大 context 的人,是把 context 當成稀缺資源好好設計的人。

下一篇 chronicle:Embedding 是什麼——RAG 跟 retrieval 為什麼能找到「相似」內容,背後的數學基礎。

SOURCES

  1. A Anthropic — Long context prompting
  2. A Google — Gemini long context
  3. A Liu et al. — Lost in the Middle: How Language Models Use Long Contexts

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
大百科
Key claims
  • Context window 是 LLM 一次能處理的 token 上限,源自 transformer 架構 attention 機制的 quadratic 計算成本。
  • 2026 主流模型 context window 從早期 4K-8K 大幅擴展到 100K-1M+,但「能塞」不等於「能用好」——模型在長 context 容易迷路。
  • Context 用完會出現:遺忘前文、回答品質下降、生成被截斷、成本飆升。
  • 跨過 context 限制不是「等更大模型」,而是設計層解法:RAG 只塞相關片段、structured summaries 壓縮歷史、agent loop 切分子任務。
Entities
Context Window · Transformer · Attention · Tokens · Claude · GPT · Gemini · RAG
Taiwan relevance
medium
Confidence
high
Last updated
2026-04-25
Canonical URL
https://signals.tw/articles/what-is-context-window/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴(編輯:廖玄同),《Context window 是什麼:為什麼 AI 會「忘記」》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-context-window/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。