矽基前沿 [Si]gnals
RAG 架構示意 (placeholder)
大百科

RAG 是什麼:讓 LLM 讀你的資料

為什麼幾乎每家企業導入 AI 都會撞上這三個英文字,以及它跟「fine-tuning」、「MCP」差在哪

RAG(Retrieval-Augmented Generation)是讓 LLM 在回答前先去檢索外部資料、再生成答案的架構。這篇用企業導入 AI 的實際痛點切入,拆解 RAG 怎麼運作、跟 fine-tuning / MCP 的差異、2026 年常見坑、以及台灣企業評估時要看什麼。

署名 周詠晴 編輯 廖玄同 AI 協作: 初稿輔助

幾乎每家想導入 AI 的台灣企業,跑到第二週都會撞上這三個英文字:RAG

通常是這樣:第一週老闆說「我們也要 AI 啊」,試了 ChatGPT 跑得不錯,叫團隊內部部署一套。第二週開始問題冒出來——「為什麼它不知道我們公司去年的銷售數字?」、「為什麼它答錯我們的退費政策?」、「能不能讓它讀我們 Notion 裡的所有文件?」

這時候技術 team 開始查資料,撞到一個詞:RAG

RAG(Retrieval-Augmented Generation,檢索增強生成)是讓 LLM 在回答前先去檢索外部資料,把相關片段塞進 prompt,再生成答案的架構。它解決的是「模型訓練時不知道你公司資料」這個問題。

簡短版:RAG 是「讓 LLM 讀你的資料」最常見的方法。

RAG 解的問題

LLM 知道公開網路上的東西(到訓練 cutoff 為止),但它不知道:

  • 你公司內部的 SOP
  • 你客戶的訂單紀錄
  • 你產品 last week 的更新
  • 你部門的 meeting note
  • 你保固政策的精確條款

把這些資料 fine-tune 進模型?成本高、難更新、容易蓋掉模型原本的能力。

把資料全部塞進 prompt?context window 不夠、成本太貴、而且模型在長 context 容易迷路。

RAG 的折衷做法:每次回答前,先撈出最相關的幾段資料,只把那幾段塞進 prompt。 既不用改模型,也不用塞整個資料庫。

RAG 怎麼運作

標準流程分兩階段。

索引階段(一次性 / 定期更新):

公司文件 → 切塊(chunk) → 每塊算 embedding → 存進 vector database

查詢階段(每次使用者問問題):

使用者 query → 算 query 的 embedding → 在 vector DB 找最相似的 chunks
            → 把 chunks 塞進 prompt → LLM 讀完 chunks 生成答案

具體例子。使用者問「我們去年 Q3 的客戶滿意度多少?」:

  1. 系統算這句話的 embedding(把句子變成向量)
  2. 在 vector DB 比對,撈出 top 5 最相似的內部文件 chunks(可能是滿意度報告、會議紀錄、季度 review)
  3. 把這 5 個 chunks 塞進 prompt:「根據以下資料回答:[5 個 chunks 內容] 問題:我們去年 Q3 客戶滿意度多少?」
  4. LLM 讀完生成答案,並引用具體 chunk

整個流程使用者看不到。對使用者來說,就是「我問,它答」。

RAG 跟 Fine-tuning 差在哪

新手最常搞混。簡單分:

Fine-tuningRAG
解什麼問題改模型風格、語氣、特定任務技能讓模型能讀外部 / 即時資料
改什麼模型參數不改模型,改 prompt
更新成本高(每次資料變動都要重 train)低(改 vector DB 即可)
適合場景模型「不會做某類任務」模型「不知道某些事實」
典型用例生成特定格式 JSON、扮演特定角色、學會繁中標點客服查 FAQ、法務找條款、研究比對文獻

多數企業以為自己需要 fine-tuning,實際上需要 RAG。

理由:大部分企業的 AI 痛點不是「模型不會回答」,而是「模型不知道我們的事」。Fine-tuning 改不了這個——它讓模型「更會講話」,但不會讓它「知道更多事實」。

RAG 跟 MCP 差在哪

兩者都是讓 LLM 接外部資料,但路徑不同。

RAG 是 pull-based、提前索引。 把資料切塊、算 embedding、存好。查詢時撈最相似的塞 prompt。適合靜態或半靜態的大量文件(SOP、文獻、產品文件)。

MCP 是 push-based、即時呼叫。 模型決定要查什麼,呼叫 MCP server,server 回傳結果。適合動態的、需要最新數據的查詢(訂單、即時庫存、CRM、code repository)。

實際 production 系統常常兩者都用:RAG 處理文件知識,MCP 處理結構化系統。

2026 年 RAG 常見的坑

RAG demo 容易,跑得好不容易。常見錯誤:

Chunk 切錯。 切太碎(每塊 100 字)→ 失去上下文,模型看不懂。切太粗(每塊 5000 字)→ 一個 chunk 包好幾個主題,retrieval 抓不準。實務上 200-800 token、有重疊邊界的 chunk 通常較好。

Embedding 模型選錯。 OpenAI text-embedding-3-small 對英文好,對繁中一般。bge-m3Cohere multilingual 等對多語言更好。在繁中場景一定要實測,別預設英文最強的模型在繁中也最強。

只用 vector search,沒做 hybrid。 純 semantic search 在「精確關鍵字查詢」上輸 BM25。production RAG 多半是 vector + keyword(BM25)+ rerank 三段式。

沒做 contextual chunking。 每個 chunk 單看可能失去上下文(「他在第三季提到」——他是誰?哪個公司?)。Anthropic 提出的 contextual retrieval 是把每個 chunk 加一段「這 chunk 屬於哪份文件、哪個段落」的描述後再 embed,大幅改善 retrieval 品質。

只評估 LLM 輸出,忘了評估 retrieval。 模型答錯,可能是 retrieval 沒抓到對的 chunk。要分開評估 retrieval recall@k 跟最終回答品質。

對台灣企業的判斷

如果你正在評估要不要做 RAG:

第一,先問你的痛點是「模型不會做」還是「模型不知道」。 如果是後者,RAG。

第二,先看你的資料品質。 Garbage in, garbage out。如果你的內部文件本身就過期、錯誤、沒結構,RAG 答出來的東西也會爛。先把文件整理好,RAG 才有意義。

第三,從低風險場景開始。 客服 FAQ、內部 knowledge base 查詢、文件摘要——這些任務即使答錯後果也不嚴重,適合 RAG 第一站。法務、醫療、合規等高風險場景再開始用,要有人類審核迴圈。

第四,別用「我們要做 AI」當 KPI。 用「客服處理時間從 8 分鐘降到 3 分鐘」、「員工找文件時間少 70%」這種具體 metric。RAG 的價值在它解的具體問題,不是它本身。

收尾

RAG 是 LLM 跟你的資料之間的橋。

它不是 sexy 的技術——沒有 emergent abilities、沒有「驚艷的對話能力」——但它是 2026 年企業 AI 落地最常用的架構。

下一篇 chronicle:Embedding 是什麼——RAG 為什麼能找到「相似」的 chunk,背後的數學基礎。

SOURCES

  1. A Lewis et al. — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (NeurIPS 2020)
  2. A Anthropic — Contextual Retrieval
  3. A OpenAI — Retrieval Augmented Generation guide

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
大百科
Key claims
  • RAG 是讓 LLM 在回答前先檢索外部資料、把相關片段塞進 prompt,再生成答案的架構。它解決的是「模型不知道你公司內部資料」這個問題。
  • RAG 標準流程:把文件切塊 → 算 embedding → 存 vector database → 查詢時用 query embedding 找相似片段 → 塞進 prompt → 模型生成答案。
  • RAG 跟 fine-tuning 解的是不同問題:fine-tuning 改模型風格與技能,RAG 改模型可讀的資料範圍。多數企業需要的是 RAG,不是 fine-tuning。
  • RAG 在 2026 年常見的坑:chunk 切太碎或太粗、embedding 模型選錯、retrieval 沒做 hybrid search、評估指標只看 LLM 輸出忘了看 retrieval 品質。
Entities
RAG · Retrieval-Augmented Generation · Vector Database · Embedding · LangChain · LlamaIndex · Pinecone · Weaviate · pgvector
Taiwan relevance
medium
Confidence
high
Last updated
2026-04-25
Canonical URL
https://signals.tw/articles/what-is-rag/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴(編輯:廖玄同),《RAG 是什麼:讓 LLM 讀你的資料》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-rag/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。