大百科 2026年4月25日

Multimodal 是什麼:AI 同時看圖、聽聲、讀文字

不是把不同模型串起來,而是同一個模型在同個空間理解多種訊號

Multimodal(多模態)指 LLM 能同時處理文字、圖片、音訊、影片等多種輸入。2026 年主流模型已經是 native multimodal——同一個模型在統一向量空間理解所有訊號,不是早期的串接 pipeline。這篇拆解 multimodal 怎麼運作、主流模型能力、實務應用、以及限制。

署名周詠晴編輯廖玄同 AI 協作: 初稿輔助

AI 大百科 AI 模型基礎素養

2024 之前，如果你想做「用 AI 看圖回答問題」，流程大概是：

用 OCR 把圖裡的文字抽出來
用 image captioning 模型描述圖
把抽出來的文字 + caption 餵給 LLM
LLM 基於文字回答

每一步都會失真——OCR 漏字、caption 描述不到細節、LLM 沒看到原圖。

2026 年，你可以直接把圖丟給 Claude / GPT-5 / Gemini，問「這張圖裡的人在做什麼？那個小字寫什麼？旁邊那台機器的型號是？」——它一次看完，直接回答。

Multimodal(多模態)指 LLM 能同時處理多種輸入訊號：文字、圖片、音訊、影片。重點不是「能接收多種輸入」，而是「在同一個向量空間統一理解」——圖跟文字對它來說是「同一種東西」，只是不同 surface form。

這個轉變對 builder 來說意義很大。

早期 vs 現在

早期(2018-2023):pipeline 串接。

每個模態各有專家模型——OCR 用 OCR、語音用 ASR、影像用 CNN。多模態任務 = 把專家輸出串起來餵給 LLM。問題：每個 step 失真會累積、各模型對「同一件事」的理解不一致。

現在(2024+):native multimodal。

訓練時就把圖、文、音同時餵進去，模型學會在統一向量空間表達它們。一張圖被「embed」成跟文字 embedding 同一空間的向量，模型可以直接 reason about 圖文之間的關係。

差別：同樣問「這張發票上的金額是多少」——pipeline 模型先 OCR 抽字、再 LLM 算術;native multimodal 模型「看到」金額位置、字體、跟其他欄位的關係，直接答。

實測前者錯誤率明顯高於後者。

2026 主流模型 multimodal 能力

(會變，以官方為準。)

模型	Vision	Audio	Video	強項
GPT-5 / GPT-4o	✅ 強(截圖、文件、圖表)	✅ 即時語音對話 SOTA	✅(較短)	Voice agent、即時對話
Claude Opus 4 / Sonnet	✅ 強(文件、截圖、handwriting)	❌(無原生 audio)	❌(無原生 video)	文件分析、UI debug、複雜表格
Gemini 2.5 Pro	✅ 強	✅	✅ 強(可吃整段影片)	影片分析、長文件、跨模態推理
DeepSeek-V3	⚠️ 中等	❌	❌	文字主場
Llama 4 Multimodal	✅(開源)	部分	部分	自架友善

實務常識：Gemini 看影片強、Claude 看文件強、GPT 講話強。三者各有主場。

實務應用最成熟的場景

2026 年 production-ready 的 multimodal use case:

文件 / 截圖理解。 把 PDF、合約、發票、表單、handwriting 直接丟給 Claude / GPT-5，提取結構化資訊。比傳統 OCR + 後處理乾淨太多。

UI 截圖 debug。 開發者在 Cursor / Claude Code 貼一張壞掉的 UI 截圖，問「為什麼 button 沒對齊」——模型直接看圖判斷。

影片摘要 / 重點時間軸。 上傳一場 1 小時的會議錄影或產品 demo，問「請列出每個重要決定點 + 對應的時間戳」。Gemini 在這個 use case 領先。

Voice agent。 即時語音對話 — 客服、語言學習、無障礙協助。GPT-4o 的 realtime API 是目前最成熟。

簡報分析。 把簡報 PDF 整個丟進去，問「這份策略簡報的核心主張是什麼？哪頁的數據最弱？」

影像 + 文字混合搜尋。 搜尋「藍色背景、有 logo、含『活動限定』字樣的設計圖」——multimodal embedding 讓圖文混合 query 變可能。

限制與不擅長的場景

2026 年的 multimodal 還做不好的事：

精確空間推理。 「這張圖中 A 物件在 B 物件的左側多少公分？」模型對位置、距離、相對方位的判斷仍然不穩。

細節 OCR。 字體小、模糊、特殊字型的 OCR,native multimodal 表現不一定贏專業 OCR 工具(像 Google Document AI)。

長影片精確 retrieval。 1 小時影片可以摘要，但「請告訴我第 32 分 14 秒那個人說了什麼」——精確時間戳的 retrieval 還不可靠。

生成圖片 ≠ 理解圖片。 同一個模型可能會生圖(text-to-image)也會看圖(image understanding)，但這是兩個不同訓練目標，能力不一定對稱。

多步視覺推理。 「看這張流程圖，如果 A 失敗會怎樣？」涉及多步推理 + 視覺空間理解的任務，模型常常自信地答錯。

對 builder / 企業的判斷

第一，選型看主要 input 類型。

影片重 → Gemini 系
文件 / 截圖重 → Claude
即時語音 → GPT realtime
純圖 → 都可以，實測

第二，別用 multimodal 做專業 OCR。 如果你 production OCR 量大且需要極致精度(銀行表單、醫療紀錄)，專業工具 + 後處理仍然贏。Multimodal 適合「廣覆蓋、中精度、語義理解」場景。

第三，語音 agent 的延遲很關鍵。 客服 / 教學等即時 voice，延遲 > 1.5 秒就破壞體驗。GPT realtime / Gemini Live 等專為低延遲設計的 API，跟「分段呼叫 ASR + LLM + TTS」的延遲差很多。

第四，評估要分開看模態。 Vision benchmark 不代表 audio 也強，反之亦然。每個模態各自 evaluate。

第五，成本意識。 Multimodal input 通常比純文字貴。一張高解析圖可能等於幾千 token。影片更貴。production 上線前算清楚成本。

收尾

Multimodal 把 LLM 從「文字機器」變成「能感知世界的機器」。

它的真正價值不是「我們也支援上傳圖了」，是讓你不用做 pipeline 串接、不用維護多個模型，一個 API call 解決多模態任務。

下一篇 chronicle:Reasoning model 是什麼——o1 / Claude thinking / DeepSeek R1 那一類「先想再答」的新模型怎麼運作、什麼時候該用。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 大百科
Key claims: Multimodal 指 LLM 同時處理文字、圖片、音訊、影片等多種輸入。2026 年主流頂級模型(GPT-5 / Claude / Gemini)已是 native multimodal,所有訊號在統一向量空間理解。
Native multimodal 不同於早期的「pipeline 串接」(OCR + 翻譯 + LLM):前者是同一個模型統一推理,後者是多個模型 sequential,易失真。
實務應用最成熟:文件 / 截圖理解、影像 OCR、影片摘要、語音 agent、UI screenshot debug、簡報分析。視覺推理 / 圖文跨模態複雜任務仍有限制。
選型要看具體輸入類型(靜態圖 / 影片 / 即時語音)、解析度上限、以及是否需要 audio output。Gemini 在影片強、Claude 在文件 / 截圖強、GPT 在 voice 強。
Entities: Multimodal · Vision · Audio · Video · GPT-4V · Claude Vision · Gemini · CLIP
Taiwan relevance: medium
Confidence: high
Last updated: 2026-04-25
Canonical URL: https://signals.tw/articles/what-is-multimodal/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴（編輯：廖玄同），《Multimodal 是什麼:AI 同時看圖、聽聲、讀文字》，矽基前沿 [Si]gnals，2026-04-25。https://signals.tw/articles/what-is-multimodal/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

Multimodal 是什麼:AI 同時看圖、聽聲、讀文字

早期 vs 現在

2026 主流模型 multimodal 能力

實務應用最成熟的場景

限制與不擅長的場景

對 builder / 企業的判斷

收尾

繼續讀

LLM 是什麼:大語言模型基礎一次看懂

AI Agent 是什麼:定義、架構與 2026 年現況

訂閱《矽基前沿週報》