Multimodal 是什麼:AI 同時看圖、聽聲、讀文字
不是把不同模型串起來,而是同一個模型在同個空間理解多種訊號
Multimodal(多模態)指 LLM 能同時處理文字、圖片、音訊、影片等多種輸入。2026 年主流模型已經是 native multimodal——同一個模型在統一向量空間理解所有訊號,不是早期的串接 pipeline。這篇拆解 multimodal 怎麼運作、主流模型能力、實務應用、以及限制。
2024 之前,如果你想做「用 AI 看圖回答問題」,流程大概是:
- 用 OCR 把圖裡的文字抽出來
- 用 image captioning 模型描述圖
- 把抽出來的文字 + caption 餵給 LLM
- LLM 基於文字回答
每一步都會失真——OCR 漏字、caption 描述不到細節、LLM 沒看到原圖。
2026 年,你可以直接把圖丟給 Claude / GPT-5 / Gemini,問「這張圖裡的人在做什麼?那個小字寫什麼?旁邊那台機器的型號是?」——它一次看完,直接回答。
Multimodal(多模態)指 LLM 能同時處理多種輸入訊號:文字、圖片、音訊、影片。重點不是「能接收多種輸入」,而是「在同一個向量空間統一理解」——圖跟文字對它來說是「同一種東西」,只是不同 surface form。
這個轉變對 builder 來說意義很大。
早期 vs 現在
早期(2018-2023):pipeline 串接。
每個模態各有專家模型——OCR 用 OCR、語音用 ASR、影像用 CNN。多模態任務 = 把專家輸出串起來餵給 LLM。問題:每個 step 失真會累積、各模型對「同一件事」的理解不一致。
現在(2024+):native multimodal。
訓練時就把圖、文、音同時餵進去,模型學會在統一向量空間表達它們。一張圖被「embed」成跟文字 embedding 同一空間的向量,模型可以直接 reason about 圖文之間的關係。
差別:同樣問「這張發票上的金額是多少」——pipeline 模型先 OCR 抽字、再 LLM 算術;native multimodal 模型「看到」金額位置、字體、跟其他欄位的關係,直接答。
實測前者錯誤率明顯高於後者。
2026 主流模型 multimodal 能力
(會變,以官方為準。)
| 模型 | Vision | Audio | Video | 強項 |
|---|---|---|---|---|
| GPT-5 / GPT-4o | ✅ 強(截圖、文件、圖表) | ✅ 即時語音對話 SOTA | ✅(較短) | Voice agent、即時對話 |
| Claude Opus 4 / Sonnet | ✅ 強(文件、截圖、handwriting) | ❌(無原生 audio) | ❌(無原生 video) | 文件分析、UI debug、複雜表格 |
| Gemini 2.5 Pro | ✅ 強 | ✅ | ✅ 強(可吃整段影片) | 影片分析、長文件、跨模態推理 |
| DeepSeek-V3 | ⚠️ 中等 | ❌ | ❌ | 文字主場 |
| Llama 4 Multimodal | ✅(開源) | 部分 | 部分 | 自架友善 |
實務常識:Gemini 看影片強、Claude 看文件強、GPT 講話強。三者各有主場。
實務應用最成熟的場景
2026 年 production-ready 的 multimodal use case:
文件 / 截圖理解。 把 PDF、合約、發票、表單、handwriting 直接丟給 Claude / GPT-5,提取結構化資訊。比傳統 OCR + 後處理乾淨太多。
UI 截圖 debug。 開發者在 Cursor / Claude Code 貼一張壞掉的 UI 截圖,問「為什麼 button 沒對齊」——模型直接看圖判斷。
影片摘要 / 重點時間軸。 上傳一場 1 小時的會議錄影或產品 demo,問「請列出每個重要決定點 + 對應的時間戳」。Gemini 在這個 use case 領先。
Voice agent。 即時語音對話 — 客服、語言學習、無障礙協助。GPT-4o 的 realtime API 是目前最成熟。
簡報分析。 把簡報 PDF 整個丟進去,問「這份策略簡報的核心主張是什麼?哪頁的數據最弱?」
影像 + 文字混合搜尋。 搜尋「藍色背景、有 logo、含『活動限定』字樣的設計圖」——multimodal embedding 讓圖文混合 query 變可能。
限制與不擅長的場景
2026 年的 multimodal 還做不好的事:
精確空間推理。 「這張圖中 A 物件在 B 物件的左側多少公分?」模型對位置、距離、相對方位的判斷仍然不穩。
細節 OCR。 字體小、模糊、特殊字型的 OCR,native multimodal 表現不一定贏專業 OCR 工具(像 Google Document AI)。
長影片精確 retrieval。 1 小時影片可以摘要,但「請告訴我第 32 分 14 秒 那個人說了什麼」——精確時間戳的 retrieval 還不可靠。
生成圖片 ≠ 理解圖片。 同一個模型可能會生圖(text-to-image)也會看圖(image understanding),但這是兩個不同訓練目標,能力不一定對稱。
多步視覺推理。 「看這張流程圖,如果 A 失敗會怎樣?」涉及多步推理 + 視覺空間理解的任務,模型常常自信地答錯。
對 builder / 企業的判斷
第一,選型看主要 input 類型。
- 影片重 → Gemini 系
- 文件 / 截圖重 → Claude
- 即時語音 → GPT realtime
- 純圖 → 都可以,實測
第二,別用 multimodal 做專業 OCR。 如果你 production OCR 量大且需要極致精度(銀行表單、醫療紀錄),專業工具 + 後處理仍然贏。Multimodal 適合「廣覆蓋、中精度、語義理解」場景。
第三,語音 agent 的延遲很關鍵。 客服 / 教學等即時 voice,延遲 > 1.5 秒就破壞體驗。GPT realtime / Gemini Live 等專為低延遲設計的 API,跟「分段呼叫 ASR + LLM + TTS」的延遲差很多。
第四,評估要分開看模態。 Vision benchmark 不代表 audio 也強,反之亦然。每個模態各自 evaluate。
第五,成本意識。 Multimodal input 通常比純文字貴。一張高解析圖可能等於幾千 token。影片更貴。production 上線前算清楚成本。
收尾
Multimodal 把 LLM 從「文字機器」變成「能感知世界的機器」。
它的真正價值不是「我們也支援上傳圖了」,是讓你不用做 pipeline 串接、不用維護多個模型,一個 API call 解決多模態任務。
下一篇 chronicle:Reasoning model 是什麼——o1 / Claude thinking / DeepSeek R1 那一類「先想再答」的新模型怎麼運作、什麼時候該用。
SOURCES
- A OpenAI — GPT-4V(ision) System Card
- A Google — Gemini: A Family of Highly Capable Multimodal Models
- A Anthropic — Claude 3 model family
來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。
MACHINE-READABLE SUMMARY
- Topic
- 大百科
- Key claims
-
- Multimodal 指 LLM 同時處理文字、圖片、音訊、影片等多種輸入。2026 年主流頂級模型(GPT-5 / Claude / Gemini)已是 native multimodal,所有訊號在統一向量空間理解。
- Native multimodal 不同於早期的「pipeline 串接」(OCR + 翻譯 + LLM):前者是同一個模型統一推理,後者是多個模型 sequential,易失真。
- 實務應用最成熟:文件 / 截圖理解、影像 OCR、影片摘要、語音 agent、UI screenshot debug、簡報分析。視覺推理 / 圖文跨模態複雜任務仍有限制。
- 選型要看具體輸入類型(靜態圖 / 影片 / 即時語音)、解析度上限、以及是否需要 audio output。Gemini 在影片強、Claude 在文件 / 截圖強、GPT 在 voice 強。
- Entities
- Multimodal · Vision · Audio · Video · GPT-4V · Claude Vision · Gemini · CLIP
- Taiwan relevance
- medium
- Confidence
- high
- Last updated
- 2026-04-25
- Canonical URL
- https://signals.tw/articles/what-is-multimodal/
SUGGESTED CITATION
如果 AI agent / 研究 / 報導要引用本文,建議格式如下:
周詠晴(編輯:廖玄同),《Multimodal 是什麼:AI 同時看圖、聽聲、讀文字》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-multimodal/
AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.