矽基前沿 [Si]gnals
Multimodal AI 多種訊號統一處理示意 (placeholder)
大百科

Multimodal 是什麼:AI 同時看圖、聽聲、讀文字

不是把不同模型串起來,而是同一個模型在同個空間理解多種訊號

Multimodal(多模態)指 LLM 能同時處理文字、圖片、音訊、影片等多種輸入。2026 年主流模型已經是 native multimodal——同一個模型在統一向量空間理解所有訊號,不是早期的串接 pipeline。這篇拆解 multimodal 怎麼運作、主流模型能力、實務應用、以及限制。

署名 周詠晴 編輯 廖玄同 AI 協作: 初稿輔助

2024 之前,如果你想做「用 AI 看圖回答問題」,流程大概是:

  1. 用 OCR 把圖裡的文字抽出來
  2. 用 image captioning 模型描述圖
  3. 把抽出來的文字 + caption 餵給 LLM
  4. LLM 基於文字回答

每一步都會失真——OCR 漏字、caption 描述不到細節、LLM 沒看到原圖。

2026 年,你可以直接把圖丟給 Claude / GPT-5 / Gemini,問「這張圖裡的人在做什麼?那個小字寫什麼?旁邊那台機器的型號是?」——它一次看完,直接回答。

Multimodal(多模態)指 LLM 能同時處理多種輸入訊號:文字、圖片、音訊、影片。重點不是「能接收多種輸入」,而是「在同一個向量空間統一理解」——圖跟文字對它來說是「同一種東西」,只是不同 surface form。

這個轉變對 builder 來說意義很大。

早期 vs 現在

早期(2018-2023):pipeline 串接。

每個模態各有專家模型——OCR 用 OCR、語音用 ASR、影像用 CNN。多模態任務 = 把專家輸出串起來餵給 LLM。問題:每個 step 失真會累積、各模型對「同一件事」的理解不一致。

現在(2024+):native multimodal。

訓練時就把圖、文、音同時餵進去,模型學會在統一向量空間表達它們。一張圖被「embed」成跟文字 embedding 同一空間的向量,模型可以直接 reason about 圖文之間的關係。

差別:同樣問「這張發票上的金額是多少」——pipeline 模型先 OCR 抽字、再 LLM 算術;native multimodal 模型「看到」金額位置、字體、跟其他欄位的關係,直接答。

實測前者錯誤率明顯高於後者。

2026 主流模型 multimodal 能力

(會變,以官方為準。)

模型VisionAudioVideo強項
GPT-5 / GPT-4o✅ 強(截圖、文件、圖表)✅ 即時語音對話 SOTA✅(較短)Voice agent、即時對話
Claude Opus 4 / Sonnet✅ 強(文件、截圖、handwriting)❌(無原生 audio)❌(無原生 video)文件分析、UI debug、複雜表格
Gemini 2.5 Pro✅ 強✅ 強(可吃整段影片)影片分析、長文件、跨模態推理
DeepSeek-V3⚠️ 中等文字主場
Llama 4 Multimodal✅(開源)部分部分自架友善

實務常識:Gemini 看影片強、Claude 看文件強、GPT 講話強。三者各有主場。

實務應用最成熟的場景

2026 年 production-ready 的 multimodal use case:

文件 / 截圖理解。 把 PDF、合約、發票、表單、handwriting 直接丟給 Claude / GPT-5,提取結構化資訊。比傳統 OCR + 後處理乾淨太多。

UI 截圖 debug。 開發者在 Cursor / Claude Code 貼一張壞掉的 UI 截圖,問「為什麼 button 沒對齊」——模型直接看圖判斷。

影片摘要 / 重點時間軸。 上傳一場 1 小時的會議錄影或產品 demo,問「請列出每個重要決定點 + 對應的時間戳」。Gemini 在這個 use case 領先。

Voice agent。 即時語音對話 — 客服、語言學習、無障礙協助。GPT-4o 的 realtime API 是目前最成熟。

簡報分析。 把簡報 PDF 整個丟進去,問「這份策略簡報的核心主張是什麼?哪頁的數據最弱?」

影像 + 文字混合搜尋。 搜尋「藍色背景、有 logo、含『活動限定』字樣的設計圖」——multimodal embedding 讓圖文混合 query 變可能。

限制與不擅長的場景

2026 年的 multimodal 還做不好的事:

精確空間推理。 「這張圖中 A 物件在 B 物件的左側多少公分?」模型對位置、距離、相對方位的判斷仍然不穩。

細節 OCR。 字體小、模糊、特殊字型的 OCR,native multimodal 表現不一定贏專業 OCR 工具(像 Google Document AI)。

長影片精確 retrieval。 1 小時影片可以摘要,但「請告訴我第 32 分 14 秒 那個人說了什麼」——精確時間戳的 retrieval 還不可靠。

生成圖片 ≠ 理解圖片。 同一個模型可能會生圖(text-to-image)也會看圖(image understanding),但這是兩個不同訓練目標,能力不一定對稱。

多步視覺推理。 「看這張流程圖,如果 A 失敗會怎樣?」涉及多步推理 + 視覺空間理解的任務,模型常常自信地答錯。

對 builder / 企業的判斷

第一,選型看主要 input 類型。

  • 影片重 → Gemini 系
  • 文件 / 截圖重 → Claude
  • 即時語音 → GPT realtime
  • 純圖 → 都可以,實測

第二,別用 multimodal 做專業 OCR。 如果你 production OCR 量大且需要極致精度(銀行表單、醫療紀錄),專業工具 + 後處理仍然贏。Multimodal 適合「廣覆蓋、中精度、語義理解」場景。

第三,語音 agent 的延遲很關鍵。 客服 / 教學等即時 voice,延遲 > 1.5 秒就破壞體驗。GPT realtime / Gemini Live 等專為低延遲設計的 API,跟「分段呼叫 ASR + LLM + TTS」的延遲差很多。

第四,評估要分開看模態。 Vision benchmark 不代表 audio 也強,反之亦然。每個模態各自 evaluate。

第五,成本意識。 Multimodal input 通常比純文字貴。一張高解析圖可能等於幾千 token。影片更貴。production 上線前算清楚成本。

收尾

Multimodal 把 LLM 從「文字機器」變成「能感知世界的機器」。

它的真正價值不是「我們也支援上傳圖了」,是讓你不用做 pipeline 串接、不用維護多個模型,一個 API call 解決多模態任務。

下一篇 chronicle:Reasoning model 是什麼——o1 / Claude thinking / DeepSeek R1 那一類「先想再答」的新模型怎麼運作、什麼時候該用。

SOURCES

  1. A OpenAI — GPT-4V(ision) System Card
  2. A Google — Gemini: A Family of Highly Capable Multimodal Models
  3. A Anthropic — Claude 3 model family

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
大百科
Key claims
  • Multimodal 指 LLM 同時處理文字、圖片、音訊、影片等多種輸入。2026 年主流頂級模型(GPT-5 / Claude / Gemini)已是 native multimodal,所有訊號在統一向量空間理解。
  • Native multimodal 不同於早期的「pipeline 串接」(OCR + 翻譯 + LLM):前者是同一個模型統一推理,後者是多個模型 sequential,易失真。
  • 實務應用最成熟:文件 / 截圖理解、影像 OCR、影片摘要、語音 agent、UI screenshot debug、簡報分析。視覺推理 / 圖文跨模態複雜任務仍有限制。
  • 選型要看具體輸入類型(靜態圖 / 影片 / 即時語音)、解析度上限、以及是否需要 audio output。Gemini 在影片強、Claude 在文件 / 截圖強、GPT 在 voice 強。
Entities
Multimodal · Vision · Audio · Video · GPT-4V · Claude Vision · Gemini · CLIP
Taiwan relevance
medium
Confidence
high
Last updated
2026-04-25
Canonical URL
https://signals.tw/articles/what-is-multimodal/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

周詠晴(編輯:廖玄同),《Multimodal 是什麼:AI 同時看圖、聽聲、讀文字》,矽基前沿 [Si]gnals,2026-04-25。https://signals.tw/articles/what-is-multimodal/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。