OpenAI 這次推出哪三個即時語音模型？

GPT-Realtime-2 負責即時語音代理人，GPT-Realtime-Translate 負責即時語音翻譯，GPT-Realtime-Whisper 負責串流語音轉文字。

這對產品團隊的重點是什麼？

產品團隊要判斷哪些任務需要邊說邊查工具、邊說邊翻譯或即時轉錄，並設計揭露、恢復、轉人工與成本控制。

哪些情境不適合直接交給 live voice agent？

高風險、難以回復、需要精確審核或使用者未明確同意的流程，不應只因語音自然就放給 AI 自動執行。

工作現場 2026年5月9日

OpenAI 新語音模型來了：客服可以邊說邊查、邊說邊做

GPT-Realtime-2、Translate 和 Whisper 把語音功能推成一個產品設計問題：哪些任務值得在對話還沒結束時就讓 AI 動手？

署名矽基前沿 · 工作現場線編輯廖玄同

本文由 AI 協助研究與起草，矽基前沿編輯部編修，總編輯廖玄同審閱定稿。編輯方針與 AI 使用說明

報導解讀 AI Coding 工作流 AI 模型基礎素養 OpenAI

你走在機場轉機通道上，航班延誤，飯店入住時間也要改。你不想停下來打字，只想對手機說：「幫我看今晚的房間能不能延後入住，如果櫃台只會說日文，順便幫我翻譯。」

這種場景以前可以被語音助理聽懂一半，最後仍要你打開 App、找訂單、看條款、複製地址。OpenAI 5 月 7 日推出的三個 Realtime API 音訊模型，瞄準的就是這段中間地帶：語音不只拿來輸入問題，也可以在對話還沒結束時查工具、翻譯、轉錄、回報進度。

這也是產品團隊最該小心的地方。語音越自然，使用者越容易把它當成正在幫忙的人。只要 AI 在通話裡動手，它就需要讓使用者知道它查了什麼、卡在哪裡、何時該停下來。

三個模型，對應三種語音工作

OpenAI 這次把即時語音拆成三個角色。

GPT-Realtime-2 是語音代理人模型。OpenAI 說它具備 GPT-5-class reasoning，適合 live voice interactions，可以處理較難請求、使用工具、處理修正或插話，並依照情境調整語氣。官方 model docs 也列出 128K context window、可調 reasoning effort，以及複雜 voice-agent workflows 的定位。

GPT-Realtime-Translate 是即時語音翻譯模型。OpenAI 說它支援 70 多種輸入語言、13 種輸出語言，讓雙方可以邊說邊聽到翻譯。文件顯示它使用 dedicated realtime translation endpoint，並按音訊時間計價。

GPT-Realtime-Whisper 則是串流 speech-to-text。它把說話中的音訊即時轉成文字，適合字幕、會議紀錄、客服後續摘要、招募或銷售通話紀錄。

放進產品時，這三個角色不該混成一個「語音 AI」按鈕。比較好的設計，是先判斷任務要哪一種能力：

任務	主要模型角色	產品要補的控制
幫旅客改訂單	GPT-Realtime-2	工具查詢、確認、回復、人工接手
跨語言客服	GPT-Realtime-Translate	雙方告知、延遲提示、原文保存
會議即時紀錄	GPT-Realtime-Whisper	說話者標記、敏感資訊處理、摘要審核

模型清單只是起點；工作流決定產品能不能上線。

語音代理人最難的是讓動作被看見

OpenAI 在發布文中提到幾個看似細小的設計點：preambles、parallel tool calls、tool transparency、recovery behavior。這些其實是語音代理人能不能上線的核心條件。

Preamble 是代理人在主要回答前先說一句短提示，例如「我幫你查一下」。這句話不只是禮貌，它讓使用者知道系統開始查工具，避免把短暫等待誤會成當機。

Tool transparency 是讓代理人把動作說出來，例如「我正在看你的訂單」或「我查一下航班狀態」。這會影響信任，也會影響隱私。如果它要查 CRM、病歷、行事曆或付款狀態，使用者應該知道。

Recovery behavior 則處理失敗。語音介面不能只回傳錯誤碼，也不能安靜中斷。它要能說「這裡我查不到」或「我需要你確認一次」，再把人帶回可操作的路徑。

這些設計讓語音代理人跟一般 chatbot 不同。文字聊天可以停在一段回答；live voice agent 則在時間壓力裡運作。使用者會插話、改口、走進吵雜環境，也可能把一個低風險查詢突然改成高風險操作。

成本會直接改變產品設計

語音代理人同時考驗模型能力和成本形狀。它不只是多一個語音按鈕；每一秒等待、每一次重試、每一段輸出都可能進成本表。

OpenAI 的定價頁顯示，GPT-Realtime-2 的 audio input 是每 100 萬 tokens 32 美元，cached input 是 0.40 美元，audio output 是 64 美元。文字 input/output 另有價格，image input 也有價格。GPT-Realtime-Translate 是每分鐘 0.034 美元，GPT-Realtime-Whisper 是每分鐘 0.017 美元。

這代表三種產品會有不同成本壓力：

即時語音代理人可能因為使用者多輪交談、工具查詢、輸出音訊和 reasoning effort 而增加成本。即時翻譯與轉錄則更像「通話時間」成本。你設計的是 30 秒快問快答、8 分鐘客服處理，還是 1 小時會議紀錄，差異會很大。

所以產品團隊不能只問「模型可不可以做到」。更實際的是：

一次工作平均多長？
需要多少工具查詢？
哪些步驟能用低 reasoning effort？
哪些輸出可以轉文字而非語音？
失敗重試會不會把成本放大？

如果成本不可預測，live voice 很容易從驚喜功能變成毛利問題。

哪些流程值得讓 AI 邊說邊做

並非每個工作都適合 live voice agent。判斷時可以看五個條件。

條件	適合語音的樣子	需要暫停的樣子
時間壓力	使用者正在移動、開車、通話或現場服務	使用者可以慢慢看文件
任務可回復	訂單查詢、改時間、產生草稿	付款、醫療建議、不可逆刪除
工具透明	系統能說明正在查什麼	工具結果敏感且難揭露
錯誤處理	可要求使用者確認或轉人工	錯一次就造成高損失
同意明確	使用者知道正在和 AI 互動	使用者以為是人類客服

OpenAI 的發布文也提到，開發者必須讓終端使用者清楚知道自己正在和 AI 互動，除非情境本身已經明顯。這句話在語音介面特別重要。文字聊天常有 UI 標示；電話或語音通話如果沒有開場告知，使用者很容易誤判對方是人。

產品團隊可以照這個順序試

如果你要試這批模型，先不要從「做一個全能語音代理人」開始。比較好的順序是：

先做 live transcription，把通話或會議變成可查的文字。
再做低風險 translation，例如活動接待、旅遊資訊、內部協作。
最後才做 voice-to-action，並限制在可回復、可確認、可轉人工的任務。

每一步都要把三個畫面補齊：使用者知道 AI 正在做什麼、系統知道失敗時怎麼回來、人類知道何時接手。

語音介面的吸引力在於它讓軟體消失。但企業和產品團隊不能讓責任也跟著消失。OpenAI 的新模型把「邊說邊做」變得更可行；接下來的產品差距，會落在誰能把動作、成本和風險說清楚。

SOURCES

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用，不可當事實。

MACHINE-READABLE SUMMARY

Topic: 工作現場
Key claims: OpenAI 在 2026 年 5 月 7 日推出 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper。
GPT-Realtime-2 針對即時語音代理人，支援工具使用、可調 reasoning effort、128K context window 與更強的對話恢復行為。
GPT-Realtime-Translate 按音訊時間計價，GPT-Realtime-Whisper 也按分鐘計價；GPT-Realtime-2 則以 audio/text/image token 計價。
Entities: OpenAI · GPT-Realtime-2 · GPT-Realtime-Translate · GPT-Realtime-Whisper · Realtime API
Taiwan relevance: medium
Confidence: high
Last updated: 2026-05-09
Canonical URL: https://signals.tw/articles/openai-realtime-voice-models/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

矽基前沿 · 工作現場線（編輯：廖玄同），《OpenAI 新語音模型來了：客服可以邊說邊查、邊說邊做》，矽基前沿 [Si]gnals，2026-05-09。https://signals.tw/articles/openai-realtime-voice-models/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

OpenAI 新語音模型來了：客服可以邊說邊查、邊說邊做

三個模型，對應三種語音工作

語音代理人最難的是讓動作被看見

成本會直接改變產品設計

哪些流程值得讓 AI 邊說邊做

產品團隊可以照這個順序試

繼續讀

AI 代理人跑了 20 分鐘，誰來決定要不要繼續？OpenAI、Google、AWS 給了三種答案

Codex 進 ChatGPT 手機版：捷運上也能批准 AI 寫的程式碼，但程式碼一行都沒進手機

ChatGPT 帳號不再只是聊天記錄，OpenAI 為什麼把登入變嚴？

訂閱《矽基前沿週報》