OpenAI 新語音模型來了:客服可以邊說邊查、邊說邊做
GPT-Realtime-2、Translate 和 Whisper 把語音功能推成一個產品設計問題:哪些任務值得在對話還沒結束時就讓 AI 動手?
OpenAI 在 2026 年 5 月 7 日推出三個 Realtime API 音訊模型。本文用客服與旅遊場景拆解語音代理人的產品門檻、成本與安全邊界。
你走在機場轉機通道上,航班延誤,飯店入住時間也要改。你不想停下來打字,只想對手機說:「幫我看今晚的房間能不能延後入住,如果櫃台只會說日文,順便幫我翻譯。」
這種場景以前可以被語音助理聽懂一半,最後仍要你打開 App、找訂單、看條款、複製地址。OpenAI 5 月 7 日推出的三個 Realtime API 音訊模型,瞄準的就是這段中間地帶:語音不只拿來輸入問題,也可以在對話還沒結束時查工具、翻譯、轉錄、回報進度。
這也是產品團隊最該小心的地方。語音越自然,使用者越容易把它當成正在幫忙的人。只要 AI 在通話裡動手,它就需要讓使用者知道它查了什麼、卡在哪裡、何時該停下來。
三個模型,對應三種語音工作
OpenAI 這次把即時語音拆成三個角色。
GPT-Realtime-2 是語音代理人模型。OpenAI 說它具備 GPT-5-class reasoning,適合 live voice interactions,可以處理較難請求、使用工具、處理修正或插話,並依照情境調整語氣。官方 model docs 也列出 128K context window、可調 reasoning effort,以及複雜 voice-agent workflows 的定位。
GPT-Realtime-Translate 是即時語音翻譯模型。OpenAI 說它支援 70 多種輸入語言、13 種輸出語言,讓雙方可以邊說邊聽到翻譯。文件顯示它使用 dedicated realtime translation endpoint,並按音訊時間計價。
GPT-Realtime-Whisper 則是串流 speech-to-text。它把說話中的音訊即時轉成文字,適合字幕、會議紀錄、客服後續摘要、招募或銷售通話紀錄。
放進產品時,這三個角色不該混成一個「語音 AI」按鈕。比較好的設計,是先判斷任務要哪一種能力:
| 任務 | 主要模型角色 | 產品要補的控制 |
|---|---|---|
| 幫旅客改訂單 | GPT-Realtime-2 | 工具查詢、確認、回復、人工接手 |
| 跨語言客服 | GPT-Realtime-Translate | 雙方告知、延遲提示、原文保存 |
| 會議即時紀錄 | GPT-Realtime-Whisper | 說話者標記、敏感資訊處理、摘要審核 |
模型清單只是起點;工作流決定產品能不能上線。
語音代理人最難的是讓動作被看見
OpenAI 在發布文中提到幾個看似細小的設計點:preambles、parallel tool calls、tool transparency、recovery behavior。這些其實是語音代理人能不能上線的核心條件。
Preamble 是代理人在主要回答前先說一句短提示,例如「我幫你查一下」。這句話不只是禮貌,它讓使用者知道系統開始查工具,避免把短暫等待誤會成當機。
Tool transparency 是讓代理人把動作說出來,例如「我正在看你的訂單」或「我查一下航班狀態」。這會影響信任,也會影響隱私。如果它要查 CRM、病歷、行事曆或付款狀態,使用者應該知道。
Recovery behavior 則處理失敗。語音介面不能只回傳錯誤碼,也不能安靜中斷。它要能說「這裡我查不到」或「我需要你確認一次」,再把人帶回可操作的路徑。
這些設計讓語音代理人跟一般 chatbot 不同。文字聊天可以停在一段回答;live voice agent 則在時間壓力裡運作。使用者會插話、改口、走進吵雜環境,也可能把一個低風險查詢突然改成高風險操作。
成本會直接改變產品設計
語音代理人同時考驗模型能力和成本形狀。它不只是多一個語音按鈕;每一秒等待、每一次重試、每一段輸出都可能進成本表。
OpenAI 的定價頁顯示,GPT-Realtime-2 的 audio input 是每 100 萬 tokens 32 美元,cached input 是 0.40 美元,audio output 是 64 美元。文字 input/output 另有價格,image input 也有價格。GPT-Realtime-Translate 是每分鐘 0.034 美元,GPT-Realtime-Whisper 是每分鐘 0.017 美元。
這代表三種產品會有不同成本壓力:
即時語音代理人可能因為使用者多輪交談、工具查詢、輸出音訊和 reasoning effort 而增加成本。即時翻譯與轉錄則更像「通話時間」成本。你設計的是 30 秒快問快答、8 分鐘客服處理,還是 1 小時會議紀錄,差異會很大。
所以產品團隊不能只問「模型可不可以做到」。更實際的是:
- 一次工作平均多長?
- 需要多少工具查詢?
- 哪些步驟能用低 reasoning effort?
- 哪些輸出可以轉文字而非語音?
- 失敗重試會不會把成本放大?
如果成本不可預測,live voice 很容易從驚喜功能變成毛利問題。
哪些流程值得讓 AI 邊說邊做
並非每個工作都適合 live voice agent。判斷時可以看五個條件。
| 條件 | 適合語音的樣子 | 需要暫停的樣子 |
|---|---|---|
| 時間壓力 | 使用者正在移動、開車、通話或現場服務 | 使用者可以慢慢看文件 |
| 任務可回復 | 訂單查詢、改時間、產生草稿 | 付款、醫療建議、不可逆刪除 |
| 工具透明 | 系統能說明正在查什麼 | 工具結果敏感且難揭露 |
| 錯誤處理 | 可要求使用者確認或轉人工 | 錯一次就造成高損失 |
| 同意明確 | 使用者知道正在和 AI 互動 | 使用者以為是人類客服 |
OpenAI 的發布文也提到,開發者必須讓終端使用者清楚知道自己正在和 AI 互動,除非情境本身已經明顯。這句話在語音介面特別重要。文字聊天常有 UI 標示;電話或語音通話如果沒有開場告知,使用者很容易誤判對方是人。
產品團隊可以照這個順序試
如果你要試這批模型,先不要從「做一個全能語音代理人」開始。比較好的順序是:
- 先做 live transcription,把通話或會議變成可查的文字。
- 再做低風險 translation,例如活動接待、旅遊資訊、內部協作。
- 最後才做 voice-to-action,並限制在可回復、可確認、可轉人工的任務。
每一步都要把三個畫面補齊:使用者知道 AI 正在做什麼、系統知道失敗時怎麼回來、人類知道何時接手。
語音介面的吸引力在於它讓軟體消失。但企業和產品團隊不能讓責任也跟著消失。OpenAI 的新模型把「邊說邊做」變得更可行;接下來的產品差距,會落在誰能把動作、成本和風險說清楚。
SOURCES
- A Advancing voice intelligence with new models in the API
- A OpenAI API pricing
- A gpt-realtime-2 model docs
- A gpt-realtime-translate model docs
來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。
MACHINE-READABLE SUMMARY
- Topic
- 工作現場
- Key claims
-
- OpenAI 在 2026 年 5 月 7 日推出 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper。
- GPT-Realtime-2 針對即時語音代理人,支援工具使用、可調 reasoning effort、128K context window 與更強的對話恢復行為。
- GPT-Realtime-Translate 按音訊時間計價,GPT-Realtime-Whisper 也按分鐘計價;GPT-Realtime-2 則以 audio/text/image token 計價。
- Entities
- OpenAI · GPT-Realtime-2 · GPT-Realtime-Translate · GPT-Realtime-Whisper · Realtime API
- Taiwan relevance
- medium
- Confidence
- high
- Last updated
- 2026-05-09
- Canonical URL
- https://signals.tw/articles/openai-realtime-voice-models/
SUGGESTED CITATION
如果 AI agent / 研究 / 報導要引用本文,建議格式如下:
林子睿(編輯:廖玄同),《OpenAI 新語音模型來了:客服可以邊說邊查、邊說邊做》,矽基前沿 [Si]gnals,2026-05-09。https://signals.tw/articles/openai-realtime-voice-models/
AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.