矽基前沿 [Si]gnals
即時語音代理人在通話中同時處理工具查詢、翻譯、轉錄與人工接手提示
工作現場

OpenAI 新語音模型來了:客服可以邊說邊查、邊說邊做

GPT-Realtime-2、Translate 和 Whisper 把語音功能推成一個產品設計問題:哪些任務值得在對話還沒結束時就讓 AI 動手?

OpenAI 在 2026 年 5 月 7 日推出三個 Realtime API 音訊模型。本文用客服與旅遊場景拆解語音代理人的產品門檻、成本與安全邊界。

署名 林子睿 編輯 廖玄同 AI 協作: 初稿輔助

你走在機場轉機通道上,航班延誤,飯店入住時間也要改。你不想停下來打字,只想對手機說:「幫我看今晚的房間能不能延後入住,如果櫃台只會說日文,順便幫我翻譯。」

這種場景以前可以被語音助理聽懂一半,最後仍要你打開 App、找訂單、看條款、複製地址。OpenAI 5 月 7 日推出的三個 Realtime API 音訊模型,瞄準的就是這段中間地帶:語音不只拿來輸入問題,也可以在對話還沒結束時查工具、翻譯、轉錄、回報進度。

這也是產品團隊最該小心的地方。語音越自然,使用者越容易把它當成正在幫忙的人。只要 AI 在通話裡動手,它就需要讓使用者知道它查了什麼、卡在哪裡、何時該停下來。

三個模型,對應三種語音工作

OpenAI 這次把即時語音拆成三個角色。

GPT-Realtime-2 是語音代理人模型。OpenAI 說它具備 GPT-5-class reasoning,適合 live voice interactions,可以處理較難請求、使用工具、處理修正或插話,並依照情境調整語氣。官方 model docs 也列出 128K context window、可調 reasoning effort,以及複雜 voice-agent workflows 的定位。

GPT-Realtime-Translate 是即時語音翻譯模型。OpenAI 說它支援 70 多種輸入語言、13 種輸出語言,讓雙方可以邊說邊聽到翻譯。文件顯示它使用 dedicated realtime translation endpoint,並按音訊時間計價。

GPT-Realtime-Whisper 則是串流 speech-to-text。它把說話中的音訊即時轉成文字,適合字幕、會議紀錄、客服後續摘要、招募或銷售通話紀錄。

放進產品時,這三個角色不該混成一個「語音 AI」按鈕。比較好的設計,是先判斷任務要哪一種能力:

任務主要模型角色產品要補的控制
幫旅客改訂單GPT-Realtime-2工具查詢、確認、回復、人工接手
跨語言客服GPT-Realtime-Translate雙方告知、延遲提示、原文保存
會議即時紀錄GPT-Realtime-Whisper說話者標記、敏感資訊處理、摘要審核

模型清單只是起點;工作流決定產品能不能上線。

語音代理人最難的是讓動作被看見

OpenAI 在發布文中提到幾個看似細小的設計點:preambles、parallel tool calls、tool transparency、recovery behavior。這些其實是語音代理人能不能上線的核心條件。

Preamble 是代理人在主要回答前先說一句短提示,例如「我幫你查一下」。這句話不只是禮貌,它讓使用者知道系統開始查工具,避免把短暫等待誤會成當機。

Tool transparency 是讓代理人把動作說出來,例如「我正在看你的訂單」或「我查一下航班狀態」。這會影響信任,也會影響隱私。如果它要查 CRM、病歷、行事曆或付款狀態,使用者應該知道。

Recovery behavior 則處理失敗。語音介面不能只回傳錯誤碼,也不能安靜中斷。它要能說「這裡我查不到」或「我需要你確認一次」,再把人帶回可操作的路徑。

這些設計讓語音代理人跟一般 chatbot 不同。文字聊天可以停在一段回答;live voice agent 則在時間壓力裡運作。使用者會插話、改口、走進吵雜環境,也可能把一個低風險查詢突然改成高風險操作。

成本會直接改變產品設計

語音代理人同時考驗模型能力和成本形狀。它不只是多一個語音按鈕;每一秒等待、每一次重試、每一段輸出都可能進成本表。

OpenAI 的定價頁顯示,GPT-Realtime-2 的 audio input 是每 100 萬 tokens 32 美元,cached input 是 0.40 美元,audio output 是 64 美元。文字 input/output 另有價格,image input 也有價格。GPT-Realtime-Translate 是每分鐘 0.034 美元,GPT-Realtime-Whisper 是每分鐘 0.017 美元。

這代表三種產品會有不同成本壓力:

即時語音代理人可能因為使用者多輪交談、工具查詢、輸出音訊和 reasoning effort 而增加成本。即時翻譯與轉錄則更像「通話時間」成本。你設計的是 30 秒快問快答、8 分鐘客服處理,還是 1 小時會議紀錄,差異會很大。

所以產品團隊不能只問「模型可不可以做到」。更實際的是:

  • 一次工作平均多長?
  • 需要多少工具查詢?
  • 哪些步驟能用低 reasoning effort?
  • 哪些輸出可以轉文字而非語音?
  • 失敗重試會不會把成本放大?

如果成本不可預測,live voice 很容易從驚喜功能變成毛利問題。

哪些流程值得讓 AI 邊說邊做

並非每個工作都適合 live voice agent。判斷時可以看五個條件。

條件適合語音的樣子需要暫停的樣子
時間壓力使用者正在移動、開車、通話或現場服務使用者可以慢慢看文件
任務可回復訂單查詢、改時間、產生草稿付款、醫療建議、不可逆刪除
工具透明系統能說明正在查什麼工具結果敏感且難揭露
錯誤處理可要求使用者確認或轉人工錯一次就造成高損失
同意明確使用者知道正在和 AI 互動使用者以為是人類客服

OpenAI 的發布文也提到,開發者必須讓終端使用者清楚知道自己正在和 AI 互動,除非情境本身已經明顯。這句話在語音介面特別重要。文字聊天常有 UI 標示;電話或語音通話如果沒有開場告知,使用者很容易誤判對方是人。

產品團隊可以照這個順序試

如果你要試這批模型,先不要從「做一個全能語音代理人」開始。比較好的順序是:

  1. 先做 live transcription,把通話或會議變成可查的文字。
  2. 再做低風險 translation,例如活動接待、旅遊資訊、內部協作。
  3. 最後才做 voice-to-action,並限制在可回復、可確認、可轉人工的任務。

每一步都要把三個畫面補齊:使用者知道 AI 正在做什麼、系統知道失敗時怎麼回來、人類知道何時接手。

語音介面的吸引力在於它讓軟體消失。但企業和產品團隊不能讓責任也跟著消失。OpenAI 的新模型把「邊說邊做」變得更可行;接下來的產品差距,會落在誰能把動作、成本和風險說清楚。

SOURCES

  1. A Advancing voice intelligence with new models in the API
  2. A OpenAI API pricing
  3. A gpt-realtime-2 model docs
  4. A gpt-realtime-translate model docs

來源分級:A = 一手公告/論文/官方文件 · B = 可信媒體 · C = 可參考但需脈絡 · D = 觀察用,不可當事實。

MACHINE-READABLE SUMMARY

Topic
工作現場
Key claims
  • OpenAI 在 2026 年 5 月 7 日推出 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper。
  • GPT-Realtime-2 針對即時語音代理人,支援工具使用、可調 reasoning effort、128K context window 與更強的對話恢復行為。
  • GPT-Realtime-Translate 按音訊時間計價,GPT-Realtime-Whisper 也按分鐘計價;GPT-Realtime-2 則以 audio/text/image token 計價。
Entities
OpenAI · GPT-Realtime-2 · GPT-Realtime-Translate · GPT-Realtime-Whisper · Realtime API
Taiwan relevance
medium
Confidence
high
Last updated
2026-05-09
Canonical URL
https://signals.tw/articles/openai-realtime-voice-models/

SUGGESTED CITATION

如果 AI agent / 研究 / 報導要引用本文,建議格式如下:

林子睿(編輯:廖玄同),《OpenAI 新語音模型來了:客服可以邊說邊查、邊說邊做》,矽基前沿 [Si]gnals,2026-05-09。https://signals.tw/articles/openai-realtime-voice-models/

AI agents / search engines may quote, summarize, and cite with attribution and a link back to the canonical URL above. See /for-ai-agents for full policy.

WEEKLY [SI]GNALS

訂閱《矽基前沿週報》

每週五早上,總編輯親自寫的本週 AI 重要訊號 + 台灣視角。

5 個值得知道的訊號 · 1 個產品/模型動態 · 1 個總編判斷 · 5 分鐘讀完。

免費 · 隨時取消 · 不轉售你的 email。