OpenAI 推出三款語音智慧 API 模型。GPT-Realtime-2 支援複雜多步驟推理、GPT-Realtime-Translate 覆蓋 70 種輸入語言與 13 種輸出語言、GPT-Realtime-Whisper 提供即時語音轉文字。
(前情提要:GPT-5.5 Instant 向全體用戶開放,OpenAI 教你怎麼寫 Prompt 更聰明、有效率)
(背景補充:Google Translate 最強對手 DeepL 裁員 25%!執行長:轉型「AI 原生」公司,人類員工未來只做創意)
OpenAI 今(8)日同時推出三款語音 API,全數整合於 OpenAI Realtime API — 也就是該公司專為低延遲、即時語音互動設計的 API 架構。
第一款是 GPT-Realtime-2。這款模型的核心賣點是搭載 GPT-5 等級的推理能力,能處理複雜的多步驟對話請求。計費方式採按 token 計算,與文字 API 邏輯一致。
第二款是 GPT-Realtime-Translate,主打即時翻譯。支援超過 70 種語言作為輸入、13 種語言作為輸出,設計目標是「跟上對話節奏」,也就是在說話者仍在發言時同步輸出譯文,而非等整句結束才翻譯。
計費方式改為按分鐘計算,對照傳統同步口譯的市場單價,這款模型預計能對媒體活動、國際會議、跨語言客服帶來新選擇。
第三款是 GPT-Realtime-Whisper,提供即時語音轉文字功能(speech-to-text)。與既有 Whisper 模型的差異在於「即時性」,可在對話進行過程中持續捕捉並轉錄語音,而非等段落結束後批次處理。同樣按分鐘計費。
誰先受益,誰先受壓?
受益端相對清晰:客服平台、線上教育業者、媒體活動主辦方、創作者工具開發商。這幾個場景共同的特徵是「對話品質直接影響商業結果」,且目前人力成本高昂。
GPT-Realtime-Translate 對跨語言媒體平台的衝擊尤為直接,70 種輸入語言的覆蓋範圍,已超越多數市面上商業翻譯服務的語言支援。
受壓端則不只是傳統翻譯服務商。更廣義的受壓物件是那些仍在銷售「語音 AI 基礎能力」的競爭者:包括部分雲端語音識別服務,以及尚未在推理層取得突破的語音助理產品。當平台方直接在 API 層提供 GPT-5 推理,疊加即時語音能力,獨立語音 AI 新創的差異化空間將進一步收窄。
值得保留的問號是延遲表現與實際準確率。OpenAI 的公告聚焦在功能覆蓋,對具體延遲數字與多語言識別準確率著墨不多。
這兩個指標在真實部署場景中往往才是決定採用率的關鍵,尤其是翻譯模型的 13 種輸出語言中,各語言的品質是否均等,仍待開發者實測驗證。
📍相關報導📍
Nvidia 黃仁勳預言:「代理型 AI」將重塑 50 兆鎂實體經濟,算力需求飆增 1000%
OpenAI 聯手 NVIDIA、AMD、微軟推出「MRC 網路協議」:徹底解決十萬級 GPU 訓練塞車問題

