OpenAI 語音 API 三連發：引入 GPT-5 推理等級、支援 70+ 語言、Whisper 即時轉錄語音

OpenAI 推出三款語音智慧 API 模型。GPT-Realtime-2 支援複雜多步驟推理、GPT-Realtime-Translate 覆蓋 70 種輸入語言與 13 種輸出語言、GPT-Realtime-Whisper 提供即時語音轉文字。
（前情提要：GPT-5.5 Instant 向全體用戶開放，OpenAI 教你怎麼寫 Prompt 更聰明、有效率）
（背景補充：Google Translate 最強對手 DeepL 裁員 25%！執行長：轉型「AI 原生」公司，人類員工未來只做創意）

OpenAI 今（8）日同時推出三款語音 API，全數整合於 OpenAI Realtime API — 也就是該公司專為低延遲、即時語音互動設計的 API 架構。

第一款是 GPT-Realtime-2。這款模型的核心賣點是搭載 GPT-5 等級的推理能力，能處理複雜的多步驟對話請求。計費方式採按 token 計算，與文字 API 邏輯一致。

第二款是 GPT-Realtime-Translate，主打即時翻譯。支援超過 70 種語言作為輸入、13 種語言作為輸出，設計目標是「跟上對話節奏」，也就是在說話者仍在發言時同步輸出譯文，而非等整句結束才翻譯。

計費方式改為按分鐘計算，對照傳統同步口譯的市場單價，這款模型預計能對媒體活動、國際會議、跨語言客服帶來新選擇。

第三款是 GPT-Realtime-Whisper，提供即時語音轉文字功能（speech-to-text）。與既有 Whisper 模型的差異在於「即時性」，可在對話進行過程中持續捕捉並轉錄語音，而非等段落結束後批次處理。同樣按分鐘計費。

受益端相對清晰：客服平台、線上教育業者、媒體活動主辦方、創作者工具開發商。這幾個場景共同的特徵是「對話品質直接影響商業結果」，且目前人力成本高昂。

GPT-Realtime-Translate 對跨語言媒體平台的衝擊尤為直接，70 種輸入語言的覆蓋範圍，已超越多數市面上商業翻譯服務的語言支援。

受壓端則不只是傳統翻譯服務商。更廣義的受壓物件是那些仍在銷售「語音 AI 基礎能力」的競爭者：包括部分雲端語音識別服務，以及尚未在推理層取得突破的語音助理產品。當平台方直接在 API 層提供 GPT-5 推理，疊加即時語音能力，獨立語音 AI 新創的差異化空間將進一步收窄。

值得保留的問號是延遲表現與實際準確率。OpenAI 的公告聚焦在功能覆蓋，對具體延遲數字與多語言識別準確率著墨不多。

這兩個指標在真實部署場景中往往才是決定採用率的關鍵，尤其是翻譯模型的 13 種輸出語言中，各語言的品質是否均等，仍待開發者實測驗證。

動區動趨