xAI 本週正式推出獨立的 Grok 語音轉文字(STT)與文字轉語音(TTS)API,這套技術棧已在 Grok Voice、特斯拉車輛與 Starlink 客服系統中實際運行。STT 定價為批次每小時 $0.10、串流每小時 $0.20,支援 25 種以上語言。
(前情提要:Grok 4.3 beta 開放 Heavy 訂閱用戶!馬斯克:真正旗艦版本初訓 5 天後完成)
(背景補充:Google 上線 Gemini 3.1 Flash TTS:音訊標籤讓 AI 配音更生動、支援 70+ 語言,Google AI Studio 免費體驗)
同一套讓特斯拉車輛開口說話、讓 Starlink 客服回應使用者的語音技術,現在透過 API 對外開放了。xAI 17 日正式宣布推出獨立的 Grok 語音轉文字(STT)與文字轉語音(TTS)API,讓外部開發者得以直接呼叫這套已在 xAI 旗下產品中運作的語音基礎設施。
STT:詞級時間戳+說話者區分,批次轉錄每小時僅 0.1 美元
根據官方說明,Grok STT API 提供兩種接入模式:透過 REST API 進行批次處理,以及透過 WebSocket API 進行低延遲即時串流。定價方面,批次處理為每小時 $0.10、串流為每小時 $0.20,官方表示相較 ElevenLabs 和 Deepgram 等主流競爭對手,定價具備顯著優勢。
功能面,Grok STT 支援 25 種以上語言,具備詞級時間戳、說話者區分(speaker diarization),以及多聲道音訊和智慧反向文字規範化。適合會議轉錄、法律與醫療記錄、客服通話日誌等需要高精確度的企業場景。
在實體識別基準測試中,Grok STT 展現出優勢。在電話通話中辨識姓名、帳號、日期等關鍵實體時,Grok STT 的錯誤率為 5.0%,而 ElevenLabs 為 12.0%、Deepgram 為 13.5%、AssemblyAI 則高達 21.3%。
TTS:5 種語音個性+語音標籤,每百萬字元 4.2 美元
Grok TTS API 提供五種各具風格的語音選項:Ara(女聲,溫暖親切)、Eve(女聲,活潑積極)、Leo(男聲,權威有力)、Rex(男聲,自信清晰)、Sal(中性,流暢均衡)。
API 自動偵測輸入語言,原生支援 20 種以上語言,並透過 BCP-47 語言程式碼控制發音。
音訊輸出格式涵蓋 MP3、WAV、PCM(Linear16)、G.711 μ-law 以及 G.711 A-law,後兩者為電話系統常見的電話編解碼格式,顯示 xAI 對電信業整合的布局。
TTS API 的特色功能是「語音標籤」,開發者可以在文字中內嵌指令,精細控制停頓、笑聲、耳語、語調強調、語速與音高,讓合成語音更貼近人類自然表達。定價為每百萬字元 $4.20。
同一技術棧已驅動特斯拉與 Starlink
xAI 強調,兩項 API 背後並非全新研發的技術,而是已在 Grok Voice、特斯拉車輛語音互動,以及 Starlink 客戶支援系統中實際執行的相同基礎設施。
這套基礎設施首先在 2025 年底以 Grok Voice Agent API 的形式亮相,當時提供即時語音對話代理能力,並在 Big Bench Audio 基準測試中排名第一,首次音訊回應時間低於 1 秒,約為最近競爭對手的 5 倍速度。
此次推出的 STT 和 TTS 獨立端點,等於將這套整合式語音管道的個別元件拆分開放,讓開發者可以依需求組合。
📍相關報導📍
Grok 4.3 beta 開放 Heavy 訂閱用戶!馬斯克:真正旗艦版本初訓 5 天後完成
Google 上線 Gemini 3.1 Flash TTS:音訊標籤讓 AI 配音更生動、支援 70+ 語言,Google AI Studio 免費體驗

