喜歡特斯拉聲音？xAI 正式開放 Grok 語音 API，TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs

xAI 本週正式推出獨立的 Grok 語音轉文字（STT）與文字轉語音（TTS）API，這套技術棧已在 Grok Voice、特斯拉車輛與 Starlink 客服系統中實際運行。STT 定價為批次每小時 $0.10、串流每小時 $0.20，支援 25 種以上語言。
（前情提要：Grok 4.3 beta 開放 Heavy 訂閱用戶！馬斯克：真正旗艦版本初訓 5 天後完成）
（背景補充：Google 上線 Gemini 3.1 Flash TTS：音訊標籤讓 AI 配音更生動、支援 70+ 語言，Google AI Studio 免費體驗）

本文目錄

同一套讓特斯拉車輛開口說話、讓 Starlink 客服回應使用者的語音技術，現在透過 API 對外開放了。xAI 17 日正式宣布推出獨立的 Grok 語音轉文字（STT）與文字轉語音（TTS）API，讓外部開發者得以直接呼叫這套已在 xAI 旗下產品中運作的語音基礎設施。

STT：詞級時間戳＋說話者區分，批次轉錄每小時僅 0.1 美元

根據官方說明，Grok STT API 提供兩種接入模式：透過 REST API 進行批次處理，以及透過 WebSocket API 進行低延遲即時串流。定價方面，批次處理為每小時 $0.10、串流為每小時 $0.20，官方表示相較 ElevenLabs 和 Deepgram 等主流競爭對手，定價具備顯著優勢。

功能面，Grok STT 支援 25 種以上語言，具備詞級時間戳、說話者區分（speaker diarization），以及多聲道音訊和智慧反向文字規範化。適合會議轉錄、法律與醫療記錄、客服通話日誌等需要高精確度的企業場景。

在實體識別基準測試中，Grok STT 展現出優勢。在電話通話中辨識姓名、帳號、日期等關鍵實體時，Grok STT 的錯誤率為 5.0%，而 ElevenLabs 為 12.0%、Deepgram 為 13.5%、AssemblyAI 則高達 21.3%。

TTS：5 種語音個性＋語音標籤，每百萬字元 4.2 美元

Grok TTS API 提供五種各具風格的語音選項：Ara（女聲，溫暖親切）、Eve（女聲，活潑積極）、Leo（男聲，權威有力）、Rex（男聲，自信清晰）、Sal（中性，流暢均衡）。

API 自動偵測輸入語言，原生支援 20 種以上語言，並透過 BCP-47 語言程式碼控制發音。

音訊輸出格式涵蓋 MP3、WAV、PCM（Linear16）、G.711 μ-law 以及 G.711 A-law，後兩者為電話系統常見的電話編解碼格式，顯示 xAI 對電信業整合的布局。

TTS API 的特色功能是「語音標籤」，開發者可以在文字中內嵌指令，精細控制停頓、笑聲、耳語、語調強調、語速與音高，讓合成語音更貼近人類自然表達。定價為每百萬字元 $4.20。

同一技術棧已驅動特斯拉與 Starlink

xAI 強調，兩項 API 背後並非全新研發的技術，而是已在 Grok Voice、特斯拉車輛語音互動，以及 Starlink 客戶支援系統中實際執行的相同基礎設施。

這套基礎設施首先在 2025 年底以 Grok Voice Agent API 的形式亮相，當時提供即時語音對話代理能力，並在 Big Bench Audio 基準測試中排名第一，首次音訊回應時間低於 1 秒，約為最近競爭對手的 5 倍速度。

此次推出的 STT 和 TTS 獨立端點，等於將這套整合式語音管道的個別元件拆分開放，讓開發者可以依需求組合。

Google 上線 Gemini 3.1 Flash TTS：音訊標籤讓 AI 配音更生動、支援 70+ 語言，Google AI Studio 免費體驗

Gemini App 正式登陸 Mac 桌面：Option+Space 一鍵喚醒，螢幕共享讓 AI 直讀資料

馬斯克 Terafab 來台挖角！三倍薪找 2 奈米與 CoWoS 人才；台積電魏哲家：這行沒有捷徑

喜歡特斯拉聲音？xAI 正式開放 Grok 語音 API，TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

喜歡特斯拉聲音？xAI 正式開放 Grok 語音 API，TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs

STT：詞級時間戳＋說話者區分，批次轉錄每小時僅 0.1 美元

TTS：5 種語音個性＋語音標籤，每百萬字元 4.2 美元

同一技術棧已驅動特斯拉與 Starlink

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類