AI 語音客服市場迎來重量級破壞者!馬斯克領軍的 xAI 於今(1)日正式發布「Voice Agent Builder」Beta 版,主打完全無程式碼(No-code)操作,讓用戶在短短 2 分鐘內就能建置出具備企業級水準的 AI 語音代理。該平台採用端到端語音架構,不僅在最新基準測試中擊敗了 GPT 與 Gemini,更支援 2 分鐘極速語音克隆與真實電話號碼串接,每分鐘算力成本僅需 0.05 美元。
(前情提要:傳奇投資人開砲:SpaceX 不是 AI 公司、xAI 是「徹底翻車」11 位共同創辦人全走光)
(背景補充:SpaceX 首發投資級公司債「狂吸 890 億鎂」!超額認購近 4 倍,馬斯克為 xAI 與星艦鋪路)
馬斯克(Elon Musk)旗下的 xAI 再度向科技巨頭們發起猛烈攻勢。2026 年 7 月 1 日,xAI 官方正式宣布推出 Voice Agent Builder(語音代理建置器) 的 Beta 版本,宣告將高效能的 Grok Voice 模型正式帶入企業生產環境,且大幅降低了技術門檻。
這款專為處理高頻率、高負載通話需求(如客服、銷售、預約)設計的平台,主打「一體化」與「無程式碼(No-code)」,讓運營人員無需從頭搭建複雜的語音堆疊,就能獲得開箱即用的完整功能。
拋棄拼裝車,端到端架構擊敗 GPT 與 Gemini
在過去,企業若要建置 AI 語音客服,通常需要將語音轉文字(STT)、大型語言模型(LLM)與文字轉語音(TTS)三個獨立系統串接在一起。這種「拼裝車」架構不僅增加了多跳點的延遲,也大幅提高了錯誤率與營運成本。
xAI 的 Voice Agent Builder 徹底顛覆了這點。它採用了與 Grok Voice 緊密耦合的端到端 Speech-to-Speech 單一語音路徑。官方強調,Grok Voice 是使用真實且「最困難」的通話情境訓練而成,能夠完美應對低品質的電話雜音、強烈口音、用戶中途打斷,甚至是講話到一半改變心意的模糊指令,並原生支援 25 種以上的語言。
在最新公布的語音基準測試 $\tau$-voice Bench 中,Grok Voice Think Fast 1.0 版本在排行榜上大獲全勝,其反應速度與推理能力直接超越了強敵 Google 的 Gemini 3.1 Flash Live 以及 OpenAI 的 GPT Realtime 1.5。
2 分鐘建置流程與四大核心功能
xAI 強調,只需不到 2 分鐘,用戶就能透過自然語言提示(Prompt)在平台上設定好專屬的語音代理。以下為平台提供的核心功能與計價拆解:
| 功能模組 | 技術規格與支援細節 |
|---|---|
| 知識庫 (Knowledge Base) | 支援上傳 Word、Excel、PDF、JSON 等多種格式,並可整理成跨代理共享的集合(Collections),確保產品規格與政策的一致性。 |
| 工具與動作 (Tools & Connectors) | 內建串接 Google/Outlook 日曆、Web 搜尋、X (Twitter) 搜尋及 Notion。支援轉接真人客服、結束通話與即時團隊通知。 |
| 語音與電話 (Voice & Telephony) | 提供 80+ 內建語音,支援僅需 2 分鐘音訊即可完成的「品牌語音克隆」。可免費獲取電話號碼或透過 SIP 串接現有總機。 |
| 透明計價 (Pricing) | 算力 API 費用為 0.05 美元 / 分鐘(免額外平台費)。若使用 xAI 免費提供的電話號碼,則額外收取 0.01 美元 / 分鐘的通訊費。 |
即時可觀測性與安全護欄
對於企業級用戶而言,安全與風控至關重要。Voice Agent Builder 內建了強大的監控(Observability)機制與安全護欄(Guardrails)。每通電話皆會自動錄音並生成逐字稿,管理員可以隨時查看 AI 使用過哪些工具,並設定嚴格的對話邊界(例如:強制禁止 AI 讀出客戶的信用卡卡號,或禁止與用戶聊離題的政治話題)。
xAI 在公告最後向全球開發者與企業主發出挑戰:「用耳朵判斷比看基準測試更準確——建一個代理,用你最困難的工作流程打電話試試看。」目前該平台已於 xAI Console 正式上線開放試用,預計將對傳統客服軟體產業造成巨大的板塊衝擊。

📍相關報導📍
馬斯克再吞敗仗!美國法官駁回 xAI 對 OpenAI 商業秘密訴訟
