Google 於 15 日推出 Gemini 3.1 Flash TTS,在 Artificial Analysis TTS 排行榜拿下 Elo 1,211 高分、新增「音訊標籤(Audio Tags)」功能,讓開發者透過自然語言精準控制 AI 語音的節奏、語氣與口音;模型支援 70 多種語言,同步於 Gemini API、Google AI Studio、Vertex AI 及 Google Vids 上線。
(前情提要:Google最強生圖模型Gemini 2.5 Flash Image(Nano Banana)免費開放,超狂效果一次看)
(背景補充:Google Gemini 2.0 來了!三款模型差異一次看、免費開放更強推理能力 Flash Thinking 試用)
Google 這次把火力轉向語音領域,Gemini 3.1 Flash TTS 於 15 日正式亮相,帶著「音訊標籤」這張新牌,要讓開發者像電影導演一樣,用文字指令就能精準排程 AI 聲音的每個細節。
根據 Google 官方公告,Gemini 3.1 Flash TTS 即日起分三條線同步推出:開發者可透過 Gemini API 與 Google AI Studio 搶先體驗;企業使用者透過 Vertex AI 存取;Google Workspace 及個人帳戶使用者則可在 Google Vids 中直接使用,新增 16 種支援語言一並上線。
Elo 1,211 高分評價
品質面,Google 直接祭出第三方資料佐證:在 Artificial Analysis TTS 排行榜(收集數千筆盲測人類偏好)上,3.1 Flash TTS 拿下 Elo 1,211 的成績,並被歸入「最具吸引力象限」,意指同時具備高品質語音生成與低成本優勢。支援語言覆蓋 70 種以上,並原生支援多說話者對話場景。
音訊標籤:把導演席交給開發者
這次最核心的技術更新是「音訊標籤(Audio Tags)」,讓開發者將自然語言指令直接嵌入文字輸入,對 AI 語音進行細粒度控制,不再只能靠模型猜測語氣。Google 將整套體驗拆成三個層次:
場景導向:開發者定義環境背景、給出具體對話指令,讓不同角色在多輪對話中保持「入戲」狀態,語氣自然銜接。
說話者層級精確度:透過獨特的 Audio Profiles 塑造角色聲線,再用 Director’s Notes 動態切換節奏、語氣、口音;Inline Tags 則允許說話者在句子中途臨時改變表達方式。
無縫匯出:確認表演引數後,可直接匯出為 Gemini API 程式碼,確保跨專案、跨平台輸出一致的聲音識別度。
StyleUAI、HeyGen、Invideo AI、Sierra 等多家早期測試企業對此給予正面回饋,能將普通文字轉化為具備情感層次的聲音表演。
SynthID 水印,全面標記 AI 生成音訊
同時 Gemini 3.1 Flash TTS 生成的所有音訊均內建 SynthID 水印。這是一種難以察覺、直接交織進音訊波形的隱形標記,可被系統可靠偵測,有助於辨識 AI 生成內容並防範錯誤訊息傳播。這也是 Google 持續推進 AI 內容溯源機制的一部分。
整體而言,3.1 Flash TTS 的定位清晰:以「高品質、低成本、強可控」三角補全 Gemini 生態系在語音端的拼圖,而音訊標籤的推出,則是把過去只存在於專業錄音棚的導演式語音控制,以 API 的形式向全球開發者平民化開放。
📍相關報導📍
Google最強生圖模型Gemini 2.5 Flash Image(Nano Banana)免費開放,超狂效果一次看
Nano Banana 2 來了!支援 4K 強化角色一致性,Gemini 生圖更快更精準
Google Gemini 2.0 來了!三款模型差異一次看、免費開放更強推理能力 Flash Thinking 試用

