Google 發表最強多模態影音模型「Gemini Omni」！支援對話式無縫修片，本週免費登陸 YouTube

動動嘴就能剪影片！Google 於 I/O 2026 開發者大會上，重磅發布全新的多模態影音模型「member」。這款被視為殺手級應用的 AI 模型，不僅能從文字、圖片、語音生成物理保真度極高的影片，更具備強大的「對話式編輯」能力，能精準修改影片視角與動作。Gemini Omni Flash 版本即日起對付費用戶開放，本週也將免費進駐 YouTube Shorts。
（前情提要：Google新推AI筆電Googlebook：深度整合Gemini，合作Acer、ASUS、Dell、HP和Lenovo今秋上市）
（背景補充：Google 推出最強「自主代理與程式開發」模型 Gemini 3.5 Flash！12 小時寫出作業系統，成本不到 1000 美元）

在今日盛大舉行的 Google I/O 2026 開發者大會上，曾多次以各種洩漏形式引發熱議的超強多模態模型 —— Gemini Omni，終於正式在全球觀眾面前亮相。

這款專注於「影片生成與編輯」的新一代模型，被外界視為 Google 整合旗下頂尖 AI 媒體生成系統的集大成之作，預計將對現有的影音創作生態帶來核彈級的影響。

Gemini Omni Flash is rolling out starting today.

Here’s where you can find it:

🔹 Today: Google AI Plus, Pro and Ultra subscribers globally in the @GeminiApp and @FlowbyGoogle .

🔹Rolling out starting this week, for no cost: @YouTube Shorts and the YouTube Create app.… pic.twitter.com/07lAavqy2G

— Google (@Google) May 19, 2026

三大核心亮點：從無中生有到對話式編輯

根據官方展示，Gemini Omni 展現了令人驚豔的「世界理解」與物理保真度，其主要功能亮點包括：

全能的生成與混剪（Remix）：打破單一輸入限制，用戶可以透過純文字、圖片、音訊、現有影片，甚至是「手繪草圖」作為起點，讓 AI「從任何輸入創造出任何內容」。
革命性的「對話式編輯」：這項功能允許用戶直接在聊天介面中，用自然語言下達修改指令。例如要求 AI「改變攝影機視角」、「調整為黃昏光線」或「替換畫面中的物件」。AI 會基於前一次的結果進行多輪迭代，同時完美保持人物的一致性與物理法則。
高保真物理模擬：在早期 Demo 中，無論是教授在黑板上寫數學證明，還是兩個人吃義大利麵的複雜自然互動，Gemini Omni 都展現出極高的文本一致性與真實感。

Edit your own videos with Gemini Omni with just a conversation. 🎥

Prompt the changes you want to see to reimagine the action, change the point of view, or adjust the lighting over multiple turns.

Every instruction builds on the last, so your characters stay consistent, the… pic.twitter.com/irsFXVAk54

— Google (@Google) May 19, 2026

上線時程規劃：付費用戶即日啟用，開發者 API 隨後跟上

為了讓創作者盡快體驗這項顛覆性的技術，Google 也公布了 Gemini Omni 的分階段釋出計畫：

即日起上線：Google AI Plus、Pro 以及 Ultra 的訂閱用戶，現在已可於 Gemini App 與 Flow by Google 中，搶先體驗 Gemini Omni Flash 版本。
本週免費登陸：對於一般用戶與創作者，Google 將於本週起將該功能免費整合至 YouTube Shorts 與 YouTube Create App 中。
未來規劃：後續將透過 API 形式，正式面向全球開發者與企業用戶開放。

業界分析指出，Gemini Omni 可能是基於 Google 最強的影片生成模型 Veo（如 Veo 3.1）進行擴展，但它不再只是單一的影片管道，而是更強調圖、文、影、音「無縫融合」的統一多模態體驗。為確保安全性，目前透過 Gemini 生成的影片皆附有安全浮水印（Watermarks）並受到嚴格的內容限制規範。

Google Translate 最強對手 DeepL 裁員 25%！執行長：轉型「AI 原生」公司，人類員工未來只做創意

WSJ：Google 密會 SpaceX 洽談推進「軌道 AI 數據中心」，馬斯克百萬衛星大軍迎史詩級 IPO

Google 發表最強多模態影音模型「Gemini Omni」！支援對話式無縫修片，本週免費登陸 YouTube

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

Google 發表最強多模態影音模型「Gemini Omni」！支援對話式無縫修片，本週免費登陸 YouTube

三大核心亮點：從無中生有到對話式編輯

上線時程規劃：付費用戶即日啟用，開發者 API 隨後跟上

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類