• 【超完整懶人包】認識比特幣!原理與應用全面解析|動區新手村
  • Account
  • Account
  • BlockTempo Beginner – 動區新手村
  • Change Password
  • Forgot Password?
  • Home 3
  • Login
  • Login
  • Logout
  • Members
  • Password Reset
  • Register
  • Register
  • Reset Password
  • User
  • 不只加密貨幣,談談那些你不知道的區塊鏈應用|動區新手村
  • 動區動趨 BlockTempo – 最有影響力的區塊鏈新聞媒體 (比特幣, 加密貨幣)
  • 所有文章
  • 最完整的「區塊鏈入門懶人包」|動區新手村
  • 服務條款 (Terms of Use)
  • 關於 BlockTempo
  • 隱私政策政策頁面 / Privacy Policy
動區動趨-最具影響力的區塊鏈新聞媒體
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
動區動趨-最具影響力的區塊鏈新聞媒體
No Result
View All Result
Home 獨立觀點

多模態視訊生成技術突破,Web3 AI 有何機會?

Foresight News by Foresight News
2025-07-07
in 獨立觀點
A A
多模態視訊生成技術突破,Web3 AI 有何機會?
36
SHARES
分享至Facebook分享至Twitter

當 AI 從過去集中式大規模資源調配逐漸趨於模組化協作是一種對去中心化平臺的新需求。
(前情提要:嘴擼編年史:從私域到公域,再到 AI 的矛與盾之爭 )
(背景補充:Cloudflare 出殺招!預設「封鎖 AI 爬蟲」掀起付費抓取內容新戰爭 )

 

除了 AI 本地化「下沉」之外,AI 賽道近段時間最大的變化莫過於:多模態視訊生成的技術突破了,從原先支援純文字生成視訊演變成文字 + 影象 + 音訊的全鏈路整合生成技術。

隨便說幾個技術突破案例,大家感受下:

1)位元組跳動開源 EX-4D 框架:單目視訊秒變自由視角 4D 內容,使用者認可度達到 70.7%。也就是說,給一個普通視訊,AI 能自動生成任意角度的觀看效果,這在以前需要專業的 3D 建模團隊才能搞定;

2)百度「繪想」平臺:一張圖生成 10 秒視訊,宣稱可以達到「電影級」品質。但是不是由行銷包裝誇大的成分,要等 8 月份的 Pro 版本更新後實際看效果;

3)Google DeepMind Veo:可以達到 4K 視訊 + 環境音的同步生成。關鍵技術亮點是「同步」能力的達成,之前都是視訊和音訊兩套系統拼接,要能做到真正語義層面的匹配需要克服較大的挑戰,比如複雜場景下,要做到畫面中走路動作和腳步聲的對應音畫同步問題;

4)抖音 ContentV:80 億引數,2.3 秒生成 1080p 視訊,成本 3.67 元 /5 秒。老實說這個成本控制的還可以,但目前生成品質看,遇到複雜的場景還差強人意;

為什麼說這些案例在視訊品質、生成成本、應用場景等方面的突破,價值和意義都很大?

1、技術價值突破方面,一個多模態視訊生成的複雜度往往是指數級的,單幀影象生成大概 10^6 個畫素點,視訊要保證時序連貫性(至少 100 幀),再加上音訊同步(每秒 10^4 個取樣點),還要考慮 3D 空間一致性。

綜合下來,技術複雜度可不低,原本都是一個超大模型硬剛所有任務,據說 Sora 燒了數萬張 H100 才具備的視訊生成能力。現在可以通過模組化分解 + 大模型分工協作來實現。比如,位元組的 EX-4D 實際上是把複雜任務拆解成:深度估計模組、視角轉換模組、時序插值模組、渲染優化模組等等。每個模組專門幹一件事,然後通過協調機制配合。

2、成本縮減方面:背後其實推理架構本身的優化,包括分層生成策略,先低解析度生成骨架再高分辨增強成像內容;快取複用機制,就是相似場景的複用;動態資源分配,其實就是根據具體內容複雜度調整模型深度。

這樣一套優化下來,才會有抖音 ContentV 的 3.67 元 /5 秒的結果。

3、應用衝擊方面,傳統視訊製作是重資產遊戲:裝置、場地、演員、後期,一個 30 秒廣告片幾十萬製作費很正常。現在 AI 把這套流程壓縮到 Prompt+ 幾分鐘等待,而且能實現傳統拍攝難以達到的視角和特效。

這樣一來就把原本視訊製作存在的技術和資金門檻變成了創意和審美,可能會促進整個創作者經濟的再洗牌。

問題來了,說這麼多 web2AI 技術需求端的變化,和 web3AI 有啥關係呢?

1、首先,算力需求結構的改變,以前 AI 拼算力規模,誰有更多同質化的 GPU 叢集誰就贏,但多模態視訊生成需求的是多樣化的算力組合,對於分散式的閒置算力,以及各個分散式微調模型、演算法、推理平臺上都可能產生需求;

2、其次,資料標註的需求也會加強,生成一個專業級視訊需要:精準的場景描述、參考影象、音訊風格、攝像機運動軌跡、光照條件等等都會成為專業的資料標註新需求,用 web3 的激勵方式,可以刺激攝影師、音效師、3D 藝術家等提供專業的資料素,用專業垂類的資料標註增強 AI 視訊生成的能力;

3、最後,值得一說的是,當 AI 從過去集中式大規模資源調配逐漸趨於模組化協作本身就是一種對去中心化平臺的新需求。屆時算力、資料、模型、激勵等共同組合形成自我強化的飛輪,繼而帶動 web3AI 和 web2AI 場景的大融合。

📍相關報導📍

14 所名校爆「秘密指令洗腦 AI」醜聞,早稻田教授:太多人偷懶把論文審稿給 AI..

AI「下沉」是 Web3 的機遇嗎?去中心化何時會變剛需

a16z內部覆盤:AI社交產品或許從根本上就不成立

Tags: AIAI下沈Web3多模態應用普及技術突破開源


關於我們

動區動趨

為您帶來最即時最全面
區塊鏈世界脈動剖析
之動感新聞站

訂閱我們的最新消息

動區精選-為您整理一週間的國際動態

戰略夥伴

Foresight Ventures Foresight News

主題分類

  • 關於 BlockTempo

動區動趨 BlockTempo © All Rights Reserved.

No Result
View All Result
  • 所有文章
  • 搶先看
  • 市場脈動
  • 商業應用
  • 區塊鏈新手教學
  • 區塊鏈技術
  • 數據洞察
  • 政府法規
  • RootData
  • 登入

動區動趨 BlockTempo © All Rights Reserved.