李飛飛談 LLM 下一步：AI 須擁有「空間智慧」才能理解真實世界，Marble 模型如何實現？

World Labs 創辦人，有「AI 教母」美譽的李飛飛接受專訪，討論 AI 需超越語言，發展「空間智慧」，讓機器真正理解並建構 3D 物理世界。
（前情提要：a16z 前合夥人重磅科技報告：AI 如何吞噬世界？）
（背景補充：橋水達利歐：現在拋售AI股票還太早！因為「刺破泡沫的針」還沒上場）

在大型語言模型席捲全球的當下，被譽為「AI 教母」的史丹佛大學教授李飛飛（Fei-Fei Li），已經將目光投向了人工智慧的下一個疆界：空間智慧（Spatial Intelligence）。

在離開 Google Cloud 後，李飛飛創辦了備受矚目的新創公司 World Labs，並推出了首款世界模型產品 Marble。在本次《Eye on AI》的深度訪談中，李飛飛詳細闡述了為何 AI 不能僅止於理解文字，而必須具備「看見」、「感知」並「構建」3D 世界的能力。

本篇訪談觸及了許多核心議題，包括：

超越語言： 為什麼人類知識無法完全被文字捕捉，AI 需要多模態的學習？
技術解密： World Labs 的「RTFM」模型如何僅用一張 GPU 就能生成具備幾何一致性的 3D 世界？
學術觀點： 李飛飛的方法論與 Meta 首席 AI 科學家 Yann LeCun 的世界模型理念有何異同？
未來展望： AI 何時能真正理解物理定律，甚至展現出科學探索的創造力？

以下是本次精彩對話的完整中譯。

主持人： 我不想花太多時間談論 Marble——也就是妳那個能生成讓觀眾在其中移動的、具有一致性和持久性 3D 世界的新模型，雖然它真的很棒。我想更多地探討妳為什麼專注於「世界模型」和「空間智慧」？為什麼這對於超越語言學習是必要的？以及妳的方法與 Yann LeCun（楊立昆）的方法有何不同？

首先能請妳談談，世界模型是從妳在環境智慧（Ambient Intelligence）的研究中衍生出來的，還是一個平行的研究軌道？

李飛飛： 過去幾年我一直在思考的空間智慧工作，確實是我整個職業生涯專注於電腦視覺和視覺智慧的延續。我之所以強調「空間」，是因為我們的技術已經發展到一個程度，其複雜度和深層能力不再僅止於看圖或理解簡單影片。它是深度的感知、空間性的，並且連接到機器人技術、具身 AI 和環境 AI。所

以從這個角度來看，這真的是我在電腦視覺和 AI 領域生涯的延續。

主持人： 關於空間智慧的重要性，我在這個 Podcast 上也談過一陣子。語言模型是從編碼在文字中的人類知識學習的，但那只是人類知識的一小部分。正如妳和其他許多人指出的，人類很多時候是在沒有語言的情況下透過與世界互動來學習的。所以這很重要，儘管目前的 LLM 很驚人，但我們若要超越它們，就需要開發出能更直接體驗世界、直接從世界中學習的模型。

妳的方法——當然 Marble 是個例子——是提取模型學到的世界內部表徵（internal representations），並用這些表徵創造出一個外部的視覺實境。而 LeCun（楊立昆）的方法則是從直接體驗或影片輸入中建立內部表徵，讓模型學習運動物理定律之類的東西。這兩者之間有平行關係嗎？這兩種方法是互補的還是重疊的？

李飛飛： 首先，我其實不會把我與 Yann 對立起來，因為我認為我們都處於通往空間智慧和世界模型的學術光譜上。妳可能讀過我最近發表的長文《空間智慧宣言（Manifesto of Spatial Intelligence）》，我在裡面說得很清楚。我實際上認為，如果我們最終要考慮一個通用的、全能的世界模型，那麼「隱式表徵（implicit representation）」和最終某種程度的「顯式表徵（explicit representation）」——特別是在輸出層——可能都是需要的。它們各自扮演不同的角色。

例如，World Labs 目前的世界模型 Marble 確實會明確輸出 3D 表徵，但在模型內部，除了顯式輸出外，其實也存在隱式表徵。老實說，我認為最終我們兩者都需要。

至於輸入模態，是的，從影片中學習非常重要。整個世界是由大量連續幀數組成的輸入，但對於智慧體或僅僅是動物來說，世界不僅是被動的觀看。它還包含運動、互動、觸覺體驗、聲音、氣味以及物理力、溫度等具身（embodied）體驗。所以我認為這是深度的多模態（multimodal）。

當然，Marble 作為一個模型只是第一步，但在我們幾天前發布的技術文章中，我們很清楚地表明，我們相信多模態既是一種學習範式，也是一種輸入範式。關於這一點有很多學術討論，這也顯示了這個領域早期的興奮感。所以我不會說我們已經完全探索完了確切的模型架構和表徵形式。

主持人： 在妳的世界模型中，輸入主要是影片，然後模型會建立一個世界的內部表徵嗎？

李飛飛： 不完全是。如果你體驗過我們的世界模型 Marble，它的輸入其實非常多模態。你可以使用純文字、單張或多張圖片、影片，也可以輸入粗略的 3D 佈局（如方塊或體素 Voxels）。所以它是多模態的，而且我們會隨著發展繼續深化這一點。

主持人： 除了作為一個擁有許多應用的出色產品外，妳的野心是否在於建立一個系統——就像我說輸入是影片那樣——一個能從直接經驗中學習的系統？無論是透過影片還是其他模態，而不是透過像文字這樣的次級媒介來學習？

李飛飛： 是的，我認為世界模型就是關於學習這個世界，而世界是非常多模態的。無論是機器還是動物，我們都是多重感官的。學習是透過感知進行的，而感知有不同的模態。

文字是其中一種形式。這也是我們與動物不同的地方，因為大多數動物不透過複雜的語言學習，但人類會。不過，今天的 AI 世界模型會從大量的語言輸入以及其他模態中學習，但不會僅僅被限縮在語言這一種管道中。

主持人： LLM 的限制之一是模型參數在訓練後就固定了，模型不會持續學習。雖然在測試推論（inference）時有一定程度的學習，但這也是你們在世界模型中要解決的問題嗎？因為照理說，世界模型在遇到新環境時應該要能持續學習。

李飛飛： 是的，「持續學習（continuous learning）」範式絕對是非常重要的，特別是對生物來說，我們就是這樣運作的。即使在這裡面，也有「線上學習（online learning）」與「離線學習（offline learning）」之分。在我們世界模型目前的形態中，我們仍比較偏向批次或離線學習模式，但我們對於持續學習，特別是最終走向線上學習的模式，絕對是保持開放態度的。

主持人： 那會需要非常不同的架構嗎？還是單純是工程問題？

李飛飛： 我會保持開放心態。我認為會是兩者的混合。顯然，好的工程、好的線上微調（fine-tuning）已經可以實現學習，但也許會有新的架構出現。

主持人： 能談談支撐 Marble 和妳的世界模型工作的即時幀模型（Real-time Frame Model）嗎？

李飛飛： 好的，你指的是我們幾週前發布的一篇技術部落格，裡面特別深入探討了我們的即時幀模型。World Labs 是一個研究比重很高的組織。我們在乎產品，但在現階段，我們很多工作都是「模型優先」。我們絕對致力於推動空間智慧的發展。

這一特定的工作路線——當然與 Marble 有關——主要是專注於如何實現基於幀（frame-based）的生成，並儘可能保持幾何一致性和持久性。因為早期一些基於幀的生成工作，隨著畫面推進會失去這種持久性。但在這個案例中，我們試圖取得平衡，並且以計算效率高的方式進行推論，我們在推論時只使用了一張 H100 GPU。我們不太清楚其他基於幀的模型在推論時用了多少晶片，他們沒透露，但我們推測數量不少。

主持人： 在妳的宣言中，妳提到需要一個「通用任務函數（Universal Task Function）」。這是類似於語言模型中的「下一個 token 預測（next token prediction）」嗎？妳提到的 RTFM 確實有預測元素。除了預測元素外，妳說的通用任務函數是指什麼？

李飛飛： 生成式 AI 最大的突破之一，確實是發現了「下一個 token 預測」這個目標函數。這是一個非常優美的公式，因為語言可以被標記化（tokenized）成這種序列表示。而下一個 token 預測的學習函數，正是你在推論時所需要的——當你生成語言時，無論是人類還是電腦，確實就是一個接一個地輸出 token。擁有一個與最終任務 100% 一致的目標函數是非常棒的，因為它讓優化過程完全精準。

但在電腦視覺或世界模型中，情況沒那麼簡單。我們與語言的關係主要是說或寫，自然界中不存在讓你「盯著看」的語言（雖然你會閱讀，但那是因為它已經被生成了）。語言本質上是人類生成的東西。但我們與世界的關係則更加多模態。有一個外在世界供你觀察、解釋、推理，並最終與之互動。同時，你的「心靈之眼（mind’s eye）」也能構建不同版本的現實和想像，讓你生成故事或想像的世界。這複雜得多。

那麼，定義通用函數的任務或目標函數是什麼？這其實是一個很深刻的問題。是「3D 重建」嗎？有些人可能會爭辯說，世界模型的通用任務就是能夠 3D 重建世界，如果達成了，很多事情就會水到渠成。但你也可以反駁說並非如此，因為大多數動物的大腦不一定會做精確的 3D 重建。老虎或人類不一定能「重建」世界，但我們卻是強大的視覺和空間智慧生物。所以也許這不是正確的任務。

那麼，是像預測下一個 token 那樣的「下一幀預測（next frame prediction）」嗎？這有一定的威力，首先是有大量的訓練數據。其次，為了預測下一幀，你必須學習世界的結構，因為世界不是白雜訊（white noise），幀與幀之間有結構性的連結。如果你做得好，也許這就是正確的通用任務。但也許這也不令人滿意，因為這將世界視為 2D，而世界不是 2D 的。這是否強迫表徵以一種令人不滿意的方式崩塌？即使你說如果做得完美，3D 就隱含在其中，這沒錯，但也非常浪費，因為有了 3D 結構，其實有更多資訊是不必像幀預測那樣丟失的。所以關於這一點還有很多探索空間。

主持人： RTFM 這個名字…我必須問，這是個玩笑嗎？

李飛飛： 這是一個巧妙的雙關語，不是我發明的。我們有一位研究員很擅長取名。你知道的，我不確定能不能說那些字…

主持人： 我來說。Read the fucking manual（去讀那該死的手冊）。

李飛飛： 每個電腦科學家都知道這句話。所以我們覺得玩這個名字很有趣。

主持人： 但這裡的 RTFM 是指預測下一幀，且具有 3D 一致性，對吧？

李飛飛： 是的。

主持人： 關於模型學習到的內部表徵很有趣。就像我坐在這裡看著電腦螢幕，雖然我看不到背面，但我知道螢幕背面長什麼樣子，我腦中有一個內部表徵。妳的模型也能做到這一點，這就是為什麼即便是在 2D 螢幕上，妳也能移動視角看到物體的另一面。這真的讓我很感興趣。

當妳說空間智慧、理解 3D 世界時，這種學習是否包含了物理定律？例如，模型是否理解你不能穿過固體物體？我在某個 Podcast 聽過有人討論用這技術幫助有懼高症的人。如果你創造了一個懸崖的顯式表徵，然後將代理（Agent）或觀眾的視角移到懸崖邊緣之外，它會知道自己不再站在堅實的地面上，還是會浮在空中？

李飛飛： 你描述的情況同時包含了物理和語意（semantic）。當然，掉下懸崖取決於重力定律等。但「穿過牆壁」這件事非常依賴材質和語意——固體與非固體。

目前的 RTFM 模型還沒有專注於物理學。老實說，目前生成式 AI 產出的大部分物理效果都是統計學的結果。如果你看那些生成水流動或樹木移動的影片模型，那不是基於牛頓力學的力和質量，而是基於它看過大量水和葉子以這種方式移動，所以它遵循那個統計模式。

目前 World Labs 仍然專注於生成和探索靜態世界。我們將會探索動態世界，而在那裡，很多也將是統計學習。我不認為今天的 AI（無論是語言還是像素 AI）有能力進行抽象推導並從中歸納出物理學——像是牛頓定律那樣的層次。我們所見的一切都是基於統計的物理和動力學學習。

另一方面，我們可以把這些世界放入物理引擎中。這些引擎（如遊戲引擎）擁有物理定律。最終，這些物理引擎、遊戲引擎和世界生成將會結合進神經引擎中。我甚至不知道該怎麼稱呼它們，也許叫「神經空間引擎（neurospatial engines）」？我認為我們正朝那個方向前進，但現在還很早。

主持人： 我無意讓妳和 Yann 對立。我想表達的是，妳似乎專注於從抽象內部表徵中產生「顯式表徵」，而 Yann 專注於內部表徵和學習本身。我覺得這兩者若能結合會很完美。

李飛飛： 這是可能的。如我所說，我們正在探索兩者。顯式輸出其實是一個非常刻意的策略，因為我們希望對人有用。我們希望對那些正在創作、模擬、設計的人有用。看看今天的產業，無論是做視覺特效（VFX）、遊戲、室內設計、機器人或自駕車模擬、工業數位雙生（digital twins），這些工作流程都非常 3D。我們希望能讓這些模型對人和企業真正派上用場。

主持人： 談到持續學習，現在模型理解景深和其他空間屬性。模型擁有什麼樣的學習能力讓它能生成顯式表徵？因為最終目標是建立一個能隨時間學習的模型。我想像未來的模型可能裝在機器人上，或連接著移動攝影機，它不僅學習看到的場景，還理解空間的物理性。最終結合語言，就會成為非常強大的智慧。這需要持續學習，而不是餵給它有限的數據集。這是妳在思考的方向嗎？

李飛飛： 絕對是。特別是當接近具體應用案例時，如果該案例需要持續學習。持續學習有很多種方式。在語言模型中，將上下文（Context）本身納入考量就是一種持續學習（作為記憶），這有助於推論。當然還有線上微調等方法。我認為在空間智慧中，無論是客製化情境下的機器人、擁有特定風格的藝術家或創作者，這些最終都會推動技術在該應用案例所需的時間範圍內做出反應。有些是即時的，有些可能在時間上比較分段。

主持人： 從妳在紐澤西經營乾洗店（我記得是這樣）到現在，妳在很短的時間內走了很長一段路，現在進展非常快。妳對五年後的技術有什麼預測嗎？模型會內建物理引擎嗎？或者有能力在更長的時間框架內學習並建立更豐富的內部表徵，開始理解物理世界？

李飛飛： 是的，作為科學家，我很難給出精確的時間預測，因為有些技術發展比我想像的快，有些則慢得多。但我認為這是一個很好的目標。而且，五年其實是一個合理的推測。我不知道會不會更快，但在我心中，這比猜測 50 年或 5 個月來得更合理。

主持人： 能談談為什麼妳認為空間智慧是下一個疆界嗎？我們已經說過，文字僅包含人類知識的一小部分，妳不能指望 AI 僅透過文字理解世界。能談談這為何重要，以及 Marble 和 World Labs 如何關聯到這個更大的目標？

李飛飛： 從根本上說，技術應該幫助人類。同時，理解智慧本身的科學，對我來說是最迷人、大膽且雄心勃勃的科學探索，這是 21 世紀的探索。無論是被科學的好奇心驅使，還是被利用技術助人的動機驅使，都指向一個事實：我們的智慧以及運作中的智慧，很多都超越了語言。

我曾半開玩笑地說，你不能用語言來滅火。在我的宣言中，我舉了一些例子，無論是 DNA 雙螺旋結構的空間推理，還是急救人員在瞬息萬變的情況下與隊友合作滅火。很多這些都超越了語言。因此，無論是從應用角度還是科學探索角度，很明顯我們應該盡最大努力解鎖空間智慧技術。這是 3 萬英尺高空的宏觀視角。

更深入來看其實用性，無論是創意、模擬、設計、沉浸式體驗、教育、醫療或製造業，空間智慧能做的事情太多了。我很高興看到許多思考教育和沉浸式學習的人告訴我，Marble 的首次發布啟發了他們思考如何創造更有互動性和趣味性的學習體驗。這很自然，因為還不會說話的孩子完全是透過沉浸式體驗來學習的。即使是成年人，我們的生活也沉浸在這個世界中，包含「做」、互動和享受。

主持人： 大家都很驚訝 Marble（或 RTFM）只需要一張 H100 GPU 就能運作。我聽過妳在其他演講中提到體驗「多重宇宙（multiverse）」，大家本來很興奮，直到意識到那需要多大的算力和多昂貴的成本。妳真的認為這（降低運算負載）是邁向創造教育等用途世界的一步嗎？

李飛飛： 不僅如此。首先，我深信在推論方面，我們會加速、更有效率，品質會更好、更大，體驗會更長。這是技術趨勢。我也確實相信多重宇宙體驗。人類歷史至今，我們的世界體驗都在這一個物理地球上。只有極少數人去過月球。

隨著數位革命，我們將部分生活移往數位世界。我不想描繪一個我們拋棄物理世界的反烏托邦（dystopian）畫面，也不想描繪一個每個人都戴著頭盔、不再看真實世界的過度誇張的烏托邦。我拒絕這兩種極端。但務實地說，數位世界是無邊界的，它提供了物理世界無法允許的維度和體驗。

例如學習化學，我記得大學化學課要排列分子、理解分子結構的不對稱性，我多希望能以沉浸式的方式體驗。還有創作者，我意識到他們腦中有無數種說故事的方式，但受限於工具。使用傳統引擎可能需要數週才能表達一個場景。如果我們允許人們像使用物理世界一樣使用數位宇宙來實驗、迭代、溝通、創造，那會有趣得多。

數位時代也幫助我們打破勞動力的物理界限。我可以想像創作者透過具身機器人或是數位空間，跨越全球進行協作。電影也會完全改變，不再只是被動體驗。所有這些都需要多重宇宙。

主持人： 妳談到的又是創造可讓人們體驗的顯式 3D 空間表徵。妳的模型在顯式投射之前，對這些空間的理解程度有多少？比起產品化，我更在乎的是建立一個真正理解世界的 AI——不僅是物理定律，還包括它看到了什麼、其價值或用途。妳認為目前有多少理解力？還需要發生什麼才能讓模型真正理解世界？

李飛飛： 好問題。「理解（understanding）」是一個很深刻的詞。當 AI 理解某事時，它本質上與人類的理解不同。人類有意識和自我覺察，並具備肉身。例如，當我們理解「朋友很開心」時，不只是抽象理解，身體還會有化學反應。

AI 的理解不同，它是一種正確賦予意義並連結意義的能力。例如在 Marble 的進階模式中，你可以編輯世界，說「我不喜歡這個粉紅沙發，把它改成藍色」。它改了。它是否理解「藍色沙發」這個層次？它理解，否則它改不了。但它是否像妳我那樣理解沙發的功能、記憶、用途（affordance）？不，它沒有。它被限制在模型需要做的事情上——創造一個有藍色沙發的空間。所以我認為 AI 確實「理解」，但別把它與擬人化的人類層次理解混為一談。

主持人： 我看過妳與 Peter Diamandis 和 Eric Schmidt 在沙烏地阿拉伯的對談。提到如果愛因斯坦發現相對論之前有 AI，AI 能推理出那個發現嗎？AI 要具備科學推理的創造力還缺少什麼？這似乎應該是觸手可及的。

李飛飛： 這是一個好問題。我認為我們離 AI 推導出 DNA 雙螺旋結構比推導出狹義相對論更近。因為雙螺旋結構的表徵更基於空間和幾何。而狹義相對論是在抽象層面上，不只是用無限的文字表達。物理學將概念（如質量、力）抽象化到一個因果層次，這不再只是純粹的統計模式生成。我還沒看到今天的 AI 能將大量數據抽象化到那種變數或關係的層次。也許我錯了，但我還沒聽說有任何工作做到了這種程度的抽象化。在 Transformer 架構中，我還沒看到那種抽象化能從何而來。

主持人： 妳使用了 Transformer 模型。我一直在和人討論「後 Transformer 架構（post-transformer architectures）」。妳是否預期會有某種架構上的突破，能解鎖這些能力？

李飛飛： 我有預期。我確實認為我們會有架構上的突破。我不認為 Transformer 是 AI 的最後一項發明。人類歷史雖短，但我們從未停止創新。

主持人： 妳曾說過，如果能讓 AI 系統標註或描述圖片，那將是妳職業生涯的巔峰。當然妳已經遠遠超越了那一點。妳現在想像中未來的職業生涯成就是什麼？

李飛飛： 我認為解鎖空間智慧，創造一個能真正連結「感知」與「推理（空間推理）」、「看」與「做（包含規劃）」，以及「想像」與「創造」的模型，那將是不可思議的。一個能同時做到這三者的模型。

主持人： 問幾個輕鬆的問題。妳最喜歡的食物是什麼？

李飛飛： 我先生是義大利人，他是個很棒的廚師，也是位傑出的 AI 科學家。所以我愛義大利菜。當我們不偏袒任何一方時，我們家喜歡吃日本料理。

主持人： 妳的私房樂趣（guilty pleasure）是什麼？在飛機上會看言情小說或追劇嗎？

李飛飛： 這是個好問題。首先我沒太多閒暇時間。但我有個私房樂趣，我想我沒告訴過任何人。如果在飛機上真的很累，我會看《宅男行不行》（The Big Bang Theory）。我愛那個節目。我畢業於加州理工學院（Caltech），主修物理。那個節目的一切，那些角色，讓我非常有共鳴。如果我筋疲力盡，我就看那個。

主持人： 妳能看懂那些笑點，對吧？

李飛飛： 天啊，我愛每一個笑話和每一個角色，那些劇裡的書呆子們。