本文整理 Meta 首席 AI 科學家、圖靈獎得主楊立昆(Yann LeCun)與 NVIDIA 首席科學家 Bill Dally 的公開對談逐字稿。LeCun 解釋為何他認為大型語言模型 (LLM) 永遠無法真的實現 AGI?
(前情提要:OpenAI 發佈 o3 與 o4-mini 最強推理模型:能思考圖片、自動選用工具,數學、編碼性能再突破)
(背景補充:OpenAI 傳秘密打造「自家社群平台」,劍指死對頭馬斯克的 X)
當大型語言模型 (LLM) 正在加速推動世界擁抱 AI 的當下,被譽為卷積神經網路之父、現任 Meta 首席 AI 科學家的楊立昆(Yann LeCun)近期卻語出驚人地表示,他對 LLM 的興趣已減退,甚至認為這類模型已接近發展瓶頸,在人工智慧社群引發廣大討論。
在輝達 GTC 大會上,楊立昆與 NVIDIA 首席科學家 Bill Dally 的深度對談中,他詳述了對 AI 未來發展方向的獨到見解,強調理解物理世界、持久記憶、推理與規劃能力,以及開源生態的重要性,才是引領下一波 AI 革命的關鍵,下文為您做逐字稿完整編譯。
Bill Dally: Yann,過去一年 AI 領域發生了很多有趣的事情。在你看来,過去一年最令人興奮的發展是什麼?
Yann LeCun: 多到數不清,但我告訴你一件事,可能會讓你們中的一些人感到驚訝。我對大型語言模型(LLM)不再那麼感興趣了。
LLM 已經有點步入尾端,它們掌握在產業的產品人員手中,只是在邊際層面上進行改進,試圖獲取更多數據、更多計算能力、生成合成數據。我認為在四個領域有更有趣的問題:
如何讓機器理解物理世界、如何讓它們擁有持久性記憶,這一點沒有太多人談論、最後兩個是,如何讓它們進行推理和規劃。
當然,有一些努力讓 LLM 進行推理,但在我看來,這是一種非常簡化的看待推理的方式。我認為可能有更好的方法來做到這一點。所以,我對那些科技社群中的很多人可能五年後才會感到興奮的事情感到雀躍。但現在,它們看起來不那麼令人興奮,因為它們是一些晦澀的學術論文。
世界模型與物理世界的理解
Bill Dally: 但如果不是 LLM 在推理物理世界、擁有持久性記憶和規劃,那會是什麼呢?底層模型會是什麼?
Yann LeCun: 所以,很多人正在研究世界模型。什麼是世界模型?
我們所有人的腦海中都有世界模型。這基本上是讓我們能夠操縱思想的東西。我們有一個關於當前世界的模型。你知道如果我從上面推這個瓶子,它很可能會翻倒,但如果我從底部推它,它會滑動。如果我壓得太用力,它可能會爆開。

我們擁有關於物理世界的模型,這是在我們生命的最初幾個月獲得的,這使我們能夠應對真實世界。應對真實世界比應對語言要困難得多。我們需要的系統架構,要能夠真正處理真實世界的系統,與我們目前處理的完全不同。LLM 預測 token,但 token 可以是任何東西。我們的自動駕駛汽車模型使用來自感測器的 token,並產生驅動車輛的 token。在某種意義上,它是在推理物理世界,至少是關於哪裡開車安全以及你不會撞到柱子。
Bill Dally: 為什麼 token 不是表示物理世界的正確方式?
Yann LeCun: Token 是離散的。當我們談論 token 時,我們通常指的是一個有限的可能性集合。在典型的 LLM 中,可能的 token 數量大約在 10 萬左右。當你訓練一個系統來預測 token 時,你永遠無法訓練它預測出文本序列中確切跟隨的 token。
你可以產生一個關於你字典中所有可能 token 的機率分佈,這只是一個包含 10 萬個介於零和一之間且總和為一的數字的長向量。我們知道如何做到這一點,但我們不知道如何處理影片,處理那些高維度且連續的自然數據。每一次試圖讓系統理解世界或建立世界的心理模型,通過訓練它預測像素級別的影片,基本上都失敗了。
即使是訓練一個像某種神經網路的系統來學習圖像的良好表示,所有通過從損壞或轉換過的版本重建圖像的技術都失敗了。它們有點效果,但不如我們稱之為聯合嵌入(joint embedding)的替代架構效果好,後者基本上不試圖在像素級別進行重建。它們試圖學習圖像、影片或正在訓練的自然訊號的抽象表示,以便你可以在該抽象表示空間中進行預測。
Yann LeCun: 我經常使用的例子是,如果我拍攝這個房間的影片,移動攝影機並停在這裡,然後要求系統預測該影片的後續內容,它可能會預測這是一個房間,裡面坐著人等等。它無法預測你們每個人長什麼樣子。這從影片的初始片段來看是完全不可預測的。
世界上有很多事情就是無法預測的。如果你訓練一個系統在像素級別進行預測,它會把所有資源都花在試圖找出它根本無法發明的細節上。這完全是浪費資源。我們嘗試過的每一次,而且我已經研究這個 20 年了,通過預測影片來使用自我監督學習訓練系統都行不通。只有在表示層面進行才有效。這意味著那些架構不是生成式的。
Bill Dally: 如果你基本上是說 transformer 沒有這個能力,但是人們有 vision transformer 並且得到了很好的結果。
Yann LeCun: 我不是這個意思,因為你可以為此使用 transformer。你可以在那些架構中放入 transformer。只是我談論的那種架構被稱為聯合嵌入預測架構(joint embedding predictive architecture)。所以,取一段影片或一張圖片或其他什麼,通過一個編碼器運行它,你得到一個表示,然後取該文本、影片或圖像的轉換版本的後續部分,也通過一個編碼器運行它,現在嘗試在那個表示空間中進行預測,而不是在輸入空間中進行。
你可以使用相同的訓練方法,即填空,但你是在這個潛在空間(latent space)而不是在原始表示中進行。
Yann LeCun: 困難點在於,如果你不小心並且不使用聰明的技術,系統會崩潰。它會完全忽略輸入,只產生一個恆定的、對輸入資訊量不大的表示。直到五六年前,我們沒有任何技術可以防止這種情況發生。
現在,如果你想將此用於一個具備代理性(agentic)的系統,或者一個能夠推理和規劃的系統,你需要的是一個預測器。當它觀察到一段影片時,它會對世界的狀態、世界的當前狀態有一些概念,而它需要做的是預測,假設我可能採取一個我正在想像的行動,世界的下一個狀態會是什麼。
所以,你需要一個預測器,給定世界的狀態和你想像的一個行動,可以預測世界的下一個狀態。如果你有這樣一個系統,那麼你就可以規劃一系列行動以達到特定的結果。這是我們所有人進行規劃和推理的真正方式。我們不是在 token 空間中進行的。
Yann LeCun: 讓我舉一個非常簡單的例子。現在有很多所謂的代理性推理系統,它們的工作方式是,它們使用隨機生成不同 token 的方式,生成大量大量的 token 序列,然後有第二個神經網路試圖從所有生成的序列中選擇最好的那個。這有點像在不知道如何編寫程式的情況下編寫程式。
你編寫一個隨機程式,然後測試所有程式,保留那個實際給你正確答案的程式,這完全是沒希望的。
Bill Dally: 嗯,實際上有一些關於超優化(super-optimization)的論文建議正是這樣做。
Yann LeCun: 對於短程式,你當然可以,但隨著長度呈指數級增長,過了一段時間後,就完全沒希望了。
筆者補充我的理解:簡單來說,目前 LLM 模型玩的是機率遊戲,從眾多文字選擇中挑出可能最好的答案。但是 Yann LeCun 認為現實世界變數太多太複雜,下一步的模型應該做到的事能自行預測未來。就像小孩子從生活中學習到放開球它會掉到地上、接近火會覺得燙…孩子雖然不了解背後原理,但他可以從生活經驗中或獲得預測能力。
AGI/AMI 的展望與挑戰
Bill Dally: 那麼,很多人說 AGI,或者我想你會稱之為 AMI,即將到來。你的看法是什麼?你認為它什麼時候會出現,以及為什麼?差距在哪裡?
Yann LeCun: 我不喜歡 AGI 這個詞,因為人們用這個詞來指代具有人類水平智能的系統,而可悲的是,人類智能是超級專業化的。所以,稱之為通用(general)是個用詞不當。我更喜歡 AMI 這個短語,意思是先進機器智能(advanced machine intelligence)。
這只是詞彙問題,我認為我描述的那個概念,即能夠學習世界的抽象心智模型並將其用於推理和規劃的系統,我認為我們很可能在三到五年內能夠很好地掌握如何讓它至少在小規模上運作。然後,這將是一個擴大規模的問題,直到我們達到人類水平的 AI。
Yann LeCun: 事情是這樣的:在 AI 的歷史上,一代又一代的 AI 研究人員發現了一種新的範式,並聲稱就是這樣了。十年內,我們將擁有達到人類水平的智能。我們將擁有在所有領域都比人類更聰明的機器。這種情況已經持續了 70 年,大約每 10 年就有一次這樣的浪潮。
當前的浪潮也是錯誤的。那種認為你只需要擴大 LLM 的規模,或者讓它們生成數千個 token 序列並選擇好的那些,就能達到人類水平的智能,並且在幾年內,你將在一個數據中心擁有一個充滿天才的國度,引用某位不願透露姓名的人的話,這是胡說八道。完全是胡說八道。
當然,對於許多應用來說,不久的將來的系統將達到博士水平,如果你願意這樣說的話,但在整體智能方面,不,我們還差得很遠。不過當我說很遠的時候,它可能在十年左右發生。
Bill Dally: 這並不算太遠。AI 已經以多種方式應用,改善了人類的狀況,使人們的生活更輕鬆。你認為 AI 的哪個應用最引人注目且最有優勢?
Yann LeCun: 我認為 AI 對科學和醫學的影響可能會比我們目前能想像的要大得多,儘管它已經相當大了。不僅僅是在蛋白質折疊和藥物設計等研究方面,而且在理解生命機制方面也是如此。並且有很多短期的後果。現在在美國,當你進行醫學影像處理時,通常會涉及 AI。如果是乳房 X 光檢查,它很可能已經用深度學習系統進行了預篩選以檢測腫瘤。如果你去 MRI 機器,你在那台 MRI 機器中必須花費的時間減少了四倍左右,因為我們現在可以用更少的數據恢復高解析度的 MRI 影像。所以有很多短期的後果。
Yann LeCun: 當然,我們每一輛汽車,而 NVIDIA 是這方面的大供應商之一,現在都至少配備了駕駛輔助系統或自動緊急煞車系統。這些在歐洲幾年前就已經是強制性的了。這些東西將碰撞減少了 40%。它們拯救了生命。這些都是巨大的應用。
顯然,這不是生成式 AI;這是感知,現在還有一些針對汽車的控制。LLM 在現有或未來幾年內在工業和服務業等領域有很多應用,但我們也必須考慮到其局限性。要部署和實施達到預期準確性和可靠性水平的系統,比大多數人想像的要困難得多。對於自動駕駛來說,情況確實如此。達到 L5 級自動駕駛的時間表一直是一個不斷後退的地平線。我認為情況會是一樣的。AI 通常失敗的地方,不是在基本技術或華麗的演示中,而是在你實際必須部署它、應用它並使其足夠可靠以與現有系統集成時。
這就是它變得困難、昂貴且耗時超出預期的原因。
Bill Dally: 當然,在像自動駕駛汽車這樣的應用中,它必須始終正確,否則有人可能會受傷或死亡,準確性水平必須幾乎完美。但有許多應用,如果它大部分時間都能做對,就非常有益。即使是一些醫療應用,有醫生進行二次檢查,或者當然還有娛樂和教育,你只想利大於弊,而且出錯的後果不是災難性的。
Yann LeCun: 當然。對於大多數這些系統來說,最有用的系統是那些讓人們更有效率、更有創造力的系統。例如,輔助他們編碼的編碼助手。在醫學上是這樣,在藝術上是這樣,在生成文本方面也是這樣。AI 並不是在取代人;它是在給他們提供強大的工具。
嗯,它可能在某個時候會取代,但我認為人們不會接受。我們與未來 AI 系統,包括超級智能的關係是,我們將成為它們的老闆。我們將擁有一群超級智能的虛擬人為我們工作。我不知道你怎麼樣,但我喜歡和比我聰明的人一起工作。這是世界上最棒的事情。
Bill Dally: 那麼,反過來說,就像 AI 可以通過多種方式造福人類一樣,它也有黑暗面,人們會將其應用於製造深度偽造(deep fakes)和假新聞,如果應用不當,會造成情感困擾。你對 AI 的使用最大的擔憂是什麼?我們如何減輕這些擔憂?
Yann LeCun: Meta 非常熟悉的一件事是,使用 AI 作為對抗攻擊的對策,無論這些攻擊是否來自 AI。可能令人驚訝的一件事是,儘管 LLM 和各種深度偽造等已經可用了好幾年,但我們負責偵測和移除這類攻擊的同事告訴我們,我們並沒有看到生成內容在社交網路上發布的大幅增加,或者至少不是以惡意方式發布。通常,它會被標記為合成的。所以,我們沒有看到三四年前人們警告的所有災難性場景,說這將摧毀資訊和通訊系統。
Yann LeCun: 我需要告訴你一個有趣的故事。在 2022 年秋天,我在 Meta 的同事們,一個小團隊,整合了一個 LLM,該 LLM 是在整個科學文獻上訓練的。所有他們能弄到的技術論文。它被稱為 Galactica,他們發布了一個長篇論文,描述了它是如何訓練的、開源代碼,以及一個你可以隨便玩的演示系統。
這遭到了 Twitter 領域的猛烈抨擊。人們說:「哦,這太可怕了。這會害死我們。它會摧毀科學交流系統。現在任何傻瓜都可以寫一篇聽起來像科學論文的文章,闡述吃碎玻璃的好處之類的。」負面意見的浪潮如此之大,以至於我可憐的同事們,一個五人小組,晚上都睡不著覺。他們撤下了演示,留下了開源代碼和論文,但我們的結論是,世界還沒有為這種技術做好準備,沒有人對此感興趣。
Yann LeCun: 三週後,ChatGPT 出現了,就像彌賽亞的第二次降臨。我們面面相覷,說:「剛剛發生了什麼?」 我們無法理解公眾對此的熱情,考慮到之前對 Galactica 的反應。
Bill Dally: 很大程度上是觀感問題。GPT 並不是試圖寫學術論文或做科學研究;它是你可以與之交談並詢問任何問題的東西,試圖更加通用。在某種程度上,它對更多人更有用,或者說更近似有用。
Yann LeCun: 肯定存在危險,也存在各種濫用。但對抗濫用的對策就是更好的 AI。正如我之前談到的,存在不可靠的系統。解決這個問題的方法是更好的 AI 系統,它們具有常識、推理能力、檢查答案是否正確以及評估自身答案可靠性的能力,而目前情況並非如此。但那些災難性的場景,坦白說,我不相信。人們會適應的。我傾向於認為 AI 總體上是好的,即使其中夾雜著一些壞處。
開放原始碼的重要性與未來
Bill Dally: 作為一個在大西洋兩岸都有家的人,你有非常全球化的視角。你認為未來 AI 的創新會來自哪裡?
Yann LeCun: 它可以來自任何地方。到處都有聰明人。沒有人壟斷好主意。有些人有巨大的優越感,認為他們可以不與任何人交談就想出所有好主意。根據我作為科學家的經驗,情況並非如此。
好主意來自許多人的互動和思想交流。在過去十年左右的時間裡,代碼的交流也變得重要。這就是為什麼我一直是開源 AI 平台的堅定倡導者,以及為什麼 Meta 在一定程度上也採用了這種理念的原因之一。我們並沒有壟斷好主意,儘管我們自認為很聰明。最近關於 DeepSeek 的故事確實表明,好主意可以來自任何地方。
Yann LeCun: 中國有很多非常優秀的科學家。很多人應該知道的一個故事是,如果你問自己,過去 10 年裡,所有科學領域中引用次數最多的論文是哪一篇?那篇論文發表於 2015 年,正好是 10 年前。它是關於一種特殊的神經網路架構,稱為 ResNet 或殘差網路(residual networks),它來自北京的微軟亞洲研究院,由一群中國科學家提出。
主要作者是何愷明(Kaiming He)。一年後,他加入了位於加州的 Meta 的 FAIR 實驗室,在那裡待了大約八年,最近轉到了麻省理工學院(MIT)。這告訴你,世界各地有很多優秀的科學家,想法可以來自任何地方。但要真正將這些想法付諸實踐,你需要龐大的基礎設施、大量的計算資源,你需要給你的朋友和同事很多錢來購買必要的資源。擁有一個開放的知識社群可以讓進步更快,因為有人在這裡想出了一半的好主意,而另一個人說出了另一半。如果他們溝通,事情就會發生。如果他們都非常閉塞和封閉,進步就不會發生。
Yann LeCun: 另一件事是,為了讓創新思想湧現,作為 NVIDIA 的首席科學家,你需要讓人們真正創新,而不是強迫他們每三個月或每六個月拿出點東西。這基本上就是 DeepSeek 和 LLaMA 的情況。
一個不太廣為人知的故事是,2022 年 FAIR 有幾個 LLM 項目。一個擁有大量資源和領導層支持,另一個是由巴黎的十幾個人組成的小型「海盜」項目,他們決定構建自己的 LLM,因為他們出於某種原因需要它。那個項目變成了 LLaMA,而你從未聽說過的那個大型項目則被停止了。
所以,即使你沒有所有的支持,你也可以想出好主意。如果你在某種程度上與你的管理層隔絕,他們讓你獨自工作,你可能會比被要求按計劃創新時想出更好的主意。十幾個人開發了 LLaMA,然後決定選擇它作為平台。圍繞它建立了一個團隊來開發 LLaMA 2,最終它被開源,並在行業格局中引起了一場小小的革命。截至昨天,LLaMA 的下載量已超過 10 億次。我覺得這很驚人。我假設其中包括你們中的許多人,但是所有那些人是誰?我的意思是,你一定認識他們,因為他們都必須購買 NVIDIA 硬體來運行那些東西。我們感謝你們(輝達)賣了所有這些 GPU。
Bill Dally: 讓我們多談談開源。我認為 LLaMA 在這方面確實具有創新性,因為它是一個最先進的 LLM,並且提供了開放權重(open weights),所以人們可以自己下載和運行它。這樣做的利弊是什麼?公司顯然投入了巨額資金來開發模型、訓練模型和微調模型,然後將其免費提供。這樣做的好處是什麼?缺點是什麼?
Yann LeCun: 嗯,我認為有缺點。如果你是一家期望直接從該服務中獲得收入的公司,如果那是你唯一的業務,那麼透露你所有的秘密可能對你沒有好處。但如果你是一家像 Meta 或 Google 這樣的公司,收入來自其他來源:對 Meta 來說是廣告,對 Google 來說是各種來源,重要的不是你在短期內能產生多少收入,而是你是否能夠構建你想要構建的產品所需的功能,並讓世界上最多的聰明人為之做出貢獻。
對 Meta 來說,如果其他一些公司將 LLaMA 用於其他目的,這並不會造成損害,因為他們沒有可以在此基礎上構建的社交網路。這對 Google 來說威脅更大,因為你可以用它來構建搜索引擎,這可能就是為什麼他們對這種方法不太積極的原因。
Yann LeCun: 我們看到的另一件事的影響,首先是 PyTorch,現在是 LLaMA,是它們啟動了整個新創公司的生態系統。我們現在在更大的行業中看到了這一點,人們有時會使用專有 API 來原型化 AI 系統,但到了部署的時候,最具成本效益的方式是在 LLaMA 上進行,因為你可以在本地(on-premise)或其他一些開源平台上運行它。從哲學上講,我認為最重要的因素,想要擁有開源平台的最重要原因是,在很短的時間內,我們與數位世界的每一次互動都將由 AI 系統介導。我現在戴著 Ray-Ban Meta 智能眼鏡,我可以通過它們與 Meta AI 對話,問它任何問題。
Yann LeCun: 我們不相信人們會想要單一的助手,而且這些助手將來自美國西海岸或中國的少數幾家公司。我們需要極其多樣化的助手。它們需要能夠說世界上所有的語言,理解世界上所有的文化、所有的價值體系以及所有的興趣中心。它們需要有不同的偏見、政治觀點等等。我們需要多樣化的助手,原因與我們需要多樣化的媒體相同。否則,我們都會從相同的來源獲得相同的資訊,這對民主或其他任何事情都不利。
我們需要一個任何人都可以用來構建那些多樣化助手的平台。目前,這只能通過開源平台來完成。我認為這在未來會更加重要,因為如果我們想讓基礎模型能夠說世界上所有的語言等等,沒有任何一個實體能夠獨自完成這項工作。誰會去收集世界上所有語言的所有數據,然後把它交給 OpenAI、Meta、Google 或 Anthropic?沒有人。
他們想保留這些數據。世界上的各個地區會希望將他們的數據貢獻給一個全球基礎模型,但實際上並不想交出這些數據。他們可能會為訓練一個全球模型做出貢獻。我認為這就是未來的模式。基礎模型將是開源的,並以分佈式的方式進行訓練,世界各地的不同數據中心可以訪問不同的數據子集,基本上是訓練一個共識模型。這使得開源平台完全不可避免,而專有平台,我認為將會消失。
Bill Dally: 這對於語言和事物的多樣性以及應用來說都很有意義。一家特定的公司可以下載 LLaMA,然後在他們不願意上傳的專有數據上進行微調。
Yann LeCun: 這就是現在正在發生的事情。大多數 AI 新創公司的商業模式都是圍繞這個建立的。他們為垂直應用構建專門的系統。
Bill Dally: 在 Jensen(黃仁勳) 的主題演講中,他舉了一個很好的例子,使用生成式 LLM 來做婚禮策劃,決定誰將坐在桌子旁。這是一個很好的例子,說明了在訓練上投入精力與在推理上投入精力之間的權衡。
一種情況是,你可以擁有一個非常強大的模型,你在訓練上花費了大量的資源,或者你可以構建一個不那麼強大的模型,但運行它很多次,以便它可以推理並完成任務。你認為在構建強大模型時,訓練時間和推理或測試時間之間的權衡是什麼?最佳點在哪裡?
Yann LeCun: 首先,我認為 Jensen 絕對是對的,你最終會從一個能夠推理的系統中獲得更多力量。
但我不同意目前具有推理能力的 LLM 所採用的推理方式是正確的方式。它有效,但不是正確的方式。當我們推理時,當我們思考時,我們是在某種與語言無關的抽象心智狀態中進行的。你不想在 token 空間中踢來踢去;你想在你的潛在空間中推理,而不是在 token 空間中。
如果我告訴你想像一個立方體漂浮在你面前,然後將該立方體繞垂直軸旋轉 90 度,你可以在腦海中做到這一點,這與語言無關。一隻貓可以做到這一點,我們無法通過語言向貓說明這個問題,但貓在計劃跳上傢俱的軌跡時會做比這複雜得多的事情。它們做的事情比那複雜得多,而且與語言無關。它肯定不是在 token 空間中完成的,那將是一系列動作。它是在一個抽象的心智空間中完成的。這就是未來幾年的挑戰:找出允許這種類型推理的新架構。這就是我過去幾年一直在研究的。
Bill Dally: 我們是否應該期待一種新的模型,讓我們能夠在這個抽象空間中進行推理?
Yann LeCun: 它被稱為世界模型(JEPA)。我和我的同事們在過去幾年裡發表了一系列關於這個問題的論文,可以說是朝這個方向邁出的第一步。JEPA 代表聯合嵌入預測架構(joint embedding predictive architecture)
這些是學習抽象表示的世界模型,並且能夠操縱這些表示,或許還能進行推理並產生一系列行動以達到特定目標。我認為這就是未來。大約三年前,我寫了一篇關於這個問題的長篇論文,解釋了這可能是如何運作的。
Bill Dally: 要運行這些模型,你需要很棒的硬體。在過去十年中,GPU 的能力在 AI 模型的訓練和推理方面都提高了 5 到 10,000 倍,從 Kepler 到 Blackwell。我們今天看到還有更多即將到來。橫向擴展(Scale-out)和縱向擴展(scale-up)提供了額外的能力。在你看来,未來會發生什麼?你期望什麼樣的東西能讓我們構建你的 JPA 模型和其他更強大的模型?
Yann LeCun: 嗯,繼續推出吧,因為我們需要所有我們能得到的計算能力。這種在抽象空間中的推理在運行時將會非常耗費計算資源,這與我們都非常熟悉的東西有關。
心理學家談論系統 1 和系統 2。系統 1 是你可以不假思索就能完成的任務。它們已經成為第二天性,你可以在不太思考的情況下完成它們。例如,如果你是一個經驗豐富的司機,即使沒有駕駛輔助,你也可以開車,並且可以在與人交談的同時開車。但是如果你是第一次開車或剛開幾個小時,你必須真正專注於你正在做的事情。你在規劃各種災難場景等等。那是系統 2。你正在調動你整個世界模型來弄清楚將會發生什麼,然後規劃行動,以便好的事情發生。
Yann LeCun: 然而,當你熟悉一項任務時,你可以只使用系統 1,一種反應式的系統,讓你無需規劃即可完成任務。首先,這種推理是系統 2,而自動的、潛意識的、反應式的策略是系統 1。
當前的系統正試圖慢慢向系統 2 邁進,但最終,我認為我們需要一個不同的架構來實現系統 2。如果你想要一個能夠理解物理世界的系統,我不認為它會是一個生成式架構。物理世界比語言難理解得多。我們認為語言是人類智力能力的縮影,但事實上,語言很簡單,因為它是離散的。因為它是一種通訊機制,需要是離散的才能抗噪音。否則,你現在就無法理解我說的話。所以,出於這個原因,它很簡單。但真實世界要複雜得多。
Yann LeCun: 這是你過去可能聽我說過的話:當前的 LLM 通常使用大約 30 兆個 token 進行訓練。Token 通常約為 3 個字節,所以大約是 0.9 到 10^14 字節,假設是 10^14 字節。我們任何一個人讀完這些需要超過 40 萬年,因為這是網際網路上所有可用文本的總和。
但現在,心理學家告訴我們,一個 4 歲的孩子總共醒著的時間是 16,000 小時,我們每秒大約有 2MB 的數據通過視神經進入視覺皮層,大約每秒 2MB。將這個乘以 16,000 小時再乘以 3600,大約是 10^14 字節,這是四年內通過視覺獲得的數據量。你眼睛看到的數據量相當於需要你花 40 萬年才能讀完的文本量。
這告訴你,我們永遠無法僅僅通過文本訓練達到 AGI,不管你指的是什麼。這根本不可能發生。
Bill Dally: 回到硬體,脈衝神經系統(spiking systems)方面有很多進展,倡導者和研究生物系統類比的人認為,神經形態硬體(neuromorphic hardware)有一席之地。你認為神經形態硬體在 AI 處理方面是否有可以補充或取代 GPU 的地方?
Yann LeCun: 短期內不會。嗯,好吧,我得告訴你一個關於這個的故事。當我 1988 年開始在貝爾實驗室工作時,我所在的團隊實際上專注於用於神經網路的類比硬體。他們建造了好幾代完全類比的神經網路,然後是混合類比數位,然後到 90 年代中期完全是數位。
那時候人們對神經網路有點失去興趣了,所以就沒有意義了。像這樣奇特的底層原理的問題在於,當前的數位半導體處於如此深的局部最小值,以至於替代技術需要一段時間,以及大量的投資,才能趕上。甚至在原理層面上,也不清楚它是否有任何優勢。
Yann LeCun: 像類比或脈衝神經元或脈衝神經網路這樣的東西可能有一些內在的優勢,但它們使得硬體複用變得非常困難。我們目前使用的每一塊硬體都太大、太快,從某種意義上說,所以你必須基本上重複使用同一塊硬體來計算你模型的不同部分。
如果你使用類比硬體,你就不能使用多路複用(multiplexing)。你的虛擬神經網路中的每個神經元都必須有一個物理神經元。這意味著你無法在單個晶片上容納一個像樣大小的神經網路。你必須使用多晶片,一旦你能做到這一點,它將會非常快,但效率不高,因為你需要進行跨晶片通訊,而且記憶體變得複雜。最終,你需要進行數位通訊,因為這是實現抗噪音效率的唯一途徑。
Yann LeCun: 事實上,大腦提供了一個有趣的資訊。大多數大腦,或者說大多數動物的大腦,是通過脈衝進行通訊的。脈衝是二進制訊號,所以它是數位的,不是類比的。神經元層面的計算可能是類比的,但神經元之間的通訊實際上是數位的,除了非常小的動物。例如,秀麗隱桿線蟲(C. elegans),一種 1 毫米長的蠕蟲,有 302 個神經元。它們不發出脈衝,因為它們不需要遠距離通訊,所以在那個尺度上它們可以使用類比通訊。
這告訴你,即使我們想使用像類比計算這樣的奇特技術,我們也必須以某種方式使用數位通訊。至少對於記憶體來說是這樣。目前還不清楚,而且我多次進行過這種計算。我對此的了解可能遠不如你,但我認為短期內不會發生。
Bill Dally: 可能在邊緣計算(edge computation)的某些角落,這是有意義的。例如,如果你想要一個超便宜的微控制器,為你的吸塵器或割草機運行感知系統,也許計算是有意義的。如果你能把整個東西放在一個單晶片上,並使用像相變記憶體或類似的東西來存儲權重,我知道有些人正在認真地構建這些東西。這些就是人們所說的 PIM(存內處理器)或類比和數位處理器以及記憶體技術。你認為它們有作用嗎?它們有前途嗎?
Yann LeCun: 當然。我的一些同事對此非常感興趣,因為他們想為那些智能眼鏡製造後繼產品。你想要的是一些視覺處理能夠一直進行。目前,由於功耗的原因,這是不可能的。僅僅一個像圖像感測器這樣的感測器,在這樣的眼鏡中不能一直開著;幾分鐘內電池就會耗盡。
一個潛在的解決方案是在感測器上直接進行處理,這樣你就不必把數據移出晶片,而這正是耗費能量的地方。移動數據是耗費能量的,而不是計算本身。這方面有很多工作正在進行,但我們還沒有達到那一步。我認為這是一個有前途的方向。事實上,生物學已經解決了這個問題。視網膜大約有 6000 萬個光感受器,在我們的視網膜前面,有四層神經元——透明的神經元——處理訊號,將其壓縮到 100 萬根視神經纖維,傳輸到我們的視覺皮層。有壓縮、特徵提取和各種各樣的東西,以便從視覺系統中獲取最有用的資訊。
Bill Dally: 其他新興技術呢?你認為量子(quantum)、超導邏輯(superconducting logic)或地平線上的其他任何東西會給我們在 AI 處理能力方面帶來巨大的進步嗎?
Yann LeCun: 超導,也許吧。我對此了解不夠,無法真正判斷。光學(Optical)一直非常令人失望。我記得在 1980 年代,我對關於神經網路光學實現的演講感到非常驚訝,但它們從未成功。技術在發展,所以也許情況會改變。
對於量子,我對量子計算持極度懷疑態度。我認為我能看到的量子計算唯一的中期應用是模擬量子系統,比如量子化學之類的。對於其他任何事情,我都極度懷疑。
Bill Dally: 你談到構建可以通過觀察學習的 AI,就像幼崽一樣。你認為這對硬體提出了什麼樣的要求?你認為我們需要如何發展硬體來實現這一點?你能給我們多少?
Yann LeCun: 這是一個你願意買多少的問題。正如我們今天聽到的,你買得越多,省得越多。這不會便宜。例如,影片。讓我告訴你一個我的一些同事直到大約一年前進行的實驗。有一種用於自我監督學習的技術,使用重建來學習圖像表示。該項目被稱為 MAE,即遮罩自編碼器(Masked Autoencoder)。
它基本上是一個自編碼器,一個去噪自編碼器,非常像使用的那種。你拿一張圖片,通過移除其中的一些部分——實際上是很大一塊——來損壞它,然後訓練一個巨大的神經網路來重建像素級別或 token 級別的完整圖像。然後你使用內部表示作為下游任務的輸入,比如物體識別或其他什麼,進行監督訓練。
Yann LeCun: 它效果還行,但你必須燒開一個小池塘來冷卻那些液冷 GPU 集群才能做到這一點。它的效果遠不如那些聯合嵌入架構。你可能聽說過 DINO、DINO V2、JAPA 等等。這些是聯合嵌入架構,它們往往效果更好,而且訓練成本實際上更低。
在聯合嵌入中,你基本上有兩個潛在空間,對應兩個輸入類別。與其將所有東西轉換成一種 token,不如取完整圖像和損壞或轉換後的版本,都通過編碼器運行,然後嘗試連接這些嵌入。你從部分可見或損壞圖像的表示中訓練完整圖像的表示。這樣效果更好,成本也更低。
Yann LeCun: 好了,所以團隊說:“這對圖像似乎效果還行,讓我們試試用在影片上。” 所以現在你必須對影片進行 token 化,基本上是將影片轉換成 16×16 的補丁(patch),即使對於短影片來說,這也是大量的補丁。然後,你訓練一個巨大的神經網路來重建影片中缺失的補丁,也許是預測未來的影片。這需要燒開一個小湖,而不僅僅是一個小池塘,而且基本上是失敗的。那個項目被停止了。
Yann LeCun: 我們現在的替代方案是一個名為 VJA 的項目,我們即將推出第二版。它是那些聯合嵌入預測架構之一。所以,它對影片進行預測,但是在表示層面進行,而且似乎效果非常好。我們有一個這樣的例子。第一個版本是在非常短的影片上訓練的,只有 16 幀,它被訓練來從部分遮罩的影片版本中預測完整影片的表示。
那個系統顯然能夠告訴你某個特定的影片在物理上是否可能,至少在受限的情況下是這樣。它給你一個二進制輸出:“這是可行的”,“這不可行”,或者也許比這更簡單。你測量系統產生的預測誤差。你在影片上使用那些 16 幀的滑動窗口,看看你是否能預測接下來的幾幀。你測量預測誤差,當影片中發生非常奇怪的事情時——比如一個物體消失了、改變了形狀、自發出現或者不遵守物理定律——它會將其標記為異常。
Bill Dally: 這些是自然影片,然後你在發生了非常奇怪的事情的合成影片上進行測試。
Yann LeCun: 如果你在發生了非常奇怪的事情的影片上訓練它,那就會變成常態,它就不會檢測到那些是奇怪的。所以你不能那樣做。這有點像嬰兒學習直覺物理學的方式。一個沒有支撐的物體會掉落,基本上是重力的影響,嬰兒大約在九個月大的時候學會這個。
如果你給一個五六個月大的嬰兒看一個物體似乎漂浮在空中的場景,他們不會感到驚訝。但到了九或十個月大,他們會睜大眼睛看著它,你實際上可以測量到這一點。心理學家有測量注意力的方法,這意味著嬰兒的內部世界模型受到了侵犯。嬰兒看到了她認為不可能的事情,這與她的預期不符。所以,她必須看著它來糾正她的內部模型,並說:“也許我應該了解一下這個。”
Bill Dally: 你談到了在這個聯合嵌入空間中進行推理和規劃。我們需要什麼才能達到那一步?在模型方面和硬體方面的瓶頸是什麼?
Yann LeCun: 很大程度上只是讓它運作起來。我們需要一個好的配方。在人們想出一個好的配方來訓練即使是簡單的卷積網路之前,這是非常困難的。早在 2000 年代末,Geoff Hinton 告訴所有人,用反向傳播訓練深度網路非常困難。Yann LeCun 可以用 ConvNets 做到,但他是世界上唯一能做到的人,這在當時是真的,但不完全準確。
事實證明,這並不那麼困難,但有很多技巧你必須弄清楚——工程技巧、直覺技巧、使用哪種非線性函數、ResNet 的想法,這是過去 10 年所有科學領域中被引用次數最多的論文。這是一個非常簡單的想法:你只需要讓連接跳過每一層,所以默認情況下,深度神經網路中的一層基本上被混淆為恆等函數,而神經網路所做的是對那個非常簡單想法的偏離。這使我們能夠避免在反向傳播時梯度消失,並訓練具有 100 層或更多層的神經網路。
Yann LeCun: 在人們想出包含所有這些殘差連接、Adam 優化器和正規化的完整配方之前,沒有什麼真正有效。我們剛剛發表了一篇論文,表明在 transformer 中你不需要正規化,以及類似的事情。在你擁有這個完整的配方和所有技巧之前,沒有什麼是有效的。
對於 NLP 和自然語言處理系統來說也是如此。在 2010 年代中期,有基於去噪自編碼器的系統,如 BERT,你取一段文本,將其損壞,然後訓練一個大型神經網路來恢復缺失的單詞。最終,這被 GPT 風格的架構所取代,你只需在整個系統上進行訓練。你將其作為自編碼器進行訓練,但不需要損壞輸入,因為架構是因果的(causal)。事實證明,這種方法非常成功且可擴展。
Yann LeCun: 我們必須為那些 JAPA 架構想出一個好的配方,使其能夠擴展到同樣的程度。這就是缺失的部分。
Bill Dally: 嗯,我們前面有紅燈在閃爍。在我們休會之前,你有什麼最後的想法想留給觀眾嗎?
Yann LeCun: 是的,我想強調我之前提出的觀點。AI 的進步以及朝向人類水平 AI、先進機器智能或 AGI,無論你想怎麼稱呼它的進程,將需要每個人的貢獻。它不會來自某個秘密進行研發的單一實體。那是不會發生的。它不會是一個事件;它將是沿途許多連續的進步。
人類不會在這發生的第一個小時內被殺死,因為它不會是一個事件。它將需要來自世界各地的貢獻。它將必須是開放的研究,並基於開源平台。如果它們需要大量訓練,我們將需要更便宜的硬體。你(輝達)需要降低你的價格。[笑]
Bill Dally: 你得跟 Jensen 談談這個。
Yann LeCun: 我們將擁有一個高度多樣化的 AI 助手群的未來,它們將在我們的日常生活中幫助我們,通過我們的智能眼鏡或其他智能設備一直陪伴著我們,我們將成為它們的老闆。它們將為我們工作。這就像我們所有人都將成為經理。那是個可怕的未來。
Bill Dally: 嗯,就此打住,我想感謝你帶來了這場真正激發智力的對話,我希望我們還有機會再這樣做一次。
📍相關報導📍
GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更難