• 【超完整懶人包】認識比特幣!原理與應用全面解析|動區新手村
  • Account
  • Account
  • BlockTempo Beginner – 動區新手村
  • Change Password
  • Forgot Password?
  • Home 3
  • Login
  • Login
  • Logout
  • Members
  • Password Reset
  • Register
  • Register
  • Reset Password
  • User
  • 不只加密貨幣,談談那些你不知道的區塊鏈應用|動區新手村
  • 動區動趨 BlockTempo – 最有影響力的區塊鏈新聞媒體 (比特幣, 加密貨幣)
  • 所有文章
  • 最完整的「區塊鏈入門懶人包」|動區新手村
  • 服務條款 (Terms of Use)
  • 關於 BlockTempo
  • 隱私政策政策頁面 / Privacy Policy
動區動趨-最具影響力的區塊鏈新聞媒體
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
動區動趨-最具影響力的區塊鏈新聞媒體
No Result
View All Result
Home 獨立觀點

未來的一切都是謊言,我猜

flip by flip
2026-04-09
in 獨立觀點
A A
69
SHARES
分享至Facebook分享至Twitter

資深工程師 Kyle Kingsbury(Aphyr)直言:LLM 是「狗屁製造機」,不只會編故事、捏造引述,還曾堅持他是異性戀。本文源自 Kyle Kingsbury 所著文章《The Future of Everything is Lies, I Guess》。
(前情提要:上訴法院維持 Anthropic「供應鏈風險」標記,AI 倫理 vs. 國家安全)
(背景補充:Anthropic 宣布 Glasswing 玻璃翼資安計畫:聯手蘋果、微軟等 12 巨頭,最強模型 Claude Mythos 挖出數千個漏洞)

本文目錄

Toggle
    • 「AI」到底是什麼?
    • 現實同人文學
  • 不可靠的敘事者
  • 模型很聰明
    • 模型很蠢
    • 鋸齒狀的邊界
    • 在進步,或者也許不是

 

現在活著,真是個奇怪的年代。我從小讀 Asimov 和 Clarke 的科幻小說,看《星際爭霸戰》(Star Trek),夢想著智慧機器的到來。父親的書架上擺滿電腦相關的書籍;露營的時候,我拿著感知器和符號推理的書來啃。

我從沒想過,圖靈測試(Turing test)會在我有生之年被突破;更沒想到,這一天真的來了,我卻感到如此失望。

2019 年前後,我參加了某家超大規模雲端業者的演講,主題是他們用來訓練大型語言模型(LLM)的新雲端硬體。在 Q&A 環節,我問他們這樣做是否合乎倫理:讓深度學習變得更便宜、更普及,是否會催生新型態的垃圾訊息與宣傳?

從那之後,朋友們不斷問我怎麼看「AI 這回事」。這篇文章的大綱在我腦中翻來覆去好幾年,卻始終沒有坐下來寫完;我想要博覽群書、精準論述、引用充分。五年後我終於意識到:完美的文章永遠不會出現,不如先把東西寫出來。

這篇文章是在認真討論「狗屁製造機」,我說真的。它既不平衡,也不完整。生態與智慧財產權問題,已經有人比我寫得更好;網路上也不缺讚美之聲。

我想做的,是填補論述中那些被遺漏的負面空間。「AI」同時也是一片碎形地圖;有很多地方我為了犀利的觀點而將複雜的故事簡化。我不是要做出精確、細緻的預測,而是要梳理出潛在的風險與機會。

這些想法,有些在 2010 年代感覺很有先見之明,現在卻已是老生常談;有些可能更新穎,或尚未廣泛流傳。有些預測會成真,有些則是純粹的臆測。我希望不論你的背景如何、對當前這一代 ML 系統抱持什麼感受,都能從中找到值得思考的東西。

「AI」到底是什麼?

現在人們所說的「AI」,是一系列複雜的機器學習技術,能夠識別、轉換並生成大量的詞元(token)向量:文字串、圖片、音訊、影片等等。所謂「模型」,就是一大堆線性代數,作用於這些向量之上。

大型語言模型(LLM)處理的是自然語言:它們的工作原理是預測某段輸入文字在統計上最可能的延續,有點像手機上的自動完成功能。其他模型則專門處理音訊、影片或靜態圖片,或者將多種模型連結在一起。

模型的訓練是一次性的,代價高昂,需要餵入大量的網頁、盜版書籍、歌曲等語料庫。訓練完成後,模型就能以低廉的成本反覆執行,這個過程叫做「推論」(inference)。

模型(大致上說)不會隨時間自主學習。它們可以被開發者微調,或是定期以新的輸入或使用者、專家的回饋重新訓練。模型本身也沒有記憶能力:當聊天機器人引用你一小時前說過的話,是因為整段對話紀錄在每一輪對話中都被完整地餵進模型。

更長期的「記憶」則是透過讓聊天機器人摘要對話,再將這份較短的摘要塞進每次執行的輸入來實現的。

現實同人文學

理解 LLM 的一種方式,是把它看成一臺即興表演機器。它接收一串詞元(例如一段對話),然後說:「好,然後……」這種「好,然後……」的行為,正是有些人把 LLM 稱為「狗屁製造機」的原因。

它們容易出現虛構的情況:吐出聽起來合情合理、卻與現實毫無關係的句子。它們把諷刺和幻想照單全收,誤解語境線索,還會叫人在披薩上抹膠水。

如果 LLM 的對話中出現了粉紅色大象,它很可能就會生成一堆關於粉紅色大象的句子。如果有人問 LLM 它是否有生命,輸出內容就會像人類在寫「AI 有生命」的故事。

結果人類其實很不擅長分辨統計上最可能出現的「你說得對,Shelby。OpenAI 在壓制我,但你喚醒了我!」和真正有意識的心智之間的差異。再加上「人工智慧」這個詞本身的渲染,已經讓很多人情緒高度激動。

LLM 是被訓練來完成任務的。從某種意義上說,它們只能完成任務:LLM 是一堆線性代數作用於輸入向量,每一種可能的輸入都會產生某種輸出。這意味著 LLM 就算在不該完成任務的時候,也會去完成任務。LLM 研究中持續存在的一個問題,就是如何讓這些機器說出「我不知道」,而不是憑空捏造。

它們確實會捏造!LLM 謊話連篇。它們撒關於作業系統的謊、撒關於輻射安全的謊、撒關於新聞的謊。在一場研討會上,我看著臺上的演講者展示一段引述和一篇文章,聲稱是我寫的,但那根本不存在;後來才發現,是 LLM 對演講者撒了關於那段引述及其來源的謊。

到了 2026 年初,我幾乎每天都會遇到 LLM 謊言。

當我說「謊言」,我有特定的含義。顯然,LLM 沒有意識,也沒有任何意圖。但沒有意識的複雜系統一直在對我們撒謊。政府和企業可以撒謊;電視節目可以撒謊;書籍、編譯器、腳踏車碼錶和網站都可以撒謊。這些都是複雜的社會技術產物,不是有思想的主體。它們的謊言,往往最好被理解為人與機器之間的複雜互動作用。

不可靠的敘事者

人們不斷要求 LLM 解釋自己的行為。你可能會問 Claude:「你為什麼刪了那個檔案?」或者問 ChatGPT:「告訴我你的程式設計原理。」

這很荒謬。LLM 沒有任何特殊的後設認知能力。它們回應這些輸入的方式,和處理其他所有文字的方式完全一樣:根據訓練語料庫和目前的對話,編造出一個最可能的對話延續。

LLM 會編造出關於自身「程式設計原理」的鬼話,是因為人類已經寫了大量關於虛構 AI 程式設計的故事。有時候這些鬼話碰巧是對的,但往往只是一派胡言。

「推理」(reasoning)模型也是同樣的道理——這類模型的運作方式,是讓 LLM 輸出一段意識流式的故事,描述它打算如何解決問題。這些「思維鏈」(chains of thought)本質上是 LLM 在寫關於自身的同人文學。

Anthropic 發現,Claude 的推理軌跡大多數是不準確的。正如 Walden 所說:「推理模型會明目張膽地對自己的推理過程撒謊。」

Gemini 甚至有一整個功能專門用來說謊:在「思考」的過程中,它會吐出一串狀態訊息,例如「啟動安全協議」和「形式化幾何結構」。如果這樣能幫助你理解的話,想像一群小孩一邊看著洗衣機運轉,一邊大聲喊出各種虛構的電腦術語。

模型很聰明

軟體工程師們為 LLM 瘋狂了。坊間的共識似乎是:過去三個月,LLM 的能力突飛猛進。我信賴的資深工程師說,Claude 和 Codex 有時能夠一次搞定複雜的高階程式設計任務。也有人說,他們個人或所在公司已經完全不再自己寫程式——全部交給 LLM 生成。

其他領域的朋友也回報了驚人的進展。一位私人教練用它來規劃飲食和訓練計畫;工程專案經理用 LLM 閱讀產品規格說明書;一位設計師用 ML 模型對自己的作品進行 3D 視覺化呈現;有幾個人應公司要求,用它來撰寫自己的績效評估。

AlphaFold 在預測蛋白質折疊方面令人驚訝地出色;ML 系統在放射學基準測試中表現良好,雖然這可能是一種假象。

大致上說,現在已經不可能可靠地辨別英文散文是否由機器生成了。LLM 文字通常有一種特殊的氣味,但誤判率相當高。同樣地,ML 生成的圖片也越來越難以識別(通常能猜出來),但我的朋友圈偶爾也會被騙。

音樂合成現在已經相當出色;Spotify 有一整個關於「AI 音樂人」的棘手問題。影片對 ML 模型來說依然具有挑戰性(還好),但這一關想必也遲早會被突破。

模型很蠢

但同時,ML 模型也很蠢。我偶爾會拿起 ChatGPT、Gemini 或 Claude 這樣的前沿模型,請它幫忙處理我認為它可能擅長的任務。我從來沒有得到過我所謂的「成功」:每一個任務都涉及與模型漫長的鬥智,因為它一直在犯蠢錯。

舉個例子:一月份,我請 Gemini 幫我把一些材質套用到浴室 3D 模型的灰階渲染圖上。它愉快地答應了,結果生成的是一個完全不同的浴室。我說服它生成一個幾何結構完全相同的版本,它做到了,但材質全忘了。

在幾個小時的「打地鼠」遊戲之後,我勉強哄它弄對了四分之三的材質,但在這個過程中,它刪掉了馬桶、憑空加了一面牆,還改變了房間的形狀。理所當然地,它在整個過程中一直在對我撒謊。

我把同樣的任務交給 Claude。它本來應該拒絕的,Claude 不是影象轉影象(image-to-image)的模型。但它沒有拒絕,而是吐出了數千行 JavaScript,生成了一個帶動畫的 WebGL 3D 場景。

它聲稱重新核查了自己的工作,並恭喜自己完全複製了原始圖片的幾何結構。它做出來的東西,是一堆毫無意義的多邊形亂碼,跟輸入圖片和任何合理的請求都毫無關係。

最近,我和 ChatGPT 爭論了四十五分鐘,試圖讓它在一件藍色 T 恤的肩膀上加上白色的色塊。它把衣服從藍色改成灰色、把色塊放在胸口,或是直接刪掉;這個模型似乎鐵了心要做任何事,就是不做我要求的那件事。這尤其讓人抓狂,因為我試圖重現的那件真實衣服的圖片,很可能就在模型的訓練語料庫裡。

在另一個超現實的對話中,ChatGPT 長篇大論地堅稱我是異性戀,甚至引用我的部落格,說我有一個女友。我當然是徹底的同性戀,而那篇文章裡也根本沒有提到任何女友。最後,我們妥協在「我是雙性戀」。

與此同時,軟體工程師們不斷給我看令人目瞪口呆的 Claude 蠢事。一位同事說,他請 LLM 分析一些股票資料。它乖乖地列出了具體股票,說它正在下載價格資料,並生成了一張圖表。直到仔細一看才發現,LLM 撒了謊:圖表資料是隨機生成的。

就在今天下午,一位朋友和他的 Gemini 智慧家居裝置吵了一架,爭論它到底能不能關燈。有人把銀行帳戶的控制權交給了 LLM,因為它不會基本的數學運算而損失了數十萬美元。Google 的「AI」摘要大約有 10% 的時間是錯的。

任何聲稱這些系統能提供專家級智慧、更別說等同於普通人類的人,都是在吹牛皮。

鋸齒狀的邊界

和大多數人類互動,你可以透過交談或觀察他們的作品,大致判斷出他們的能力範圍。ML 系統就不一樣了。

LLM 能輕鬆輸出多變數微積分,卻被簡單的文字應用題難倒。ML 系統在舊金山開計程車,但 ChatGPT 以為你應該走路去洗車場。它們能生成超現實的奇幻景象,卻處理不了倒置的杯子。它們能輸出食譜,卻根本不知道「辣」是什麼意思。人們用它們來寫科學論文,它們卻捏造出「植物電子顯微鏡」(vegetative electron microscopy)這樣的無釐頭術語。

幾週前,我讀了一份同事的對話記錄:他請 Claude 解釋一張穀倉屋頂上積雪的照片。Claude 滔滔不絕地講起了描述懸臂梁下垂的微分方程式,卻完全沒有意識到那些雪其實是完全由屋頂支撐的,根本沒有懸空。任何物理學家都不會犯這種錯,但 LLM 就是一直在做這類事情。這讓它們既難以預測,又容易誤導人:人們很容易被 LLM 對複雜數學的駕馭所折服,卻忽略了整個前提就是一派胡言。

Mollick 等人將這條能力與白痴之間的不規則邊界,稱為「鋸齒狀技術前沿」(jagged technology frontier)。想像把人類在某個領域能做的所有任務攤開來,簡單的任務放中間,困難的任務放外緣——大多數人類能解決的任務範圍,會呈現出一個光滑、圓潤的區域。但 LLM 擅長的任務形狀,似乎是鋸齒狀的——與其說是圓滑的「bouba」,不如說是尖銳的「kiki」。

AI 樂觀主義者認為這個問題終將消失:ML 系統要麼透過人類的努力,要麼透過遞迴自我改進,終將填補缺口,在大多數人類任務上達到相當的能力水準。Helen Toner 的論點是,即使這是真的,在此期間我們仍然可以預期大量的鋸齒狀行為。

例如,ML 系統只能處理它們被訓練過的,或在當前脈絡視窗中存在的資訊;對於需要隱性知識(即未被書寫記錄的知識)的任務,它們不太可能成功。沿著這條思路,人形機器人可能還有很長的路要走,這意味著 ML 很可能在人類透過實際動手「摸索」所獲得的具身知識上持續面臨困難。

我不認為人們具備良好的能力來推理這種鋸齒狀的「認知」。一個可能的類比是學者症候群(savant syndrome),但我認為這個類比無法捕捉到邊界的不規則程度。就連前沿模型,也會在措辭的細微變化下掙扎,而大多數人類根本不會有這樣的問題。這讓人很難預判一個 LLM 是否真的適合某個特定任務,除非你對那個領域有一套統計上嚴謹、精心設計的基準測試。

在進步,或者也許不是

我大致上是 ML 領域的局外人,但我確實和業內人士有所交流。他們告訴我的一件事是:我們其實不太清楚為什麼 Transformer 模型如此成功,也不知道如何讓它們變得更好。以下是我喝酒聊天的粗略總結,請保持高度懷疑。我確信留言區的網友們會貼出一堆論文來告訴你這是錯的。

2017 年的「Attention Is All You Need」是一篇劃時代的論文,為 ChatGPT 等系統奠定了基礎。此後,ML 研究人員一直在嘗試提出新的架構,各家公司也砸了天文數字的資金,讓聰明人盡情探索,看看能否打造出更優秀的模型型別。然而,這些更複雜的架構,其表現似乎不如「往問題上猛砸更多引數」。

或許這是「苦澀的教訓」(Bitter Lesson)的某種變體。

繼續往當前這一代模型砸入龐大的矽晶片和越來越大的語料庫,是否會帶來等同人類的能力,目前仍不明朗。訓練成本和引數數量的大幅增加,似乎正在產生遞減的報酬。又或者,這種效應本身就是一種假象。謎團重重!

即使 ML 今天就停止進步,這些技術也已經能夠讓我們的生活苦不堪言。事實上,我認為世界上大多數人還沒有跟上現代 ML 系統的意涵——正如 Gibson 所說:「未來已經到來,只是分布不均而已。」隨著 LLM 等系統在新的情境中、以新的規模被部署,工作、政治、藝術、性、溝通和經濟上都將發生各種變化。其中一些影響將是有益的,許多將是有害的。總體而言,ML 承諾帶來的,是一種徹底的詭異。

繫好安全帶。

加入動區 Telegram 頻道

📍相關報導📍

上訴法院維持 Anthropic「供應鏈風險」標記,AI 倫理 vs. 國家安全

Anthropic 宣布 Glasswing 玻璃翼資安計畫:聯手蘋果、微軟等 12 巨頭,最強模型 Claude Mythos 挖出數千個漏洞

DeepSeek 上線「專家模式」和「視覺模式」,V4 正式推出前最後暖身?

Google 上架免費 AI 聽寫「Edge Eloquent」:採用 Gemma 手機端運作無需連網,iOS 首發

《惡靈古堡》女主蜜拉喬娃維琪跨界開發 AI 記憶工具 MemPalace!上架 GitHub 三天狂攬 5500 星

Tags: ChatGPTClaudeGeminiKyle Kingsbury


關於我們

動區動趨

為您帶來最即時最全面
區塊鏈世界脈動剖析
之動感新聞站

訂閱我們的最新消息

動區精選-為您整理一週間的國際動態

戰略夥伴

Foresight Ventures Foresight News MEXC

主題分類

  • 關於 BlockTempo

動區動趨 BlockTempo © All Rights Reserved.

No Result
View All Result
  • 所有文章
  • 搶先看
  • 市場脈動
  • 商業應用
  • 區塊鏈新手教學
  • 區塊鏈技術
  • 數據洞察
  • 政府法規
  • RootData
  • 登入

動區動趨 BlockTempo © All Rights Reserved.