OpenRouter 報告揭示 AI 邁入代理推理時代、中國開源模型憑藉角色扮演與編程能力,在全球市場強勢崛起、以及分享用戶的真實使用場景。
(前情提要:木頭姐表態「AI不是泡沫」: 正在複製網路的財富爆炸時刻)
(背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)
AI 模型聚合平台 OpenRouter 本週發布了年度重磅報告《2025 年 AI 現狀報告》。這份報告並非基於問卷調查或新聞炒作,而是對 OpenRouter 平台上產生的 100 兆(100 Trillion)Token 數據進行了實證分析。
這些數據橫跨 300 多個大型語言模型(LLM)與 60 多家供應商,為我們提供了一個新視角,得以窺見 AI 在真實世界中「究竟是如何被使用的」?
範式轉移:從「預測下一個字」到「代理推理」
如果說 2024 年以前的 AI 競賽是關於誰能更流暢地接龍寫作,那麼 2025 年的主題就是「思考」。報告指出,過去一年標誌著 LLM 演進的真正分水嶺。
o1 模型與推理時代的開啟
報告將 2024 年 12 月 5 日 定義為產業的關鍵轉捩點,這一天 OpenAI 發布了首個廣泛採用的推理模型:o1。在此之前,即便是最強大的模型(如 Claude 3.5 Sonnet 或 GPT-4),其本質仍是單次前向傳播的概率預測器。它們依賴訓練數據中的模式來模仿推理,而非進行真正的內部計算。
o1 的出現改變了這一切。它引入了推論時的計算過程,模型在給出最終答案前,會先進行內部的多步深思熟慮(Deliberation)、潛在規劃(Latent Planning)和自我修正。
數據佐證: 根據 OpenRouter 的統計,自 2025 年初以來,流向「推理優化模型」的 Token 比例呈指數級增長。到了 2025 年底,超過 50% 的 Token 使用量都涉及這類具備思考能力的模型。這意味著,用戶不再只把 AI 當作聊天機器人,而是將其視為能夠解決複雜邏輯問題的「大腦」。
代理工作流的興起
伴隨著推理能力的提升,「代理工作流」成為另一個關鍵詞。用戶開始構建複雜的自動化系統,讓模型不僅僅是回答問題,而是「採取行動」。
報告特別分析了「工具調用」的數據。這是一種讓 AI 模型能夠使用外部工具(如搜尋網路、執行程式、查詢數據庫)的能力。
-
趨勢: 工具調用的使用量在 2025 年全年呈現穩定且顯著的上升趨勢。
-
模型格局: 起初,這一領域由 OpenAI 的 gpt-4o-mini 和 Anthropic 的 Claude 3.5 系列主導。但到了下半年,市場百花齊放,Google 的 Gemini Flash、xAI 的 Grok Code Fast 以及中國的 GLM 4.5 等模型在工具使用能力上迅速追趕,推動了企業級自動化的普及。
開源與閉源的戰爭:中國模型的崛起
在模型生態方面,報告揭示了一個雖由閉源模型主導營收,但開源模型(OSS)在創新與特定領域佔據關鍵地位的雙軌世界。
閉源模型仍佔大宗,但開源勢力抬頭
儘管閉源模型(如 GPT-5、Claude 4.5)在 Token 總消耗量上仍佔據約 70% 的份額,但在過去一年中,開源模型的市場份額增長曲線極為陡峭,已接近 30%。
這表明,開發者和企業越來越傾向於在可控性、隱私和成本之間尋求平衡,而高質量的開源模型提供了這個選項。
中國開源模型的統治力
報告中有一個引人注目的發現:中國開發的開源模型已經成為全球開源生態的中流砥柱。
-
核心玩家: 阿里巴巴的 Qwen(通義千問) 系列、DeepSeek(深度求索) 以及 Moonshot AI 的 Kimi 等模型,在 OpenRouter 的全球調用量中佔據了極大比例。
-
競爭優勢: 報告指出,中國模型之所以能迅速崛起,主要得益於其「密集的迭代週期」和「極具競爭力的模型質量」。例如,Qwen 2.5 Coder 在程式設計領域的表現,直接挑戰了許多閉源模型的地位。
-
獨特定位: 數據顯示,中國開源模型在「內容過濾」上相對較少(相較於某些西方模型嚴格的安全護欄),這使得它們在 創意寫作、角色扮演(Roleplay) 以及故事續寫等場景中更受全球用戶歡迎。
模型尺寸的「M型化」發展
開源市場內部也發生了有趣的結構性變化:
-
小型模型的衰退: 儘管 Google 推出了 Gemma 等小型模型,但整體使用量正在下降。用戶發現小型模型的智力上限限制了其在複雜任務中的應用。
-
中型模型的黃金時代: 32B(320 億參數)左右的模型成為了「甜蜜點」。以 Qwen 2.5 Coder 32B 為代表,這類模型在性能與推理成本之間找到了完美的平衡,成功建立了「模型-市場契合度」(Model-Market Fit)。
-
大型模型的多元化: 在 70B 到 200B+ 參數的區間,市場並未被單一模型壟斷,而是呈現多元競爭態勢(如 Llama 3 系列、Qwen 72B 等),用戶會根據具體任務在不同大模型間切換。
真實場景:人類到底用 AI 做什麼?
這或許是報告中最具啟發性的部分。通過 OpenRouter 的 GoogleTagClassifier 分類系統,研究團隊對數十億次請求進行了內容分類。結果打破了許多關於「AI 主要用於商務生產力」的刻板印象。
角色扮演
數據顯示,角色扮演遊戲是開源模型(OSS)使用量最大的類別,佔比高達 60% 以上。
-
現象: 大量的用戶使用 AI 進行虛擬角色對話、互動小說創作和沈浸式遊戲體驗。這不僅僅是小眾愛好,而是一個龐大的剛需市場。
-
驅動因素: 用戶偏好使用開源模型進行角色扮演,主要是因為這些模型(尤其是來自非美國實驗室的模型)通常具有較少的審查限制,能夠提供更豐富、更不受拘束的互動體驗。
-
商業價值: 這些用戶展現出了驚人的黏性,他們圍繞著特定的模型建立了深厚的情感連結和使用習慣。
程式設計
緊隨其後的是程式設計類別。這也是增長最快的類別之一。
-
趨勢: 隨著 Claude 3.5 Sonnet 和 Qwen 2.5 Coder 等「寫程式專家」模型的出現,開發者越來越依賴 AI 進行代碼生成、除錯和重構。
-
廣義編程: 報告發現,超過三分之二的請求被標記為「Programming/Other」,這說明需求並非局限於單一語言(如 Python 或 JS),而是涵蓋了廣義的技術問題解決和系統架構設計。
科學與自我指涉
在科學類別中,令人玩味的是,80% 的內容與機器學習和 AI 本身相關。這是一種典型的「元」現象,開發者和研究人員正在大量使用 AI 來詢問關於 AI 的知識、調試模型參數或理解最新的論文。
其他領域
-
翻譯(Translation): 一個穩定且長期的「工具型」需求。中國模型在多語言處理(特別是中英互譯)上表現優異。
-
健康(Health): 需求非常分散,沒有單一子類別佔據主導,顯示出用戶在醫療健康領域諮詢 AI 時的多樣性和長尾效應。
用戶留存的秘密
報告引入了一個富洞察力的概念:灰姑娘的「玻璃鞋」效應,用來解釋 AI 產品的用戶留存現象。
早期用戶更忠誠
數據分析顯示,一個模型發布初期的用戶群體,其留存率遠遠高於後來的用戶。
-
解釋: 這就像灰姑娘試穿玻璃鞋。最早期的用戶通常是帶著特定痛點來的,當他們發現某個新模型(例如早期的 GPT-4 或 Claude 3)完美解決了他們的問題(合腳的鞋子)時,就會建立起極深的工作流依賴。
-
習慣的力量: 一旦工作流和習慣建立,切換成本(Switching Cost)就會變得很高。即便後來有性能稍強的模型出現,這些早期用戶也往往不願輕易遷移。
對開發者的啟示
這一發現對 AI 開發者和投資人至關重要:不要只看用戶增長曲線,更要看留存曲線。 搶佔先機(First-mover advantage)在 AI 領域是真實存在的,但前提是你必須真正解決了用戶的痛點,成為他們的「玻璃鞋」。能夠在早期鎖定核心用戶群的模型,往往能在長期的競爭中存活下來。
地理與經濟,全球化的 AI 圖景
全球化分佈
OpenRouter 的數據顯示,超過 50% 的使用量來自美國以外。這是一個全球性的技術浪潮。歐洲、亞洲(特別是東亞)是用戶活躍度最高的區域。
成本與效率的博弈
報告還分析了「有效成本」與使用量的關係。
-
趨勢: 用戶對成本極度敏感,但並非一味追求低價。他們追求的是「性價比」。
-
緩存效應: 隨著 Prompt Caching(提示詞緩存)技術的普及,長文本和重複性任務的成本大幅降低,這進一步刺激了長上下文模型的使用。用戶學會了如何優化他們的請求以降低開銷,這反過來推動了模型供應商在價格結構上的創新。
複雜而多面貌的未來
總的來說《2025 年 AI 現狀報告》為我們描繪了一幅複雜而生動的畫面。
-
技術上: 我們已經跨過了單純文本生成的時代,邁入了代理推理的新紀元。未來的 AI 將更多地表現為一個會思考、會使用工具的「智能體」,而非單純的聊天機器人。
-
市場上: 雖然閉源模型依然強大,但中國引領的開源力量不容忽視。它們在特定領域(如角色扮演、編碼)和特定區域展現出了與閉源模型分庭抗禮的能力。
-
行為上: 用戶比我們想像的更具創造力。從構建複雜的編碼助手到沈浸在虛擬的異世界角色扮演中,AI 已經深深嵌入了人類的數字生活。
這份基於 100 兆 Token 的報告提醒我們:AI 的發展不是線性的,而是多維度的。對於開發者而言,理解這些真實的使用模式,或是設計下一代 AI 系統的關鍵。
📍相關報導📍
Telegram 創辦人宣布「AI 算力網路 Cocoon」上線:可用 GPU 挖 TON、100% 隱私運算

