• 【超完整懶人包】認識比特幣!原理與應用全面解析|動區新手村
  • Account
  • Account
  • BlockTempo Beginner – 動區新手村
  • Change Password
  • Forgot Password?
  • Home 3
  • Login
  • Login
  • Logout
  • Members
  • Password Reset
  • Register
  • Register
  • Reset Password
  • User
  • 不只加密貨幣,談談那些你不知道的區塊鏈應用|動區新手村
  • 動區動趨 BlockTempo – 最有影響力的區塊鏈新聞媒體 (比特幣, 加密貨幣)
  • 所有文章
  • 最完整的「區塊鏈入門懶人包」|動區新手村
  • 服務條款 (Terms of Use)
  • 關於 BlockTempo
  • 隱私政策政策頁面 / Privacy Policy
動區動趨-最具影響力的區塊鏈新聞媒體
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
動區動趨-最具影響力的區塊鏈新聞媒體
No Result
View All Result
Home 區塊鏈商業應用 AI

每次查詢 2 美分勝 GPT-5.4:Perplexity 公開搜尋 Agent 後訓練配方

Token 形上學 by Token 形上學
2026-04-23
in AI
A A
36
SHARES
分享至Facebook分享至Twitter

Perplexity 公開搜尋 Agent 後訓練流程,基於開源 Qwen3.5 的模型在搜尋準確率上超越 GPT-5.4,同等任務成本僅需 2.0 美分,不及 GPT-5.4 的四分之一。
(前情提要:Perplexity Personal Computer 上線:讓 AI 接管 Mac 本機,$200 月費向 Max 使用者開放)
(背景補充:不會寫程式也能用?Perplexity Computer 讓 AI 直接替你交付成果、自動跑工作流程)

本文目錄

Toggle
  • 先穩住規矩,再教它判斷
  • 答對才算數,搜尋越少越好
  • 比較的重點不在準確率,在成本

 

開源模型能不能打贏閉源旗艦模型?Perplexity 用一份技術報告給了一個讓業界難以忽視的答案。這家以 AI 搜尋起家的公司,近日完整公開了旗下網頁搜尋 Agent 的後訓練方法論。

先穩住規矩,再教它判斷

整個訓練流程的底座,是兩個阿里巴巴通義千問系列的開源模型:Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B。光是這個選擇就已經表態 Perplexity 不打算付費使用 GPT 或 Claude 當骨幹,而是從開源模型出發,自己雕出搜尋能力。

訓練分兩個階段。第一階段是監督微調(SFT)。翻譯過來就是,先給模型大量「標準答案」,讓它把基本行為規矩學好:回答要符合指令、語言要一致、格式不能亂。這個階段不追求聰明,只追求可靠 — 就像先把新員工的工作習慣養正,才輪到訓練判斷力。

第二階段是強化學習(RL),用的是 GRPO 演演算法。讓模型在真實任務裡反覆嘗試,每次根據結果的好壞調整策略。

GRPO 的特別之處在於不需要另外訓練一個「評審 AI」,而是直接把同批次的輸出互相比較,從中提取學習訊號。這讓訓練成本更低,也更容易規模化。

RL 的訓練資料由兩條線構成。一條是 Perplexity 自行合成的多跳推理題庫。答題者必須先搜尋第一個事實,再根據那個事實去搜尋下一個,反覆 2 到 4 次才能得出最終答案。

這類問題專門訓練模型的「鏈式推理」能力,讓它學會把搜尋當成一連串有邏輯的步驟,而不是一次性的關鍵字查詢。

另一條是基於評分標準(rubric)的對話資料,把「遵循格式」「保持語言一致」等 SFT 建立的好習慣,轉化為強化學習階段同樣可以量化的條件,防止模型在「追高分」的過程中把基本紀律丟掉。

答對才算數,搜尋越少越好

RL 訓練最大的難題,是如何定義「好的搜尋行為」。給分標準訂得不好,模型很容易學會表面上看起來流暢、實際上卻答錯了的回應。說服力和準確性是兩件事,但 AI 的訓練訊號很容易把兩者混在一起。

Perplexity 的解法稱為門控聚合。核心邏輯是:偏好得分必須在答案本身正確的前提下才會被計算。如果模型答錯,無論它的輸出看起來多有條理,也得不到任何加分。

這道「門」把事實準確性放在所有偏好評估之前,確保獎勵訊號始終繫結在「有沒有答對」這件事上,而不是「說話方式有沒有討喜」。

效率懲罰的邏輯同樣值得注意。判斷一次搜尋是否「太多工具呼叫」的基準,不是固定數字,而是同批次中其他答對的模型平均用了幾次。白話說就是:你的同組同學用三次搜尋答對了,你用了七次也答對了,你仍然會被扣效率分。

比較的重點不在準確率,在成本

評測結果用的是 FRAMES,一個業界認可的多跳搜尋基準,題目設計要求跨多個來源、分多個步驟推理才能作答。在這個基準上,後訓練後的 Qwen3.5-397B-SFT-RL 即使只用一次工具呼叫,準確率就達到 57.3%,超越 GPT-5.4 和 Claude Sonnet 4.6 各約 5 個百分點。

但準確率只是敘事的第一層。真正引人注意的是成本欄位的數字。把工具呼叫上限放寬到四次時,三個模型的準確率分別是:Qwen3.5-397B-SFT-RL 73.9%、GPT-5.4 67.8%、Claude Sonnet 4.6 62.4%。

準確率最高,這一點已經夠有競爭力。但每次查詢的費用分別是 2.0 美分、8.5 美分、15.3 美分,Perplexity 的成本比 GPT-5.4 少了七成五,比 Claude 少了近九成。數字按各廠商公開 API 定價計算,未含快取最佳化;實際部署場景下差距可能更大。

這個組合的底層邏輯並不神秘:Qwen3.5 是開源模型,推論定價本來就遠低於閉源旗艦。Perplexity 做的事是在這個低成本底座上,用精準設計的後訓練流程把搜尋準確率推過閉源競爭對手。它不用為訓練費溢價買單,也不用為 API 授權買單,最後卻能在搜尋這個具體任務上拿到更好的分數。

加入動區 Telegram 頻道

📍相關報導📍

Perplexity Personal Computer 上線:讓 AI 接管 Mac 本機,$200 月費向 Max 使用者開放

不會寫程式也能用?Perplexity Computer 讓 AI 直接替你交付成果、自動跑工作流程

Perplexity AI 瀏覽器「Comet」開放免費使用:總結內容、自主導航、整合 Gmail…實用功能整理

Perplexity 全球下載量暴跌 80%:三大因素澆滅「AI 版 Google」增長神話

OpenAI 900 職業研究打臉 AI 失業恐慌:18% 高風險族群飯碗反而最穩?怎麼回事

Tags: ClaudeFramesOpenAIPerplexityQwen3.5


關於我們

動區動趨

為您帶來最即時最全面
區塊鏈世界脈動剖析
之動感新聞站

訂閱我們的最新消息

動區精選-為您整理一週間的國際動態

戰略夥伴

Foresight Ventures Foresight News MEXC

主題分類

  • 關於 BlockTempo

動區動趨 BlockTempo © All Rights Reserved.

No Result
View All Result
  • 所有文章
  • 搶先看
  • 市場脈動
  • 商業應用
  • 區塊鏈新手教學
  • 區塊鏈技術
  • 數據洞察
  • 政府法規
  • RootData
  • 登入

動區動趨 BlockTempo © All Rights Reserved.