能像人類一樣思考！OpenAI o1 新模型亮相：數理、編程能力大幅躍進

OpenAI 最新推出推理模型「OpenAI o1」，旨在提升科學、數學及編程上的表現。目前推出兩個版本：常規更新的預覽版 o1-preview ，以及經濟版 o1-mini。
（前情提要：蘋果、輝達爭搶OpenAI融資機會，Sam Altman締造史上最強募資傳奇）
（背景補充：OpenAI 展開下輪融資「估值破1000億美元」微軟續押注跟投）

本文目錄

ChatGPT 背後開發商 OpenAI 昨（12）日推出可以進行推理的新模型「OpenAI o1」，旨在解決以往版本在科學、數學和程式碼生成上的不足。目前推出兩個版本：預覽版 o1-preview ，公司稱將為其定期更新和改進，以及專精於數學和程式碼生成，同時更便宜的 o1-mini。

即日起，ChatGPT Plus 和 ChatGPT Teams 的用戶已經可以使用這兩個版本。

OpenAI o1 能以人類思考方式回答問題

根據公司介紹，OpenAI o1 將在做出反應之前花更多時間思考，就像人類一樣，會完善自己的思考過程，嘗試不同的策略，並認識到自己的錯誤。

在性能測試上 OpenAI 指出，該模型在物理、化學和生物的高難度基準測試上表現與博士生相當，尤其在數學和編程方面表現出色。在國際數學奧林匹克（IMO）的選拔賽中，GPT-4o 只正確解答了 13% 的題目，而該模型能達到 83% 的正確率；在程式競賽（Codeforces）中，該模型排名前 89%。

目前作為早期模型，該模型尚未具備 ChatGPT 的所有功能，像是還不能瀏覽網頁以及上傳文件和圖像。

OpenAI o1 solves a complex logic puzzle. pic.twitter.com/rpJbh8FkAg

— OpenAI (@OpenAI) September 12, 2024

o1-mini 更具經濟高效

另外，OpenAI 推出了相較於 o1 較小的模型「o1-mini」，強調該模型是更具經濟高效的推理模型，並在 STEM（科學、技術、工程和數學）方面表現出色，尤其是數學和編碼，在 AIME 和 Codeforces 等評估基準上幾乎與 OpenAI o1 的性能相當。

OpenAI 表示，預計 o1-mini 將成為更快、更具成本效益的模型，適用於需要推理而無需廣泛的世界知識的應用程式。

從下圖比較數學表現與推理成本的測試中可以發現，在高中 AIME 數學競賽中，o1-mini (70.0%) 與 o1 (74.4%) 競爭力相當，同時價格便宜得多，並且表現優於 o1-preview (44.6%)。

在 Codeforces 競賽上，o1-mini 達到了1650 Elo，再次能與 o1（1673）競爭，並且高於 o1-preview 的表現（1258）。

而在回答速度上，o1-mini 的表現也較好。OpenAI 表示，在文字推理問題的測試中，o1-mini 回答正確答案的速度大約是 o1-preview 的 3-5 倍。

不過 OpenAI 也坦言，在需要智慧和推理的基準上進行評估時，o1-mini 可以表現良好，然而，在非 STEM 的事實知識任務上表現較差。

OpenAI 面臨激烈競爭

事實上，OpenAI 並非唯一投入推理模型研究的 AI 公司，Google 和 Meta 等企業也在開發類似的技術。

儘管 OpenAI 搶先推出了 o1，競爭對手可能很快會跟進。OpenAI 面臨的真正挑戰，是如何讓 o1 廣泛普及且降低成本，同時持續升級以保持競爭力。此外，據了解微軟（Microsoft）與其子公司 GitHub 正積極將 OpenAI 的新模型整合到產品之中。

全靠ChatGPT寫作業不動腦？OpenAI正開發文字浮水印技術

Intel竟曾拒絕入股OpenAI》10億鎂+AI晶片換30%股份嫌貴，網笑：英特爾沒那個命

能像人類一樣思考！OpenAI o1 新模型亮相：數理、編程能力大幅躍進

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

能像人類一樣思考！OpenAI o1 新模型亮相：數理、編程能力大幅躍進

OpenAI o1 能以人類思考方式回答問題

o1-mini 更具經濟高效

OpenAI 面臨激烈競爭

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類