LLM西洋棋賽落幕：OpenAI o3 奪冠，xAI Grok 4 沒贏一盤被完封

Kaggle AI 國際西洋棋賽落幕，未經專門訓練的 o3 以 4-0 完封擊敗 Grok 4，顯現推理能力極強。
（前情提要：馬斯克揚言提告蘋果：App Store 排名存在壟斷行為，惡意打壓 Grok ）
（背景補充：Grok 4 今開放免費使用，馬斯克 xAI 與 GPT-5 正面交鋒）

近日 Google 旗下 Kaggle 舉辦的「人工智慧西洋棋表演賽」8 月 14 日公布結果，OpenAI 通用大型語言模型 o3 以 4 : 0 橫掃 xAI 的 Grok 4，奪下冠軍，並成為首個在未經專門訓練下完封對手的 LLM。

賽事共 8 組 AI 參與，為期三天，以淘汰賽決勝。

語言模型比賽看點

根據 OpenTools.ai 報導，o3 在一路晉級過程中連續三場交出 4 : 0 的完封成績，準決賽更淘汰自家輕量版 o4 mini。

相較之下，Grok 4 常在早盤一度領先，卻於賽事最末多次「丟后」（犧牲行動力最強的 Queen）。西洋棋特級大師 Hikaru Nakamura 評價 o3 「錯誤極少」，並指 Grok 4 常出現戰術自爆。

前世界冠軍 Magnus Carlsen 形容 Grok 的棋風：

像在看小孩下棋。

他估算 Grok 的 Elo 約 800，o3 約 1200，遠低於頂尖人類或專精型棋類 AI。

Elo：一種專業分制度（英語：Elo rating system）是指由匈牙利裔美國物理學家Arpad Elo創建的一個衡量各類對弈活動水準的評價方法，是當今對弈水準評估公認的權威標準，且被廣泛用於西洋棋、圍棋、足球、籃球等運動。西洋棋 Elo 最高分數由 Magnus Carlsen 創下 2882 分。

通用型 AI 與專精型 AI 角力

Stockfish 這類專精型系統靠深度搜尋與領域評分，長期坐擁約 3644 Elo。通用型 LLM 則透過大規模跨領域語料學習，下棋僅是推理能力的延伸。雖然 o3 能擊敗 Grok 4，但今年稍早仍不敵 Stockfish，顯示通用模型在棋藝遊戲推理的穩定性與深度計算上仍有差距。

📍相關報導📍

豪賭 OpenAI，孫正義又「一把翻身」了

以太坊開發者安裝「惡意 AI 插件」遭駭，加密錢包三天清空，十年資安經驗也沒用

Tags: AI Chess LLM OpenAI xAI 國際象棋西洋棋

LLM西洋棋賽落幕：OpenAI o3 奪冠，xAI Grok 4 沒贏一盤被完封

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類