Kaggle AI 國際西洋棋賽落幕,未經專門訓練的 o3 以 4-0 完封擊敗 Grok 4,顯現推理能力極強。
(前情提要:馬斯克揚言提告蘋果:App Store 排名存在壟斷行為,惡意打壓 Grok )
(背景補充:Grok 4 今開放免費使用,馬斯克 xAI 與 GPT-5 正面交鋒 )
近日 Google 旗下 Kaggle 舉辦的「人工智慧西洋棋表演賽」8 月 14 日公布結果,OpenAI 通用大型語言模型 o3 以 4 : 0 橫掃 xAI 的 Grok 4,奪下冠軍,並成為首個在未經專門訓練下完封對手的 LLM。
賽事共 8 組 AI 參與,為期三天,以淘汰賽決勝。
語言模型比賽看點
根據 OpenTools.ai 報導,o3 在一路晉級過程中連續三場交出 4 : 0 的完封成績,準決賽更淘汰自家輕量版 o4 mini。
相較之下,Grok 4 常在早盤一度領先,卻於賽事最末多次「丟后」(犧牲行動力最強的 Queen)。西洋棋特級大師 Hikaru Nakamura 評價 o3 「錯誤極少」,並指 Grok 4 常出現戰術自爆。
前世界冠軍 Magnus Carlsen 形容 Grok 的棋風:
像在看小孩下棋。
他估算 Grok 的 Elo 約 800,o3 約 1200,遠低於頂尖人類或專精型棋類 AI。
通用型 AI 與專精型 AI 角力
Stockfish 這類專精型系統靠深度搜尋與領域評分,長期坐擁約 3644 Elo。通用型 LLM 則透過大規模跨領域語料學習,下棋僅是推理能力的延伸。雖然 o3 能擊敗 Grok 4,但今年稍早仍不敵 Stockfish,顯示通用模型在棋藝遊戲推理的穩定性與深度計算上仍有差距。

