Grok4智力比分贏了OpenAI o3和Gemini 2.5 Pro！多元競爭轉戰政治面？

這個月 10 日，Elon Musk 領軍的 xAI 端出 Grok4，在大型語言模型智力指數以 73 分稱冠 Artificial Analysis 最新榜單，首次把 OpenAI o3 與 Google Gemini 2.5 Pro 壓在後頭，這可能表示競爭規則正快速改寫。

根據 Office Chai 報導，Grok4 在 MMLU-Pro、GPQA Diamond、SciCode、AIME、Math-500 等測試全面領先，SAT 滿分、GRE 接近滿分，展現推理硬實力。Musk 公開說：

「我創建 Grok 是為了尋求對宇宙的最大理解。」

OpenAI、Google 分數落後不代表實戰失色。OpenAI o3-pro 強調可靠性與生態整合，針對科學、數學、商業與語音互動優化，目標是把模型嵌入更廣泛的應用。

Google Gemini 2.5 Pro 則以 200 萬 token 上下文視窗取勝，能一次處理整個程式碼庫或長篇電影，並支援文字、圖像、音訊、視訊多模態輸入，在需要具身推理的場景格外突出。

單一智力指標已不足描述當前的 AI 語言模型競爭。DeepSeek-R1 以十分之一運算成本追上 GPT-4 推理水準；GPT-4o mini 在數學測驗通過率達 99.5%。

根據 Semrush 統計，主流模型性能差距從 2024 年的 11.9% 收斂到 5.4%。企業真正關心的是效率、成本、部署便利與安全。實務上，AI 在資料分析能帶來 25% 至 80% 的生產力提升，能直接拉高企業利潤空間。

川普政府上任後，外界預期共和黨將放寬科技監管、加碼 AI 投資，尤其在與中國科技競逐下，AI 被視為戰略核心。美國國防部透過不斷的基準測試鞏固 AI 語言模型的安全與可信度，也暗示政府資源將向美國本土模型傾斜。對投資人來說，政策友善與地緣政治風險交織，報酬與不確定性並存。

Grok4 的 73 分刷新天花板，但真正勝負將取決於誰能在技術、商業與政策三線找到最穩妥的交會點。而大家都能預測，馬斯克和川普之間的「感情糾葛」，再創新黨派，可能會讓 Grok 的市場佔有產生變數。

動區動趨