Grok4 以 73 分登頂 AI 智力榜,這讓馬斯克在川普政府政策下,多維競爭的方式變得更複雜。
(前情提要:Grok 4 來了!馬斯克本週四直播發布:將重寫整個人類知識庫,跑分傳大勝 GPT o3 )
(背景補充:微軟高管:AI 已爲公司節省五億美元、35% 程式碼由 AI 撰寫,裁員 1.5 萬人只是開始? )
這個月 10 日,Elon Musk 領軍的 xAI 端出 Grok4,在大型語言模型智力指數以 73 分稱冠 Artificial Analysis 最新榜單,首次把 OpenAI o3 與 Google Gemini 2.5 Pro 壓在後頭,這可能表示競爭規則正快速改寫。
Grok4 衝上榜首
根據 Office Chai 報導,Grok4 在 MMLU-Pro、GPQA Diamond、SciCode、AIME、Math-500 等測試全面領先,SAT 滿分、GRE 接近滿分,展現推理硬實力。Musk 公開說:
「我創建 Grok 是為了尋求對宇宙的最大理解。」
OpenAI、Google 分數落後不代表實戰失色。OpenAI o3-pro 強調可靠性與生態整合,針對科學、數學、商業與語音互動優化,目標是把模型嵌入更廣泛的應用。
Google Gemini 2.5 Pro 則以 200 萬 token 上下文視窗取勝,能一次處理整個程式碼庫或長篇電影,並支援文字、圖像、音訊、視訊多模態輸入,在需要具身推理的場景格外突出。
不只是比分數的多維戰局
單一智力指標已不足描述當前的 AI 語言模型競爭。DeepSeek-R1 以十分之一運算成本追上 GPT-4 推理水準;GPT-4o mini 在數學測驗通過率達 99.5%。
根據 Semrush 統計,主流模型性能差距從 2024 年的 11.9% 收斂到 5.4%。企業真正關心的是效率、成本、部署便利與安全。實務上,AI 在資料分析能帶來 25% 至 80% 的生產力提升,能直接拉高企業利潤空間。
川普政府上任後,外界預期共和黨將放寬科技監管、加碼 AI 投資,尤其在與中國科技競逐下,AI 被視為戰略核心。美國國防部透過不斷的基準測試鞏固 AI 語言模型的安全與可信度,也暗示政府資源將向美國本土模型傾斜。對投資人來說,政策友善與地緣政治風險交織,報酬與不確定性並存。
Grok4 的 73 分刷新天花板,但真正勝負將取決於誰能在技術、商業與政策三線找到最穩妥的交會點。而大家都能預測,馬斯克和川普之間的「感情糾葛」,再創新黨派,可能會讓 Grok 的市場佔有產生變數。
📍相關報導📍
馬斯克再嗆川普:不公開蘿莉島檔案誰信你?「美國黨」主張優先調查