AI 算力基礎設施迎來革命性突破!OpenAI 重磅宣布,已聯手微軟、NVIDIA、AMD、Intel 與 Broadcom 等矽谷巨頭,共同開發出名為「MRC(多路徑可靠連接)」的全新網路協議。MRC 徹底解決了十萬級 GPU 叢集在訓練 AI 模型時面臨的嚴重「塞車」與當機問題。目前該協議已應用於全球最大的 GB200 超級電腦中,並正式開源給產業界,為未來超級 AI 模型的誕生打通了最重要的數據任督二脈。
(前情提要:GPT-5.5 Instant 向全體用戶開放,OpenAI 教你怎麼寫 Prompt 更聰明、有效率)
(背景補充:「我以為他要打我」OpenAI 總裁還原 2017 鬧鬼莊園決裂夜:馬斯克太獨裁)
在前沿 AI 模型的軍備競賽中,算力的瓶頸往往不在於 GPU 本身,而在於如何讓成千上萬張 GPU 「完美同步」地交換數據。
2026 年 5 月 5 日,OpenAI 發布了一項震撼科技圈的基礎設施更新:他們與 AMD、Broadcom、Intel、Microsoft 以及 NVIDIA 等晶片與雲端巨頭聯手,成功開發出名為「MRC(Multipath Reliable Connection,多路徑可靠連接)」的網路協議,並已透過開放運算計畫(OCP)將規格開源給全產業。
大模型訓練的致命傷:一個封包卡住,全網停擺
OpenAI 在公告中指出,前沿模型的訓練高度依賴 GPU 之間極速且可靠的資料傳輸。在傳統網路架構下,只要一個資料包發生延遲或設備故障,就會導致整個同步訓練步驟卡住,讓昂貴的 GPU 陷入閒置。過去,單一連結的故障經常導致訓練中斷、被迫重新啟動,或是花費大量時間等待路由重新計算,成本極其高昂。
為了解決這個隨著叢集規模擴大(如傳聞中的 Stargate 星際之門超級電腦)而日益嚴重的問題,OpenAI 決定從根本上重新設計網路層。
MRC 的三大核心設計創新
MRC 協議透過三項顛覆性的底層架構改動,實現了超低延遲與極高的容錯率:
- 多平面(Multi-plane)網路拓撲:將高達 800Gb/s 的網路介面拆分為多個較小連結(例如 8 個 100Gb/s),連接至不同的交換器形成平行「平面」。這使得系統只需 2 層交換器就能連接超過 10 萬個 GPU(傳統架構需 3-4 層),大幅降低了建置成本、功耗與元件數量。
- 適應性封包噴灑(Adaptive Packet Spraying):有別於傳統單一傳輸只走一條路徑的壅塞風險,MRC 會將封包分散到數百條路徑上。系統具備「動態負載平衡」,偵測到壅塞就自動切換;若交換器過載,則啟動「封包修剪(Packet Trimming)」僅轉發標頭以觸發快速重傳,有效減少誤判。
- 靜態源路由(SRv6 Source Routing)取代動態路由:大膽停用傳統的 BGP 動態路由協議,改由發送端直接在封包中嵌入完整路徑。交換器只需無腦遵循靜態轉發表,消除複雜的動態故障。當故障發生時,MRC 能在「微秒級別」繞過壞路徑,讓訓練作業幾乎毫無感覺。
已部署於全球最大 GB200 超級電腦
這項技術並非紙上談兵。OpenAI 證實,MRC 目前已全面部署在其所有最大型的 NVIDIA GB200 超級電腦上,包括與甲骨文(Oracle Cloud)在德州 Abilene 合作的站點,以及微軟的 Fairwater 超級電腦中,並正用於訓練多個下一代前沿大模型。OpenAI 強調:
「在生產環境中,即使每分鐘有多個連結發生抖動,或是需要重啟第一層交換器,訓練作業也幾乎不受影響,不再需要特別協調維護時間。」

📍相關報導📍
OpenAI 手機量產時間提前至 2027,傳出聯發科獨吞處理器訂單
