一位前 NASA 工程師兼 Google 雲端專家解釋為何在太空建立資料中心是完全不切實際的想法,從電力、散熱到輻射耐受度等各方面都充滿挑戰。本文源自 Taranis 所著文章,由動區整理、編譯及撰稿。
(前情提要:這男人想把比特幣礦機送上太空:無限陽光+零冷卻費是 BTC 挖礦聖地 )
(背景補充:把三峽大壩搬上太空》中國計劃建造太陽能宇宙發電站,人類將迎能源自由? )
為了澄清起見,我是一名前 NASA 工程師/科學家,擁有太空電子學博士學位。我也在 Google 工作了 10 年,在公司的各個部門工作過,包括 YouTube 和負責部署 AI 運算能力的雲端部門,所以我很有資格在這個議題上發表意見。
簡單來說:這絕對是個糟糕的想法,真的完全沒有道理。原因有很多,但總歸一句話就是,讓資料中心運作所需的電子設備,特別是以 GPU 和 TPU 形式部署 AI 運算能力的資料中心,完全不適合在太空中運作。
如果你之前沒有在這個領域工作過,我要提醒你不要憑直覺假設,因為讓太空硬體在太空中實際運作的現實情況並不一定是顯而易見的。
電力

人們想要這麼做的首要原因似乎是太空中有充足的電力。事實並非如此。基本上你只有兩個選擇:太陽能和核能。太陽能意味著部署帶有光電池的太陽能板陣列 — 基本上相當於我在愛爾蘭家中屋頂上的設備,只是在太空中。它確實可以運作,但並不會神奇地比在地面上安裝太陽能板更好 — 你通過大氣層損失的電力並沒有那麼多,所以對所需面積的直覺大致上是對的。
太空中部署過最大的太陽能陣列是國際太空站(ISS)的系統,峰值時可提供略高於 200kW 的電力。重要的是要提到,部署這個系統需要好幾次太空梭飛行和大量工作 — 它的面積約為 2,500 平方公尺,超過美式足球場的一半大小。
以 NVIDIA H200 為參考,每個 GPU 設備的功率需求約為每晶片 0.7kW。這些無法單獨運作,而且電源轉換也不是 100% 有效率,所以實際上每個 GPU 1kW 可能是更好的基準。因此,一個巨大的、ISS 大小的陣列大約可以為 200 個 GPU 供電。這聽起來很多,但讓我們保持一些視角:OpenAI 即將在挪威建造的資料中心打算容納 100,000 個 GPU,每個可能都比 H200 更耗電。
要達到這個容量,你需要發射 500 個 ISS 大小的衛星。相比之下,一個單獨的伺服器機架(如 NVIDIA 預先配置銷售的)將容納 72 個 GPU,所以每個巨型衛星只相當於大約三個機架。
核能也無濟於事。我們這裡不是在談核反應爐 — 我們談的是放射性同位素熱電產生器(RTG),其典型功率輸出約為 50W – 150W。所以甚至不足以運行單個 GPU,即使你能說服某人給你一塊次臨界的鈽,並且不介意你有數百次機會在發射載具爆炸性自毀時將其散布在廣泛區域。
熱調節

我看到不少人對這個概念的評論說:「嗯,太空很冷,所以冷卻會很容易,對吧?」
呃…不…真的不是。
地球上的冷卻相對簡單。空氣對流效果很好 — 讓空氣吹過一個表面,特別是設計成具有大表面積與體積比的散熱片,可以相當有效地將熱量從散熱片傳遞到空氣中。如果你需要比直接冷卻更高的功率密度(而高功率 GPU 絕對屬於這類),你可以使用液體冷卻將熱量從晶片傳遞到其他地方的較大散熱器/散熱片。
在地球上的資料中心,通常會設置冷卻循環,機器通過冷卻劑(通常是水)冷卻,冷卻劑在機架周圍泵送,提取熱量並將冷卻劑返回循環。通常冷卻劑通過對流冷卻到空氣中,所以無論如何,這就是地球上的運作方式。
在太空中,沒有空氣。環境接近於絕對真空,沒有實際差別,所以對流根本不會發生。在太空工程方面,我們通常考慮的是熱管理,而不僅僅是冷卻。事實是,太空本身並沒有溫度。只有物質才有溫度。這可能會讓你驚訝,但在地月系統中,幾乎任何東西的平均溫度基本上與地球的平均溫度相同,因為這就是地球具有該特定溫度的原因。
如果衛星在旋轉,有點像烤架上的雞,它會傾向於保持與地球表面大致相似的一致溫度。如果它不旋轉,背對太陽的一側會逐漸變冷,由於宇宙微波背景的限制,大約 4 開爾文,略高於絕對零度。在向陽面,情況可能會變得相當熱,達到數百攝氏度。因此,熱管理需要非常仔細的設計,確保熱量被仔細地引導到需要去的地方。因為真空中沒有對流,這只能通過傳導或某種熱泵來實現。
我設計過在太空中飛行的太空硬體。在一個特定案例中,我設計了一個相機系統,需要非常小巧輕盈,同時仍提供科學級的成像能力。熱管理是設計過程的核心。必須如此,因為小型太空船的電力稀缺,而熱管理必須在保持質量最小化的同時實現。所以對我來說沒有熱泵或花哨的東西:我走了另一個方向,設計系統在峰值時最多消耗約 1 瓦特,當相機閒置時降至約 10%。
所有這些電力都會轉化為熱量,所以如果我只在捕獲影像時消耗 1 瓦特,然後在數據進入 RAM 後立即關閉影像感測器,我可以將功耗減半,然後當影像下載到飛行電腦後,我可以關閉 RAM,將功率降低到相對微小的水平。唯一需要的熱管理是將電路板邊緣螺栓固定到機架上,這樣電路板內部的銅層就可以傳遞產生的任何熱量。
冷卻哪怕是單個 H200 都將是絕對的噩夢。顯然散熱片和風扇根本不會起作用,但有液冷版本的 H200。假設使用了這個版本。這些熱量需要傳遞到散熱板 — 這不像你車裡的散熱器,記住沒有對流?——它需要將熱量輻射到太空中。假設我們可以將其指向遠離太陽的方向。
ISS 上的主動熱控制系統(ATCS)是這種熱控制系統的一個例子。這是一個非常複雜的系統,使用氨冷卻迴路和大型熱輻射板系統。它的散熱限制為 16kW,所以大約 16 個 H200 GPU,略高於地面機架的四分之一。
熱輻射板系統尺寸為 13.6m x 3.12m,即大約 42.5 平方公尺。如果我們以 200kW 為基準並假設所有這些電力都將供給 GPU,我們需要一個大 12.5 倍的系統,即大約 531 平方公尺,或相關太陽能陣列大小的約 2.6 倍。這現在將是一個非常大的衛星,面積超過 ISS,而所有這些只相當於地球上的三個標準伺服器機架。
輻射耐受度
這現在進入我的博士研究領域了。假設你可以在太空中為電子設備供電和冷卻,你還有輻射耐受度的問題。

第一個問題是在太空的哪裡?
如果你在低地球軌道(LEO),你在內輻射帶內,那裡的輻射劑量類似於高空飛機所經歷的 — 比客機多,但不算太糟。更遠的地方,在中地球軌道(MEO),GPS 衛星所在的地方,它們不受范艾倫輻射帶的保護 — 更糟的是,這個軌道實際上就在輻射帶內。
在輻射帶之外,你基本上就在深空中(細節會因你離太陽有多近而有所不同,但原理類似)。
太空中有兩個主要的輻射源:來自我們的恆星太陽,以及來自深空。這基本上涉及以光速的相當大百分比移動的帶電粒子,從電子到原子核,質量大約到氧的質量。這些可以通過撞擊製造晶片的材料造成直接損害,或間接地,通過穿過矽晶片而不撞擊任何東西,但仍在後面留下電荷軌跡。
這種情況最常見的後果是單事件翻轉(SEU),其中直接撞擊或(更常見的)粒子穿過電晶體短暫(約 600 皮秒)導致不應該發生的脈衝。如果這導致位元被翻轉,我們稱之為 SEU。除了對數據的損害,它們不會造成永久性損害。
更糟的是單事件閂鎖。當帶電粒子的脈衝導致電壓超出為晶片供電的電源軌時,就會發生這種情況,導致電晶體基本上打開並無限期保持開啟。我將跳過涉及的半導體物理學,但簡而言之,如果這以糟糕的方式發生,你可能會在不應該存在的電源軌之間建立連接通路,永久燒毀閘極。這可能會也可能不會摧毀晶片,但如果沒有緩解措施,它可能使其無法使用。
對於較長時間的任務,太空資料中心就屬於這種情況,因為它們太昂貴,必須飛行很長時間才能在經濟上可行,還需要考慮總劑量效應。隨著時間的推移,太空中晶片的性能會下降,因為反覆的粒子撞擊使微小的場效電晶體切換更慢,開關更不完全。
在實踐中,這會導致最大可行時脈速率隨時間衰減,功耗增加。雖然不是最難處理的問題,但仍必須緩解,否則你往往會遇到這樣的情況:在發射時運作良好的晶片因為電源供應或冷卻變得不足,或者時脈運行速度超過晶片可以應付的速度而停止工作。因此,有必要有一個時脈產生器,可以根據需要降低到較低的速度——這也可以用來控制功耗,所以晶片不會停止運作,只是會變慢。
下一個常見問題是,你不能只使用屏蔽嗎?不,不太行,或者也許在某種程度上可以。某些類型的屏蔽可能會使問題變得更糟——對屏蔽的撞擊可能會引起粒子雨,然後一次造成多重撞擊,這更難緩解。最強的宇宙射線可以穿過驚人數量的固體鉛——由於質量總是非常寶貴,很少能夠部署大量的屏蔽,所以輻射耐受度必須內建於系統中(這通常被稱為設計輻射硬化,RHBD)。
GPU 和 TPU 以及它們所依賴的高頻寬 RAM 對於輻射耐受度來說絕對是最糟糕的情況。小幾何電晶體本質上更容易受到 SEU 和閂鎖的影響。非常大的矽晶片面積也使撞擊頻率更高,因為這與面積成比例。
真正設計用於在太空中工作的晶片採用不同的閘極結構和更大的幾何尺寸。通常使用的處理器性能大約相當於 2005 年的 20 年前 PowerPC。更大的幾何尺寸本質上更能耐受 SEU 和總劑量,不同的閘極拓撲結構對閂鎖免疫,同時通過電路級的細粒度冗餘提供一定程度的 SEU 緩解。用這種方法製造 GPU 或 TPU 當然是可能的,但性能將只是當前一代地球 GPU/TPU 的極小部分。
有一種只活一次的方法,就是發射這個東西,然後希望最好的結果。這在小型立方衛星中很常見,也是為什麼小型立方衛星經常在軌道上幾週後就失敗的原因。買家自負!
通訊
大多數衛星通過無線電與地面通訊。很難可靠地獲得超過約 1Gbps 的速度。有一些有趣的工作使用雷射與衛星通訊,但這取決於良好的大氣條件才可行。與地球上的典型伺服器機架相比,100Gbps 的機架對機架互連被認為是低端,很容易看出這也是一個顯著的差距。
結論
我想如果你真的想這麼做,這勉強是可能的,但我認為我已經在上面證明了,首先這將極其難以實現,與地球資料中心相比成本不成比例地高,並且最多只能提供平庸的性能。
如果你仍然認為這值得做,祝你好運,太空很困難。對我來說,我認為這是一個災難性的壞主意,但你做你自己的選擇吧。

