AI 時代的致命隱患,芝商所數據中心宕機,揭示冷卻系統隱憂

華爾街見聞
2025.11.28 20:04
portai
我是 PortAI,我可以總結文章信息。

11 月 27 日,全球最大期貨交易所 CME 因數據中心冷卻系統故障導致交易中斷數小時,影響數萬億美元合約。故障源於伊利諾伊州奧羅拉數據中心的冷水機組失效。隨着 AI 發展,數據中心散熱問題日益嚴峻,其能耗是普通辦公樓 50 倍,大部分轉化為廢熱。儘管配備冗餘系統,但複雜性增加使故障難以完全避免。

芝加哥商業交易所(CME)的一次交易中斷,讓數據中心的散熱問題進入大眾的視野。

11 月 27 日,全球最大的期貨交易所運營商 CME 集團的交易平台遭遇數小時的中斷,橫跨股票、外匯、債券和大宗商品的數萬億美元合約受到影響。

此次事件的直接原因是其位於伊利諾伊州奧羅拉的數據中心冷卻系統發生故障。該數據中心由私募股權公司 KKR & Co.和 Global Infrastructure Partners 旗下的運營商 CyrusOne 所有。

CyrusOne 方面表示,其設施中的一個冷水機組發生故障,影響了多個冷卻單元,這一 “簡單” 的物理故障引發全球市場動盪。為避免設備過熱,冷卻系統的資本支出通常最高可佔到數據中心項目總投資的 15%。

這起事件不僅是一次孤立的技術故障。在 AI 浪潮一度將英偉達推上全球市值最高公司寶座的背景下,如今數據中心的散熱問題愈發突出。

熱量從何而來?

數據中心是裝滿了服務器的建築,這些服務器由協同工作的芯片堆棧組成,用於處理和存儲數據。

處理能力通常被稱為 “算力”(compute),這已成為 AI 公司訓練模型所必需的關鍵商品。

數據中心通過向其他公司出租算力來盈利,這意味着運營商有動力在同一空間內儘可能多地裝入服務器以實現容量最大化。

所有這些服務器都需要消耗大量電力。

由於其高耗能和全天候運行的特性,一個數據中心每平方英尺的能耗是普通辦公樓的 50 倍之多。

它們消耗的大部分能量最終都以廢熱的形式散發。這就像個人筆記本電腦或手機在處理複雜任務時會發燙一樣。

冷卻技術與權衡

傳統上,服務器採用冷空氣進行冷卻,其工作原理類似於家用空調。

風扇將冷空氣吹向服務器,然後將熱空氣從機房中排出。然而,隨着用於人工智能的數據中心產生更多熱量,自 2022 年左右開始,液體冷卻系統變得越來越普遍。

液體冷卻的方式多種多樣,例如將冷液體通過管道輸送至緊貼芯片的散熱板,或將整個服務器浸入裝滿冷卻液的容器中。

還有些系統使用低沸點液體,當其接觸高温芯片時會吸收熱量並蒸發,隨後再冷凝成液體循環使用。

相較於空氣,液體在單位體積內能攜帶更多熱能,因此效率更高。但這些系統安裝複雜且成本昂貴,一旦出現問題也十分棘手,沒有人希望昂貴的芯片被液體浸泡。

無論是使用空氣還是液體,熱量從芯片轉移後,最終會傳遞到一個冷卻水循環系統,再由冷卻塔或工業冷水機組將熱量釋放到外部環境中。

這正是數據中心消耗大量水資源的原因,並已引發對其在缺水地區加劇水資源壓力的擔憂。

過熱的代價

數據中心過熱可能導致數據丟失、損壞服務器內昂貴的芯片,並給客户造成服務中斷。

後果與近期多家數字基礎設施提供商因技術故障引發的服務中斷類似。

例如,網絡安全公司 Cloudflare Inc.在去年 11 月發生的重大網絡中斷,導致從社交平台 X 到 ChatGPT 等多個網站無法訪問。亞馬遜雲服務、CrowdStrike 和微軟也曾出現過類似問題。

通常,數據中心會在冗餘方面進行大量投資,包括配置備用發電機、額外的冷卻單元,甚至複製整個設施,以最大限度地降低中斷可能性。

但隨着系統變得日益複雜,儘管有冗餘措施,中斷可能仍難以避免。

CME 事件覆盤

CME 的交易平台位於芝加哥郊外奧羅拉市的一個園區內,該園區屬於數據中心運營商 CyrusOne。

據 CyrusOne 稱,11 月 27 日,其奧羅拉設施中的一個冷水機組發生故障,波及多個冷卻單元,最終導致了此次交易中斷。

事件發生後,CyrusOne 表示,在努力恢復全部製冷能力的同時,已部署了臨時冷卻設備以補充永久性系統。

根據該公司官網信息,其奧羅拉園區擁有 “先進的冷卻技術”,使用風冷式冷水機組,並在氣温低於 30 華氏度(約-1 攝氏度)時利用自然冷空氣或水進行冷卻。

據天氣預報的數據,在 11 月 28 日上午 10:40,奧羅拉當地的氣温約為 28 華氏度。

值得注意的是,CyrusOne 的網站還聲稱其奧羅拉設施擁有額外的冷卻單元,以應對風冷式冷水機組的故障。

目前尚不清楚該冗餘系統在本次事件中是否起到了預期的作用。