液體冷卻方案有望進入更多的企業數據中心。在本文中,我們就將從五個方面的原因入手與廣大讀者朋友們共同展開探討。
當前,那些在傳統上曾經主要是被用于大型主機和學術型超級計算機的液體冷卻方案可能很快就會滲透到更多的企業級數據中心了。現如今,有鑒于新的、要求更高的企業工作負載正在持續的推高數據中心服務器機架的功率密度,使得企業數據中心的管理運營人員們迫切需要尋找比空氣冷卻系統更有效的替代方案。
我們已經采訪了一系列的數據中心操作運營人員和供應商,詢問了他們關于將液體冷卻方案推廣到主流應用的看法。受訪者中的一部分人并不想透露其所在數據中心所采用的具體的應用程序,并聲稱他們將這些工作負載及其冷卻方式視為其所在企業的競爭優勢。
一系列的超大規模云服務運營商,包括諸如微軟、谷歌的母公司Alphabet、臉書Facebook和百度,已經組建起了一只專門致力于打造采用液體冷卻服務器機架的開放式規范的群體,但該群體目前并沒有說明他們將會使用的具體方案。然而,在這些超大規模數據中心中,至少有一類工作負載明顯需要采用液體冷卻方案,即:由GPU加速的機器學習系統(或者對于谷歌公司而言,便是其最新的TPU張量處理器,該公司曾公開表示其TPU現在使用的是直接冷卻芯片的液體冷卻設計)。
盡管當前的企業數據中心運營商們對于液體冷卻方案的采用這一主題感到疑慮和擔憂,但目前已經有一些使用趨勢開始出現了。如果您企業在數據中心支持以下任何工作負載,那么您的數據中心在未來也可能采用液體冷卻方案:
1、AI和加速器
近年來,由摩爾定律所描述的年度CPU性能增長的速率已經呈現出大幅放緩的趨勢。部分的原因是由于加速器處理器(主要是GPU),以及FPGA和專用ASIC正越來越多地進入企業數據中心。
GPU驅動的機器學習可能是除HPC(高性能計算)領域之外最為常見的硬件加速使用案例。然而,在由市場調研機構451 Research最近所進行的一項調查中,大約有三分之一的IT服務提供商表示說,他們所在的企業計劃在在線數據挖掘、分析、工程模擬、視頻、其他實時媒體、欺詐檢測、負載平衡以及類似延遲敏感的服務中采用該加速系統。
硬件加速器具有比CPU高得多的熱設計點(TDP,thermal design points),通常需要消耗200W或更多的功率來對其實施冷卻;而添加高性能服務器CPU,那么您企業數據中心的一款單一的系統就將需要超過1kW的功率來對其實施冷卻。
英特爾公司也在積極的突破其傳統設計的服務器處理器的150W功率的限制。 “越來越多的企業客戶想要更強大的芯片產品,我們開始看到這些芯片產品所消耗的功率瓦特數量正在逐漸上升。”來自Uptime Institute的執行董事安迪勞倫斯(Andy Lawrence)表示說。
當前企業數據中心服務器的機架密度正在不斷上升。大多數數據中心正常運行軌道上現在至少有一些超過10kW的機架,而20%的機架上甚至還有30kW或更高功率密度的機架。但這些工作負載并不被視為高性能計算。“他們只是表示他們的工作負載有更高密度的機架而已。”勞倫斯表示說。
“如果將GPU與英特爾處理器放在一起,國內服務器租用 服務器托管,他們的功率密度可能會達到以前的三倍。”他說。液體冷卻方案顯然非常適合這些加速器,特別是浸入式冷卻方案,可以冷卻GPU和CPU。
2、冷卻高密度存儲
隨著當前企業數據中心的存儲密度的持續增加,可能會使得有效的冷卻存儲變得更加困難。數據中心所安裝的大部分存儲容量都是由非密封的硬盤驅動器所組成的,不能采用液體冷卻方案。然而,較新的技術在這方面則為業界的企業用戶們帶來了希望。例如,固態的驅動器可以使用全浸入式的解決方案進行冷卻。此外,在最新一代的存儲硬件中創建支持高密度,高速讀/寫頭的氦氣要求密封單元,使其適用于液體冷卻方案。
正如在451 Research所發布的報告中所指出的那樣,固態硬盤和充滿氦氣的硬盤驅動器的組合意味著無需將空氣冷卻存儲與液體冷卻處理方式分開。硬盤驅動器的可靠性的提升還帶了一大益處,即:在冷卻液中浸入驅動器可以有助于減少熱量和濕度對組件的影響。
3、網絡邊緣計算
減少當前和未來應用程序延遲的需求進一步的推動了對網絡邊緣新一代數據中心的需求。這些可以是在無線塔、工廠操作車間或零售店中所部署的高密度的遠程設施。而且這些設施可能會越來越多地托管高密度的計算硬件,例如用于機器學習的GPU打包集群。