如何保障數據中心的穩定運行,是多年來一直困擾業界的難題。機房環境如果發生未預期變化,可能造成難以估計的損失。所以我們希望能構建一個“變更沙盤”,在真實變更之前,操作人員可以先在沙盤中進行試變更,若變更效果在預期內,再對真實環境進行變更,從而盡可能減少變更導致的機房故障。
近期,阿里巴巴-南大聯合研究院聯合實現并上線完成了一個高精度,可連接實時監控系統、基于 CFD 的變更沙盤系統。本系統在 off-the-shelf CFD 軟件上實現了工業級精度的變更沙盤測試和驗證。今天,我們就來觀摩這個從零到一的嘗試。
項目背景
隨著阿里巴巴業務不斷拓展,其數據中心規模也越來越大。相應地,數據中心內的日常演練、運營優化等變更操作越來越頻繁;而規模增加導致環境的復雜程度呈指數增長,變更是否可能導致故障,僅憑專家經驗,已經越來越難以判斷。同時,數據中心變更故障可能造成的業務影響也越來越大,可能造成的損失已難以估計。所以,機房運營人員急需一個標準化的、可靠的機房變更安全驗證系統,幫助他們獲知變更產生的具體效果會是如何,是否影響生產安全,是否有更合理的變更建議。
對于電力變更,可以從電力拓撲圖著手構建變更沙盤。但暖通變更,涉及到氣流組織變化、熱力變化,這些東西看不見也摸不著,傳統的方式難以模擬出現實世界中的變化。IDC 運營優化團隊對此進行了一系列調研工作,認為利用計算流體力學(ComputationalFluid Dynamics,簡稱 CFD)進行機房仿真是較為可能達到生產標準的一種方式。
現有的類似的解決方案
利用計算流體力學(Computational Fluid Dynamics,簡稱 CFD)進行機房仿真是檢查不同變更對機房的熱力學影響的通用解決方案。CFD 建模可以通過搭建物理模型,載入現實中的熱力學設置(冷熱量,空調 server 風速等)來計算一個包間內部的氣流分布和溫度情況。CFD 模擬有較為成熟的技術積累,并被廣泛應用與熱力學和空氣動力學領域。在數據中心領域,也有從包間到芯片級的 CFD 模擬應用。但由于其精度限制,一般只用于前期設計和規劃。
數據中心包間流線圖
應用 CFD 建立沙盤系統的挑戰:
1)現有商業 CFD 軟件可以根據對包間進行仿真,得到機房的熱力分布、氣流動向。但該軟件通常應用于設計階段,采用設計階段的粗略數據進行模擬,對真實操作情況的還原度較低,溫度預測精度僅能達到 3 度或以上,不能滿足用于變更沙盤的精度需求。
2)當前 CFD 軟件以人工交互為主,缺少對自動化操作的支持,不能滿足自動獲取數據和返回結果的需求。大量的操作只能通過人機交互進行,效率低下。
3)建模所需要的數據真實性問題。由于模型的準確性與其所采用的模擬設置與實際是否一致息息相關,因此獲取的模擬設置信息(如功耗,空調設置信息等)準確性非常關鍵。通常這些信息是在設計階段確定的,也有部分是運行時獲得的。這些數據只有進行精細的核實才能保證建模的精度(反過來建模的過程可以反推設計實施情況和數據的標準化過程)。
我們的解決方案
阿里巴巴聯合新加坡南洋理工大學(NTU)計算機科學與工程學院文勇剛教授團隊,依托阿里巴巴-南大聯合研究院平臺,通過接近 1 年的研究,開發和測試,實現并上線完成了一個高精度,可連接實時監控系統的基于 CFD 的變更沙盤系統。本系統在 off-the-shelf CFD 軟件上實現了工業級精度的變更沙盤測試和驗證。
本次項目選定了某個機房包間作為技術試點,并在對該機房的物理建模,模型校準和工程落地上進行了緊密合作。
1)物理建模:
該過程主要將包間內各物理結構設置到模型,提供仿真基礎。以達到最好還原度為準則,我們實現了下面所述方面的建模操作:
結構建模:對機房結構、墻、通風口、天花板、管道進行設置
IT 部署建模:機列、機柜、機位設置
環境建模:空調設備、傳感器設置
2)模型校準
模型校準的主要原則需要達到下述 3 個方面的真實還原:
機房冷熱溫度來源:校準中需要確認模型中冷熱量與實際一致。
機房氣流變化原因:校準中需要保證冷熱風氣流與實際一致。
溫度測量數據:校準中需要保證模型預測溫度與實際一致。