一轉眼,2020年就到來了。對于數據中心產業來說,2020年將是充滿希望和收獲的一年,同時也是在綠色節能方面壓力更大的一年。與數年前各地熱烈歡迎“高科技”產業的盛況相反,如今的數據中心“高能耗”產業名聲在外。如何平衡高速數字化發展對數據中心的需求,和數據中心給能源、環保帶來的壓力,是產業亟需解決的問題。
從社會能耗的角度看,包括我國在內的世界各國都在倡導低PUE的綠色中心建設。去年年初,工信部等三部門聯手發布了《關于加強綠色數據中心建設的指導意見》,推動全國數據中心向節能綠色發展。在這前后,北京、上海、深圳等核心大城市紛紛出臺了相關的產業政策,嚴控數據中心PUE數值,最低標準已經達到了1.30(深圳地區甚至有1.25的相關指標),這對現今的數據中心設計、建設和運維是不折不扣的重大挑戰。
從數據中心本身來看,能源支出一直是數據中心運營成本的大頭。根據2015年至2019年期間進行的相關研究表明,數據中心電力成本大約占運營成本的35%至40%。如果對一個典型的大型數據中心能耗進行整體分析便可以發現,IT系統之外的能源消耗占比最大的就是制冷系統。因此,破解用電瓶頸、降低數據中心能耗的關鍵在于提升制冷系統效率。
降低PUE值本意就是削減IT系統之外的能源消耗,如果數據中心的PUE由1.80(2017年全球平均水平)下降到1.30,則意味著IT系統之外的能耗降低了62.5%,整體電力成本則削減了28%。從這里可以看出,歐洲服務器租用,控制PUE無疑是節省成本最有效、直觀的途徑。
“PUE”靠得住么?
而對于“唯PUE”論,行業內也開始了有了不同的聲音。眾所周知,PUE是衡量數據中心非IT系統能耗占比的一個數值。通過良好設計與建設的數據中心,采用合適的散熱方案,以及精細化運維,理論PUE數值可以降到1.1甚至更少。不過在實際運營中,大部分數據中心是無法達到理論PUE值的。機架空載、業務波動、氣溫變化等等均可能影響到數據中心的PUE值。
按PUE計算的數據中心制冷功耗的平均比例
IT核心系統用電不能缺少,辦公、照明等系統耗電比例較低,所以降低PUE本質上就是降低制冷系統的能耗。但制冷系統的調整對于整個數據中心溫度的影響并非線性的,簡單的減少制冷系統功率,對于數據中心這樣的復雜體系來說,可能造成不可預估的后果。
IT系統運行需要一個適宜的溫度,目前大部分數據中心服務器溫度都控制的很嚴格,遠低于國家標準以及行業組織的推薦值。之所以如此,是因為在某些因素影響下,當大部分服務器處在合理溫度區間內時,部分服務器卻會偶然出現過熱的情況。而一旦溫度超出了服務器的工作極限,就必然面臨出錯、宕機等故障。
與此同時,還要考慮到IT系統在不同溫度下工作的效能問題。機房溫度提升1℃,不等于服務器就同樣提高1℃并且照常運行。相反,可能觸發服務器本身的散熱、保護系統等,比如服務器、機柜風扇從待機到運行。最終結果是服務器的效率沒有提升,機柜的整體功耗卻有增長。這樣看來,PUE是否還有降低空間需要更加復雜的整體測算。
最后一個問題是,PUE本身只是一個計算數字,最終決定PUE是否“靠譜”的其實是運維人員本身。雖然運維人員可以掌握機房各方面的信息,但在各種復雜信息的干擾下,任何微小的調整,都會對機房這個非線性系統帶來不可預估的后果。當然,運維工程師也可以考慮通過一套完備的公式來預測調整效果,但目前看,還沒有這樣可以完善囊括機房所有影響因素的計算公式,人力也無法時刻準確關注如此復雜的環境變化。
所以,目前數據中心對PUE以及制冷系統的調整,還處在經驗以及“拍腦袋”共用的“混沌”狀態。而數據中心數十年的發展歷史告訴我們,人工運維失誤,永遠是導致數據中心系統宕機的第一因素。
這時,就需要AI來救場了。
iCooling應需而生
廊坊,北臨京都,東接天津,素有“京津走廊明珠”之稱,很多影響京津冀的產業核心也往往落地于此。華為公有云的北方基地、華北地區數據樞紐-廊坊云數據中心即建設在這里。目前,華為廊坊云數據中心已投產4500個容量IT負載為36兆瓦的機架,可容納近10萬臺服務器,巨額電力消耗帶來的運營成本居高不下。
華為廊坊云數據中心在下一個十年中容量將增長10倍,并將能夠容納100萬個服務器單元。屆時的電力需求將有10倍甚至更多的增長,不僅華為每年要為此付出數額巨大的電費,也會給園區供電帶來難以預估的壓力。