冬季是不是數據中心運營商最喜歡的季節?
畢竟,在低溫和寒風的幫助下,大量北方DC可采用自然冷卻,南方DC的能耗也大大降低。此時的數據中心PUE低、電費少,成本低,讓數據中心運營商們期盼如果全年如此就好了。
AI能效優化——數據中心從“制冷”到“智冷”
如何實現數據中心全年都保持較低的PUE呢?
首先將遷往南北極這一“有效”方法排除——成本不合算,數據中心參數調優是最常使用的手段。當前的數據中心性能優化大多依靠運維專家對(主要是冷凍站的)三五個參數進行調節和試驗,需要反復試驗,優化效果全憑經驗。有沒有更穩妥、快捷、準確的調優方法呢?如果之前被問到這個問題,筆者多半會搖頭表示,數據中心降耗沒有捷徑可走。
然而近期一個聯合創新的AI節能數據中心——中國移動寧夏數據中心(中衛)的投產卻扭轉了業內的固有看法。該數據中心采用華為的iCooling@AI能效優化技術(簡稱“iCooling@AI”)后,在當前冬季自然冷卻環境下現場測試總能耗降低3.2%,未來預計可達到5%-8%,每年節電600萬度。與傳統人工調優相比,iCooling@AI顯示出極簡運維、極致節能、極致可靠三大特性,幫助數據中心從傳統“制冷”走向“智冷”,全年都如在冬天般省心省力地降PUE、省電費。
中國移動寧夏數據中心(中衛)
華為一貫秉承“自己造的降落傘自己先跳”理念,從不會拿沒有實踐過的理論和產品推向市場,作為業界首個商用的AI能效優化解決方案的iCooling@AI也是如此。該技術此前就已率先在華為廊坊基地云數據中心、華為東莞云數據中心進行了應用檢驗,單是華為廊坊基地云數據中心一年節省下來的電費近千萬人民幣,如此能效優化水平著實讓業內矚目。
說了這么多,數據中心到底是如何利用iCooling@AI能效優化技術降低PUE的?過程可以總結為四步:
首先,數據采集。iCooling@AI對數據中心運維過程中的眾多參數進行長時間采集,此技術在華為廊坊云基地的應用中,共采集700多種參數,每5分鐘一次,共實時收集了該數據中心連續9個月的運行數據,這一數據采集量是人工調優無法比擬的。
第二,自動治理。iCooling@AI對收集到的海量數據進行脫敏、歸一、降噪、去重等治理,采用自動化的數據目錄服務,利用數據工具從清洗后的數據中找到決定PUE的關鍵參數。華為廊坊云基地找到的關鍵參數有19+2個,遠超傳統人工調優的3到5個。
第三,模型訓練。iCooling@AI利用DNN(深度神經網絡)訓練出PUE模型,經過訓練的PUE模型預測準確率>99.5%,誤差<0.005。
第四,推理決策。將生成的數據中心PUE預測模型發布到推理平臺中,根據實時的氣象條件、IT負載等參數開始推理。iCooling@AI能在1分鐘內從140萬種組合中尋找出最優參數組合,下發執行并反饋效果。
iCooling@AI能效優化技術
簡單總結就是,iCooling@AI基于AI在給定的數據中心氣候條件、業務SLA(Service-Level Agreement)等條件下自動推理出最優PUE下的系統參數并執行,實現數據中心能效最優。與傳統人工調優對比,iCooling@AI能效優化技術可以戲稱為“AI戰勝老師傅”的數據中心調優法,因其能發現更多PUE決定參數,總能根據當前給定條件自動推理,給出的最優參數組合有據可依。
用AI降PUE——華為緣何能為業內先?
2018年中國數據中心總用電量為1,608.89億千瓦時,超過上海市2018年全社會用電量(1,567億千瓦時),占中國全社會用電量的2.35%(未含港澳臺數據)。數據中心產業如此巨大的能耗量早已被重點關注。2019年2月,工信部等三部門出臺《關于加強綠色數據中心建設的指導意見》,其中要求到2022年,“數據中心平均能耗基本達到國際先進水平,新建大型、超大型數據中心的PUE(電能使用效率)達到1.4以下”。而自2017年開始,北京、上海、深圳等數據中心密集城市也紛紛出臺能耗限制政策控,其中北京市政府規定全市層面禁止新建PUE1.4以上的數據中心,上海市對新建數據中心限制“PUE值嚴格控制不超過1.3”。
隨著從國家到城市各級主管部門類似政策的不斷推出,降低能源損耗、實現數據中心綠色發展已經成為數據中心從業方與政府的一致要求。