谷歌利用人工智能優(yōu)化數(shù)據(jù)中心效率已經(jīng)進入了一個新階段,機器學習算法現(xiàn)在可以實時自動調(diào)整冷卻設(shè)備設(shè)置,系統(tǒng)建立在谷歌之前透露的工作基礎(chǔ)之上基于推薦的引擎,新系統(tǒng)可自動微調(diào)冷卻。
大多數(shù)數(shù)據(jù)中心運營商并不認為企業(yè)的監(jiān)視時段是開始調(diào)整冷卻系統(tǒng)設(shè)置以實現(xiàn)邊際節(jié)能的最佳時間。通常希望其效果繼續(xù)存在。人類有自己的優(yōu)先事項。
但是人工智能算法旨在尋找每個機會削減能耗,如果能實現(xiàn)它,無論天氣如何,都會抓住機會。
谷歌公司位于芬蘭Hamina數(shù)據(jù)中心內(nèi)的冷卻設(shè)備
在最近的一次龍卷風的觀測中,管理谷歌公司位于美國中西部數(shù)據(jù)中心之一的制冷設(shè)備的人工智能系統(tǒng)改變了工廠的設(shè)置,使得該設(shè)施的人工操作員發(fā)現(xiàn)違反直覺。然而,經(jīng)過仔細審查后,它確實需要做些什么才能在這些具體情況下節(jié)約能源。
在可能形成嚴重雷暴的天氣條件中,其中包括大氣壓力大幅下降以及劇烈的溫度和濕度變化。天氣在調(diào)整一些更加復雜的數(shù)據(jù)中心冷卻系統(tǒng)的方式中起著重要作用,運行谷歌冷卻系統(tǒng)的軟件重新校準它以利用這些變化,而無論優(yōu)勢多么小。
這與谷歌公司2014年數(shù)據(jù)中心副總裁JoeKava的系統(tǒng)不完全相同,當時他首次透露該公司正在使用人工智能來提高數(shù)據(jù)中心的能源效率。該系統(tǒng)由谷歌公司當時的數(shù)據(jù)中心工程師JimGao開發(fā),并作為推薦引擎實現(xiàn)。
“我們會運行一個獨立的模型,這個模型會提供一些建議,然后數(shù)據(jù)中心設(shè)施中的工程師和操作員將改變冷卻器,熱交換器和泵的設(shè)定點,域名注冊,以及所有這些與人工智能系統(tǒng)所說的相符,而這些是人工操作的。”Kava表示。
最近,使用人工智能管理谷歌數(shù)據(jù)中心的能源效率進入了一個新階段。該公司現(xiàn)在正在積極推出Kava所稱的“二級自動控制系統(tǒng)”。這個二級系統(tǒng)不是簡單地提出建議,而是實時地連續(xù)實時地對所有冷卻設(shè)備進行調(diào)整。
第一個系統(tǒng)由JimGao開發(fā)的“20%項目”,之后由谷歌的DeepMindAI團隊參與,可以將數(shù)據(jù)中心設(shè)施冷卻系統(tǒng)的總能耗降低40%。Kava說,其新的迭代次數(shù)再減少15%。這是一級系統(tǒng)估計節(jié)省之后剩余的冷卻能源開銷的15%。
自動控制系統(tǒng)建立在JimGao和DeepMind的原創(chuàng)作品之上。根據(jù)Kava的說法,JimGao已經(jīng)加入了DeepMind團隊。該公司正在考慮相同的輸入變量:外部氣溫、氣壓、濕球溫度、干球溫度、露點、數(shù)據(jù)中心的電力負荷、空氣熱空氣出來的服務(wù)器后面的壓力等共21個變量。
“它壓縮了所有數(shù)據(jù),并根據(jù)天氣狀況和數(shù)據(jù)中心的負載,優(yōu)化了PUE(電源使用效率)。”Kava說。
很多小調(diào)整
龍卷風觀測的例子很好地說明了谷歌公司用于數(shù)據(jù)中心管理的機器學習算法可以節(jié)省能源超出工作人員的能力。整體效益是通過不斷進行的小調(diào)整實現(xiàn)的邊際節(jié)省的總和。“它正在進行比通常作為人類更精細調(diào)整的調(diào)整。”Kava說。
例如,如果外部溫度從早上72華氏度變?yōu)橄挛?6度,濕球溫度保持不變,那么操作人員就不會改變冷卻設(shè)備的設(shè)置來調(diào)整溫度的很小變化。即使他們知道要做出哪些改變以減少能源使用,“他們可能會說它不會產(chǎn)生那么大的差別,”Kava解釋道。
當谷歌公司推出新的數(shù)據(jù)中心時,該系統(tǒng)的表現(xiàn)尤其出色(最近,由于它擴大了云計算服務(wù)業(yè)務(wù)的規(guī)模,它已經(jīng)做了很多工作)。在通常情況下,新推出的數(shù)據(jù)中心運行效率最低,因為它沒有利用大部分底層基礎(chǔ)設(shè)施的容量。
谷歌公司可能會在第一天在數(shù)據(jù)中心新建筑中部署一些服務(wù)器群集。然而,無論填充多少機架,跨越整個數(shù)據(jù)中心的網(wǎng)絡(luò)結(jié)構(gòu)都需要電力。“我們必須擁有所有行的能力,即使它們還沒有部署滿。”Kava說,“機器學習確實幫助我們提高了效率,即使在輕負載條件下也是如此。”
他表示,新推出的輕載谷歌數(shù)據(jù)中心的典型PUE介于1.3和1.2之間。由人工智能控制的冷卻系統(tǒng)可以降至1.1或1.09。“盡管聽起來并不多......但在鑒于我們的規(guī)模,實際上節(jié)省了大量能源。”
通過機器學習算法控制一些最關(guān)鍵任務(wù)的基礎(chǔ)設(shè)施需要一些工作。
企業(yè)積累的運行時間越多,收集的數(shù)據(jù)越多,機器學習算法就越好,并且可以更靈活地獲得更多控制權(quán)。“企業(yè)開始進行防護以確保不會發(fā)生壞事,然后開始啟動全自動系統(tǒng)而不是半自動化系統(tǒng),”Kava說。“如果全自動系統(tǒng)真正開始運行得更好,那么就開始部署更多這些系統(tǒng)。”
這種防護很重要,“如果要告訴機器優(yōu)化PUE,機器可能會告訴人產(chǎn)關(guān)閉所有服務(wù)器,”他幽默地說。