在互聯(lián)網(wǎng)誕生之初,數(shù)據(jù)中心規(guī)模很小并且很簡(jiǎn)單。一個(gè)大型電子商務(wù)服務(wù)數(shù)據(jù)中心僅用幾個(gè)19英寸機(jī)架來(lái)部署所需的服務(wù)器,存儲(chǔ)器,以及網(wǎng)絡(luò)設(shè)備。如今,超大型數(shù)據(jù)中心成千上萬(wàn)的硬件設(shè)備部署在數(shù)千個(gè)機(jī)架上。隨著數(shù)據(jù)中心設(shè)計(jì)的變化,這些大型數(shù)據(jù)中心或建在靠近大型人口中心,或建在電力廉價(jià)的偏遠(yuǎn)的地區(qū)。
隨著數(shù)據(jù)中心運(yùn)營(yíng)的自動(dòng)化的發(fā)展,像AWS或微軟 Azure這樣的公共云供應(yīng)商所雇用的高級(jí)數(shù)據(jù)中心工程師越來(lái)越少,數(shù)量通常比安全人員和普通技術(shù)工人更少。更少的人員管理更多服務(wù)器,這意味著監(jiān)控數(shù)據(jù)中心電力和冷卻基礎(chǔ)架構(gòu)需要更多依賴傳感器,這些現(xiàn)在都被稱為物聯(lián)網(wǎng)硬件。這些硬件有助于在一定程度上識(shí)別問(wèn)題,但是在很多情況下,傳感器并不能代替經(jīng)驗(yàn)豐富的設(shè)施工程師。例如,通過(guò)聲音辨別設(shè)備運(yùn)行的情況,通過(guò)聲音還可以了解哪個(gè)個(gè)風(fēng)扇將出現(xiàn)故障或通過(guò)水滴的聲音來(lái)定位泄漏的地方等等。
谷歌公司為機(jī)器學(xué)習(xí)而定制的采用張量處理器(TPU)的服務(wù)器機(jī)架
數(shù)據(jù)中心管理人員需要更多的傳感器來(lái)監(jiān)控現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施,新一代應(yīng)用程序旨在通過(guò)將機(jī)器學(xué)習(xí)應(yīng)用于物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò)來(lái)來(lái)填補(bǔ)這一空白。這個(gè)想法是將經(jīng)驗(yàn)轉(zhuǎn)變成規(guī)則來(lái)幫助傳感器辨析聲音和影像,例如,為數(shù)據(jù)中心增加一個(gè)新的自動(dòng)化管理層,可以預(yù)測(cè)和防止數(shù)據(jù)中心基礎(chǔ)架構(gòu)的故障。 451 Research公司分析師Rhonda Ascierto表示:“快速的恢復(fù)時(shí)間和有效的容量配置也可以降低數(shù)據(jù)中心風(fēng)險(xiǎn)。”
結(jié)合DCIM和多樣性的數(shù)據(jù)
第一步是利用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理或DCIM軟件中的預(yù)測(cè)分析。以位于加利福尼亞州奧克蘭的一家名為Vigilent公司的軟件為例。“控制系統(tǒng)基于機(jī)器學(xué)習(xí)軟件,用于確定變量之間的關(guān)系,如機(jī)架溫度,冷卻單元設(shè)置,冷卻能力,冷卻冗余,功耗和故障風(fēng)險(xiǎn)。它通過(guò)打開(kāi)和關(guān)閉各相關(guān)單元來(lái)調(diào)節(jié)冷卻單元,包括變頻器(VFD),上下調(diào)節(jié)變頻器,以及調(diào)節(jié)單元的溫度設(shè)定值。”Ascierto說(shuō)。它使用無(wú)線溫度傳感器,東莞電信服務(wù)器 河南電信服務(wù)器,directadmin下載 美國(guó)虛擬主機(jī),并預(yù)測(cè)如果操作員采取某些措施會(huì)發(fā)生什么,例如關(guān)閉冷卻單元或增加設(shè)定點(diǎn)溫度。
另一個(gè)例子是英國(guó)Oneserve Infinite公司,該公司將傳感器與多種數(shù)據(jù)點(diǎn)相結(jié)合,例如使用天氣條件,以提供稱之為“預(yù)測(cè)性現(xiàn)場(chǎng)服務(wù)管理”的Exeter.其目的是預(yù)測(cè)維護(hù)要求,避免故障停機(jī),并將停機(jī)時(shí)間降至最低。 Oneserve公司首席執(zhí)行官Chris Proctor表示,通過(guò)應(yīng)用這些技術(shù),可以同時(shí)處理戰(zhàn)略規(guī)劃和采購(gòu)。“數(shù)據(jù)中心將能夠更準(zhǔn)確,有效地管理資產(chǎn)和資源。”(據(jù)悉這種功能尚未在任何數(shù)據(jù)中心中使用。)
Oneserve公司更關(guān)注的是維護(hù)問(wèn)題,跟蹤了解過(guò)去維護(hù)中的問(wèn)題,允許用戶詳細(xì)地說(shuō)明每次出現(xiàn)問(wèn)題的地方。在現(xiàn)在,這依然是一種非常費(fèi)時(shí)費(fèi)力的人工操作方法,但是將來(lái)工作人員會(huì)利用這種數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
挖掘人類的知識(shí)
將傳感器數(shù)據(jù)與運(yùn)維經(jīng)驗(yàn)相結(jié)合的例子是圣荷西的LitBit公司。根據(jù)該公司創(chuàng)始人兼首席執(zhí)行官Scott Noteboom的說(shuō)法,他們?cè)?jīng)為雅虎和蘋(píng)果公司提供數(shù)據(jù)中心戰(zhàn)略,LitBit公司的數(shù)據(jù)中心人工智能或DAC(數(shù)字模擬轉(zhuǎn)換器),允許運(yùn)營(yíng)商對(duì)機(jī)器進(jìn)行培訓(xùn)和調(diào)整,向工作人員學(xué)習(xí)可以獲得響應(yīng)數(shù)據(jù)中心的事件的能力,從而提醒操作人員或最終自動(dòng)執(zhí)行操作。LitBit公司方法的關(guān)鍵是采用一種輔助學(xué)習(xí)形式,當(dāng)系統(tǒng)檢測(cè)到新的異常事件時(shí),系統(tǒng)會(huì)向操作人員發(fā)出警報(bào),然后運(yùn)營(yíng)商將來(lái)制定一套對(duì)這些事件做出反應(yīng)的規(guī)則。為了收集數(shù)據(jù),LitBit公司有一個(gè)移動(dòng)應(yīng)用程序,可以接受視頻,然后將其轉(zhuǎn)換成數(shù)千個(gè)圖像進(jìn)行培訓(xùn)。
這家初創(chuàng)公司提供了一個(gè)托管云服務(wù),可以利用許多用戶的匿名數(shù)據(jù)來(lái)構(gòu)建更復(fù)雜和更準(zhǔn)確的模型。一些客戶會(huì)將他們的訓(xùn)練模式進(jìn)行保密,而另外一些客戶可能會(huì)將其作為額外的收入來(lái)源對(duì)外出售。正如Ascierto所指出的那樣,“數(shù)據(jù)中心管理數(shù)據(jù)的價(jià)值在大規(guī)模聚合和分析時(shí)會(huì)倍增。通過(guò)將算法應(yīng)用于許多客戶聚集的大型數(shù)據(jù)集,包括不同類型的數(shù)據(jù)中心和不同的位置,供應(yīng)商可以預(yù)測(cè)設(shè)備何時(shí)出現(xiàn)故障,以及何時(shí)會(huì)出現(xiàn)冷卻閾值。
當(dāng)具有知識(shí)經(jīng)驗(yàn)的操作人員不在身邊時(shí),一些隱含的知識(shí)可以幫助系統(tǒng)在操作中來(lái)識(shí)別問(wèn)題并做出更快的反應(yīng)。數(shù)據(jù)中心人工智能可能不會(huì)完全替代數(shù)據(jù)中心工作人員,但它可以不斷地增強(qiáng)技能幫助運(yùn)維人員解決問(wèn)題。