在互聯網誕生之初,數據中心規模很小并且很簡單。一個大型電子商務服務數據中心僅用幾個19英寸機架來部署所需的服務器,存儲器,以及網絡設備。如今,超大型數據中心成千上萬的硬件設備部署在數千個機架上。隨著數據中心設計的變化,這些大型數據中心或建在靠近大型人口中心,或建在電力廉價的偏遠的地區。
隨著數據中心運營的自動化的發展,像AWS或微軟 Azure這樣的公共云供應商所雇用的高級數據中心工程師越來越少,數量通常比安全人員和普通技術工人更少。更少的人員管理更多服務器,這意味著監控數據中心電力和冷卻基礎架構需要更多依賴傳感器,這些現在都被稱為物聯網硬件。這些硬件有助于在一定程度上識別問題,但是在很多情況下,傳感器并不能代替經驗豐富的設施工程師。例如,通過聲音辨別設備運行的情況,通過聲音還可以了解哪個個風扇將出現故障或通過水滴的聲音來定位泄漏的地方等等。
谷歌公司為機器學習而定制的采用張量處理器(TPU)的服務器機架
數據中心管理人員需要更多的傳感器來監控現代數據中心基礎設施,新一代應用程序旨在通過將機器學習應用于物聯網傳感器網絡來來填補這一空白。這個想法是將經驗轉變成規則來幫助傳感器辨析聲音和影像,例如,為數據中心增加一個新的自動化管理層,可以預測和防止數據中心基礎架構的故障。 451 Research公司分析師Rhonda Ascierto表示:“快速的恢復時間和有效的容量配置也可以降低數據中心風險。”
結合DCIM和多樣性的數據
第一步是利用數據中心基礎設施管理或DCIM軟件中的預測分析。以位于加利福尼亞州奧克蘭的一家名為Vigilent公司的軟件為例。“控制系統基于機器學習軟件,用于確定變量之間的關系,如機架溫度,冷卻單元設置,冷卻能力,冷卻冗余,功耗和故障風險。它通過打開和關閉各相關單元來調節冷卻單元,包括變頻器(VFD),上下調節變頻器,以及調節單元的溫度設定值。”Ascierto說。它使用無線溫度傳感器,東莞電信服務器 河南電信服務器,directadmin下載 美國虛擬主機,并預測如果操作員采取某些措施會發生什么,例如關閉冷卻單元或增加設定點溫度。
另一個例子是英國Oneserve Infinite公司,該公司將傳感器與多種數據點相結合,例如使用天氣條件,以提供稱之為“預測性現場服務管理”的Exeter.其目的是預測維護要求,避免故障停機,并將停機時間降至最低。 Oneserve公司首席執行官Chris Proctor表示,通過應用這些技術,可以同時處理戰略規劃和采購。“數據中心將能夠更準確,有效地管理資產和資源。”(據悉這種功能尚未在任何數據中心中使用。)
Oneserve公司更關注的是維護問題,跟蹤了解過去維護中的問題,允許用戶詳細地說明每次出現問題的地方。在現在,這依然是一種非常費時費力的人工操作方法,但是將來工作人員會利用這種數據來訓練機器學習系統。
挖掘人類的知識
將傳感器數據與運維經驗相結合的例子是圣荷西的LitBit公司。根據該公司創始人兼首席執行官Scott Noteboom的說法,他們曾經為雅虎和蘋果公司提供數據中心戰略,LitBit公司的數據中心人工智能或DAC(數字模擬轉換器),允許運營商對機器進行培訓和調整,向工作人員學習可以獲得響應數據中心的事件的能力,從而提醒操作人員或最終自動執行操作。LitBit公司方法的關鍵是采用一種輔助學習形式,當系統檢測到新的異常事件時,系統會向操作人員發出警報,然后運營商將來制定一套對這些事件做出反應的規則。為了收集數據,LitBit公司有一個移動應用程序,可以接受視頻,然后將其轉換成數千個圖像進行培訓。
這家初創公司提供了一個托管云服務,可以利用許多用戶的匿名數據來構建更復雜和更準確的模型。一些客戶會將他們的訓練模式進行保密,而另外一些客戶可能會將其作為額外的收入來源對外出售。正如Ascierto所指出的那樣,“數據中心管理數據的價值在大規模聚合和分析時會倍增。通過將算法應用于許多客戶聚集的大型數據集,包括不同類型的數據中心和不同的位置,供應商可以預測設備何時出現故障,以及何時會出現冷卻閾值。
當具有知識經驗的操作人員不在身邊時,一些隱含的知識可以幫助系統在操作中來識別問題并做出更快的反應。數據中心人工智能可能不會完全替代數據中心工作人員,但它可以不斷地增強技能幫助運維人員解決問題。