安裝后大約需要一周的時間來收集足夠的數據以獲得基線并開始生成準確的相關性。
戈什說:“我們一直在美國和海外運營著幾個數據中心的飛行員,而我們所學到的是降低冷卻成本和提高相對效率是很好的,但不是運營商主要關心的事情。”
使用機器學習來處理事件可以幫助彌補熟練數據中心工作人員的減少。“存在巨大的人才短缺,數據中心運營管理方面沒有大學課程,因此這將成為未來的一個大問題。”Ghosh指出。“部分工作可以通過人工智能以更系統的方式完成,我非常希望下一代人工智能可以幫助彌合供需之間的差距。”
該公司了解到,它必須解決的不僅僅是飛行員對潛在客戶的冷卻。
AdeptDC的角度是將硬件數據與設施冷卻系統狀態數據相關聯。
如果系統通過較低級別并且無法識別問題,則機器學習功能會啟動以查找根本原因與可能導致問題的各種其他來源之間的關聯。
相關性也有助于排除故障。該系統包括用于分類事件的清單,以幫助員工,這可能在停電期間恐慌或在錯誤的地方尋找問題。“當數據中心出現故障時,大部分團隊都會跑到服務器機房,但服務器問題可能與冷卻問題有關。”戈什說。
“我們希望捕捉到作為預警的癥狀。”戈什說。
這意味著從服務器電源和風扇收集運營數據,據他稱,其故障是數據中心運營中的主要問題。“CPU已經在硬件架構中得到了解決,但電源系統和服務器風扇始終處于故障狀態。”
第一級是簡單的事情。例如,如果服務器指示燈未亮起,則電源或冷卻系統可能存在問題。下一級稍微復雜一些,例如設備內部的電壓問題。更復雜的水平處理氣流數據等事情。
該公司早年一直專注于冷卻優化,正在擴大其功能范圍,承諾從電源、冷卻和硬件收集數據的系統,關聯所有各種信息,以全面優化效率、排除故障、發出事件警報,并通過識別異常來防止設備故障。
當存在事故并對冷卻系統進行微調時,相關性對于生成修正建議很有用,但最重要的是,它們對于檢測正常操作期間的異常非常有用。一旦AdeptDC標記異常,其儀表板將顯示其所在的邏輯層:IT、網絡或電源和冷卻。
運營商主要擔心避免故障,這通常是由于冷卻問題和相關硬件問題而導致的。(上個月災難性的微軟Azure停電只是最近一個備受矚目的例子。)應用其技術來幫助解決這種問題是AdeptDC的新目標。他說:“我們使用相同的機器學習技術,但我們使用它來確保硬件運行正常并預測性能問題,而不只是電源和冷卻優化。”
戈什說:“像谷歌這樣的公司使用環境數據來代表數據中心生態系統和性能的總體健康狀況。”他建議,香港免備案主機 美國服務器,環境數據(溫度和濕度)是整個系統健康狀況的一部分,但電壓監測也很關鍵。電壓是整個數據中心健康狀況的主要指標;如果電壓表現得很奇怪,那么就會出現各種各樣的問題。
有多個故障排除級別:
AdeptDC預計將在下個月推出其數據中心運營商的AI助手,首席執行官拉亞戈什在接受采訪時說道。它使用相同的機器學習技術和相同簡單的安裝方法,通過Docker容器,不需要硬件傳感器。
正如Google所展示的那樣,應用機器學習來理解散熱模式,并微調數據中心冷卻系統,以實現最高效率,是機器學習的合理數據中心用例。但是,將機器學習應用于互聯網數據中心管理的軟件初創公司AdeptDC認為,如果考慮的不僅僅是冷卻甚至是電力,它還會更有效。
,VPS租用 國內服務器