昨日上午,騰訊旗下云計算服務在廣東地區宕機,導致部分用戶資源訪問失敗,控制臺登錄異常,多家網站無法訪問。故障持續3個小時,目前,此次故障帶來的損失及其用戶賠償問題尚無定論。據悉,該事故系運營商光纜中斷所致,截止昨日11時40分,騰訊云表示故障已經恢復。
然而,這不是個案。一個多月時間里,接二連三地爆出了一樁樁驚心動魄的事故:
6月28日,阿里云官網控制臺和使用部分產品功能出現問題;
7月17日,AWS管理控制臺間歇性失靈;
7月18日,谷歌云平臺全局負載均衡服務發生中斷;
……
以阿里云故障為例,其事后聲明直指,這也是其在運維上的一個操作失誤。結果導致阿里云的多個產品在約1個小時期間均無法使用,有用戶直言:中國互聯網半壁江山,驚魂整整一小時!
看來,高溫模式之下,數據中心與云計算領域也在經受著前所未有的運維考驗。
智能化自動化運維,并非無人介入,還要借力人工智能
運維無小事,尤其是對于充當重要基礎設施角色的數據中心而言,運維工作更是絲毫不能懈怠。近十多年來,數據中心已從只有UPS、空調和IT設備的普通機房時代,進入到囊括各種新技術和應用的新時代。這樣一來,規模化之下,風險集中,數據中心的運維管理面臨更大的挑戰,運維難度也“更上一層樓”,特別是面對不斷擴充和升級的數據中心,基礎設施安全、穩定的運行顯得日益重要。
在數據中心領域,講究的是“三分技術,七分管理”。因此,數據中心如何減少人為參與的機會,并對人為行為進行科學管控,正是當下運維工作的重中之重,而近年來建設投產的新一代數據中心往往對此頗有發言權。其中,8月底投產運營的中國電信開普勒(佛山)數據中心在智能自動化運維之路上進行了積極探索。
如今,大數據、物聯網、自動化和機器學習等創新技術改變了數據中心傳統的運維管理模式。新一代數據中心運維離不開信息系統的支撐,建立一套高度智能化的信息系統,是提高運維效率、實現運維智能自動化的關鍵。
其中,運行監控平臺是實現運維管理系統的基礎和前提。為了保障數據中心的安全,運營商需要對數據中心里面的溫濕度、電能、水流及風量等進行全面實時的監控,以期發現潛在問題。在開普勒數據中心里,監控中心執行了紅外溫度監測、電能質量監測、超聲波水流監測、風量監測等資源的監控,并額外增加關鍵設備監控,告警信息直接在監控中心展示,確保關鍵設備告警信息第一時間被運維人員獲取,有備無患,少故障處理時間,提升工作效率;與此同時,防患于未然,科學運用這些數據還可以為應急措施及節能措施提供可靠的指導依據。
以人工智能技術為依托,監控中心采用了統一規范編碼、名稱、數據類型、單位精度、更新頻率、儲存要求等數據源標準,數據中心各種資源與設備的運行狀況一目了然,既提升了運維的工作效率,又很大程度上避免了機房出現局部熱點、機房冷熱不均、局部熱點等不良現象發生。
只有監控平臺仍是遠遠不夠的,想要實現更精細化的管理,還少不了智能管理平臺,由此PC端搭配移動APP的智能管理方式應運而生。據悉,開普勒數據中心在業界首創性地采用了全自動化二維碼巡檢系統,可自定義巡檢路線,自動生成巡檢任務,手機APP自動接收巡檢任務,并一鍵生成巡檢報告,自動評估巡檢健康度,實現了流程自動化與智能巡檢,與此同時,提升了數據中心的安全性,提升整體的運行效能。
需要指出的是,數據中心的智能自動化運維并非意味著運維中不需要人,而是約有30%-40%的運維是標準化工作,不需要人工干預,只要設置好了參數和步驟,就能解決問題、實現自動化。然而,數據中心完全采用人工智能還有一段很長的路要走——數據中心設備廠商施耐德電氣公司專家指出。
此外,另外60%-70%的工作仍需要有人工介入,因為這一部分工作涉及到非標準化運維,此時考驗的正是運維團隊的專業性——在嚴格執行7*24小時運維值班制度、每月一次設施設備保養、每季度一次設備廠家維護保養等運營制度之下,歐洲服務器租用 云服務器,開普勒數據中心提供了完整、高效、可靠的數據運營及網絡服務。據悉,開普勒數據中心將于8月底投運第一批機架774個分別在2-3層模塊機房,平均20A的機柜,4-7層可提供客戶定制。
運維管理與技術、服務實力相得益彰,缺一不可