7月23日,“面向未來的數據中心智能運維線下沙龍”正式在京召開,本次沙龍由中國通信工業協會數據中心委員會主辦,中國 IDC 圈、中國 IDC 圈企業俱樂部承辦。來自阿里云、數訊信息、中聯云港、騰訊、江天數據、數據港、鵬博士大數據、科華數據、中關村軟件園、有孚網絡、普平數據、易華錄、匯天網絡、西門子、中經云等知名企業、產業園區的20多位業內大咖齊聚一堂,就數據中心運維中遇到的問題和挑戰,目前的解決方案、未來發展趨勢等發表了主題演講,并進行了細致探討。
伴隨高速發展 數據中心運維迎來更多挑戰
在數字經濟快速發展大背景下,數據中心得到了長足的發展。但隨之而來的是,數據中心運維也遇到了越來越多的挑戰。以TO B業務為例,目前TO B業務增量加快,數據中心規模越來越大,并且新一代模塊化數據中心逐步推廣,新技術的迭代也越來越快,這導致數據中心建設、運維過程中將面臨資源交付、總體成本、運維管理等諸多方面的新問題。
此外,如果數據中心運維方從To C轉型到To B模式,用戶對運維訴求除了要保障數據中心可靠運行外,還有各類服務交付和服務管理需求。
運維體系需要如何調整,人員怎樣做到有效利用,怎么避免數據誤導等成為目前業內關注的話題。騰訊北京數據中心經理栗權以“乘風破浪-騰訊運維體系與智維平臺新融合”為題發表了演講,以騰訊在數據中心運維方面的實踐來回應相關問題。
圖:騰訊北京數據中心經理栗權
栗權指出,轉向To B模式后,面臨的挑戰要求騰訊數據中心必須要有標準化并且以服務為導向的運維體系。騰訊結合Uptime M&O、ITIL、DCOS等行業內運維體系及服務交付理念,完成了這一目標,最終呈現出七大業務模塊,覆蓋了管人、管事、管系統、保障質量等方面的支撐和管理。
以人員管理為例,新的數據中心投產運維人員配備多少是合理的,行業內沒有統一的人力模型來計算,此前更多的是利用同規模機房的經驗。對此,騰訊數據中心通過計算和量化工時來配備人員,首先對所有的設備類型、維保頻次、設備數量和每臺設備等做維保的耗時進行統計,并計算出整體需要消耗的工時;其次計算工作人員完成維保、維修等工作的可用工時,最后將二者進行比較分析,以此來更加合理的安排人員。
據栗權介紹,directadmin授權,智維系統平臺已將上述大部分流程和流程開放到線上,通過核心的配置數據庫實現了數據共享、流程之間的關聯關系,減少數據誤導的出現,并已經形成管人、管物、服務、資源四個子系統,撐起起了騰訊運維體系的落地。
運維的痛點在于“人” 智能化是發展趨勢
相對于騰訊的智維系統平臺的全面,北京艾瑞維克科技有限公司馮曉雨的分享更加聚焦。她以運維案例為例分享了北京艾瑞維克科技有限公司的運維情況,主要分為三方面,即日常維護、預防性維護和應急管理。
圖:北京艾瑞維克科技有限公司馮曉雨
其中,日常維護是指及時發現設備故障而進行的設備狀態監控和日常巡視等維護行為;預防性維護是在故障形成之前預先采取的主動維護操作,包括一般性警告信息核查、易耗易壞部件定期更換等;應急管理則包含應急處理、應急預案、應急演練等。
也因為對于應急管理的重視,在河南極端降雨天氣中,北京艾瑞維克科技有限公司憑借充足的抗洪物資保證了客戶數據中心的正常運作。北京艾瑞維克科技有限公司馮克強表示,在應對自然災害方面,就是要做更加充分的準備,比如準備沙袋以及相關資源保證在極端天氣下不斷網、不斷電。
談及目前運維中的問題,北京艾瑞維克科技有限公司的馮曉雨直言,運維的痛點是人,70%的宕機事故是人為失誤造成的,想要解決這一問題,就需要更多的專業人員,并進行智能化的運維,這也是目前數據中心發展的重要趨勢。
智能機器人目前只能簡單巡查工作 大規模推廣仍有問題
運維的智能化發展方向已經是業內共識,智能機器人的使用也越來越多,但目前智能機器人的大規模推廣仍然存在較多問題。