昨日上午,騰訊旗下云計(jì)算服務(wù)在廣東地區(qū)宕機(jī),導(dǎo)致部分用戶資源訪問(wèn)失敗,控制臺(tái)登錄異常,多家網(wǎng)站無(wú)法訪問(wèn)。故障持續(xù)3個(gè)小時(shí),目前,此次故障帶來(lái)的損失及其用戶賠償問(wèn)題尚無(wú)定論。據(jù)悉,該事故系運(yùn)營(yíng)商光纜中斷所致,截止昨日11時(shí)40分,騰訊云表示故障已經(jīng)恢復(fù)。
然而,這不是個(gè)案。一個(gè)多月時(shí)間里,接二連三地爆出了一樁樁驚心動(dòng)魄的事故:
6月初,北京亦莊某數(shù)據(jù)中心機(jī)房柴油機(jī)發(fā)生起火;
6月28日,阿里云官網(wǎng)控制臺(tái)和使用部分產(chǎn)品功能出現(xiàn)問(wèn)題;
7月17日,AWS管理控制臺(tái)間歇性失靈;
7月18日,谷歌云平臺(tái)全局負(fù)載均衡服務(wù)發(fā)生中斷;
……
以阿里云故障為例,其事后聲明直指,這也是其在運(yùn)維上的一個(gè)操作失誤。結(jié)果導(dǎo)致阿里云的多個(gè)產(chǎn)品在約1個(gè)小時(shí)期間均無(wú)法使用,有用戶直言:中國(guó)互聯(lián)網(wǎng)半壁江山,驚魂整整一小時(shí)!
看來(lái),高溫模式之下,數(shù)據(jù)中心與云計(jì)算領(lǐng)域也在經(jīng)受著前所未有的運(yùn)維考驗(yàn)。
智能化自動(dòng)化運(yùn)維,并非無(wú)人介入,還要借力人工智能
運(yùn)維無(wú)小事,尤其是對(duì)于充當(dāng)重要基礎(chǔ)設(shè)施角色的數(shù)據(jù)中心而言,運(yùn)維工作更是絲毫不能懈怠。近十多年來(lái),數(shù)據(jù)中心已從只有UPS、空調(diào)和IT設(shè)備的普通機(jī)房時(shí)代,進(jìn)入到囊括各種新技術(shù)和應(yīng)用的新時(shí)代。這樣一來(lái),規(guī)模化之下,風(fēng)險(xiǎn)集中,數(shù)據(jù)中心的運(yùn)維管理面臨更大的挑戰(zhàn),運(yùn)維難度也“更上一層樓”,特別是面對(duì)不斷擴(kuò)充和升級(jí)的數(shù)據(jù)中心,基礎(chǔ)設(shè)施安全、穩(wěn)定的運(yùn)行顯得日益重要。
在數(shù)據(jù)中心領(lǐng)域,講究的是“三分技術(shù),七分管理”。因此,數(shù)據(jù)中心如何減少人為參與的機(jī)會(huì),并對(duì)人為行為進(jìn)行科學(xué)管控,正是當(dāng)下運(yùn)維工作的重中之重,而近年來(lái)建設(shè)投產(chǎn)的新一代數(shù)據(jù)中心往往對(duì)此頗有發(fā)言權(quán)。其中,8月底投產(chǎn)運(yùn)營(yíng)的中國(guó)電信開(kāi)普勒(佛山)數(shù)據(jù)中心在智能自動(dòng)化運(yùn)維之路上進(jìn)行了積極探索。
如今,大數(shù)據(jù)、物聯(lián)網(wǎng)、自動(dòng)化和機(jī)器學(xué)習(xí)等創(chuàng)新技術(shù)改變了數(shù)據(jù)中心傳統(tǒng)的運(yùn)維管理模式。新一代數(shù)據(jù)中心運(yùn)維離不開(kāi)信息系統(tǒng)的支撐,建立一套高度智能化的信息系統(tǒng),是提高運(yùn)維效率、實(shí)現(xiàn)運(yùn)維智能自動(dòng)化的關(guān)鍵。
其中,運(yùn)行監(jiān)控平臺(tái)是實(shí)現(xiàn)運(yùn)維管理系統(tǒng)的基礎(chǔ)和前提。為了保障數(shù)據(jù)中心的安全,運(yùn)營(yíng)商需要對(duì)數(shù)據(jù)中心里面的溫濕度、電能、水流及風(fēng)量等進(jìn)行全面實(shí)時(shí)的監(jiān)控,以期發(fā)現(xiàn)潛在問(wèn)題。在開(kāi)普勒數(shù)據(jù)中心里,監(jiān)控中心執(zhí)行了紅外溫度監(jiān)測(cè)、電能質(zhì)量監(jiān)測(cè)、超聲波水流監(jiān)測(cè)、風(fēng)量監(jiān)測(cè)等資源的監(jiān)控,并額外增加關(guān)鍵設(shè)備監(jiān)控,告警信息直接在監(jiān)控中心展示,確保關(guān)鍵設(shè)備告警信息第一時(shí)間被運(yùn)維人員獲取,有備無(wú)患,少故障處理時(shí)間,提升工作效率;與此同時(shí),防患于未然,科學(xué)運(yùn)用這些數(shù)據(jù)還可以為應(yīng)急措施及節(jié)能措施提供可靠的指導(dǎo)依據(jù)。
以人工智能技術(shù)為依托,監(jiān)控中心采用了統(tǒng)一規(guī)范編碼、名稱、數(shù)據(jù)類型、單位精度、更新頻率、儲(chǔ)存要求等數(shù)據(jù)源標(biāo)準(zhǔn),數(shù)據(jù)中心各種資源與設(shè)備的運(yùn)行狀況一目了然,既提升了運(yùn)維的工作效率,又很大程度上避免了機(jī)房出現(xiàn)局部熱點(diǎn)、機(jī)房冷熱不均、局部熱點(diǎn)等不良現(xiàn)象發(fā)生。
只有監(jiān)控平臺(tái)仍是遠(yuǎn)遠(yuǎn)不夠的,想要實(shí)現(xiàn)更精細(xì)化的管理,還少不了智能管理平臺(tái),由此PC端搭配移動(dòng)APP的智能管理方式應(yīng)運(yùn)而生。據(jù)悉,開(kāi)普勒數(shù)據(jù)中心在業(yè)界首創(chuàng)性地采用了全自動(dòng)化二維碼巡檢系統(tǒng),可自定義巡檢路線,自動(dòng)生成巡檢任務(wù),手機(jī)APP自動(dòng)接收巡檢任務(wù),并一鍵生成巡檢報(bào)告,自動(dòng)評(píng)估巡檢健康度,實(shí)現(xiàn)了流程自動(dòng)化與智能巡檢,與此同時(shí),提升了數(shù)據(jù)中心的安全性,提升整體的運(yùn)行效能。
需要指出的是,數(shù)據(jù)中心的智能自動(dòng)化運(yùn)維并非意味著運(yùn)維中不需要人,而是約有30%-40%的運(yùn)維是標(biāo)準(zhǔn)化工作,不需要人工干預(yù),只要設(shè)置好了參數(shù)和步驟,就能解決問(wèn)題、實(shí)現(xiàn)自動(dòng)化。然而,數(shù)據(jù)中心完全采用人工智能還有一段很長(zhǎng)的路要走——數(shù)據(jù)中心設(shè)備廠商施耐德電氣公司專家指出。
此外,另外60%-70%的工作仍需要有人工介入,因?yàn)檫@一部分工作涉及到非標(biāo)準(zhǔn)化運(yùn)維,此時(shí)考驗(yàn)的正是運(yùn)維團(tuán)隊(duì)的專業(yè)性——在嚴(yán)格執(zhí)行7*24小時(shí)運(yùn)維值班制度、每月一次設(shè)施設(shè)備保養(yǎng)、每季度一次設(shè)備廠家維護(hù)保養(yǎng)等運(yùn)營(yíng)制度之下,歐洲服務(wù)器租用 云服務(wù)器,開(kāi)普勒數(shù)據(jù)中心提供了完整、高效、可靠的數(shù)據(jù)運(yùn)營(yíng)及網(wǎng)絡(luò)服務(wù)。據(jù)悉,開(kāi)普勒數(shù)據(jù)中心將于8月底投運(yùn)第一批機(jī)架774個(gè)分別在2-3層模塊機(jī)房,平均20A的機(jī)柜,4-7層可提供客戶定制。
運(yùn)維管理與技術(shù)、服務(wù)實(shí)力相得益彰,缺一不可