近日,歐洲云計算巨頭OVH位于法國萊茵省首府特拉斯堡的數據中心發生嚴重火災。其中最先起火的SGB2數據中心被完全燒毀,摧毀了所有服務器和數據;SBG1建筑物部分受損,三分之一的服務器受到損毀;SBG3因受到消防保護暫未受到影響,以及SBG4確認沒有受到波及。目前,該區域4個數據中心均暫時關閉了服務。
據報道,免備案主機,該數據中心起火后,導致約360萬個網站癱瘓,1.2到1.5萬名客戶的資料可能受到影響。OVH一家游戲公司客戶表示,大量玩家數據已經因火災丟失,且無法恢復。
這場熊熊大火給OVH數據中心造成了巨大的損失,也給整個數據中心行業敲響了警鐘。事實上,風險一直存在,我們能做的就是最大程度地避免悲劇再次發生。水火無情,可靠先行,如何保障數據中心的可靠運行至關重要。
智能供電實現故障可視可管
據數據統計,數據中心基礎設施中斷有39%是由供配電引起,而供配電系統一旦中斷,損失將非常慘重。傳統供電系統采用分散部件集成的方式,不同廠家、不同品牌設備無法統一可視化管理,大部分設備為啞設備,發生故障無預警,難以迅速定位,導致數據中心可靠性低,易引發火災隱患。
通過融合數字化技術,實現全鏈路可視可管,可大大增強數據中心的可靠性。如采用IOT技術,可實時監測電壓、電流、開關狀態和關鍵節點溫度等參數,可直觀展示異常狀態,便于定位故障。同時通過大數據分析對關鍵器件壽命預測,防患于未然。此外,備電系統作為關鍵子系統,對數據中心可靠性的影響毋庸置疑。傳統鉛酸電池頻繁充放電會造成活性物質軟化等反應,易膨脹爆炸引發火災。而采用磷酸鐵鋰的智能鋰電系統可免去日常巡檢,在熱失控的情況下不產生氧氣,不起火,可靠性更高。
數字運維實現風險可防可控
傳統大型數據中心運維依賴于人工運維,對運維工程師技能要求高,而現實中高達38%的數據中心招不到合格的運維工程師。同時人工運維效率低下,巡檢多為被動響應,質量不可控。數據顯示,2019年數據中心基礎設施失效故障率比2018年上升6%,其中80%為可預防性故障。由此可見,傳統運維模式在故障巡查、檢測、隔離均存在極大風險。
隨著數字化變革不斷深入,數據中心基礎設施將逐步實現運維的自動駕駛。目前,通過數字孿生技術,可實現部件級、設備級、系統級、鏈路級、機房級、多DC全局可視,分鐘級告警根因智能定位,可顯著縮短故障修復時間。同時融合人工智能技術、大數據分析對關鍵器件(風扇、電容、電池等)壽命預測,香港免備案主機,通過溫度、圖像、聲音識別進行全鏈路預測性維護,實現從被動告警到主動預防,極大提升系統的可靠性。
預制化架構實現數據中心高可靠性
傳統數據中心建設采用攢機模式,建設周期不僅長達20個月以上,而且各個子系統之間孤立,規劃和建設分離,拼湊式建設模式給后續運維管理帶來了極大的難度,風險不可控,影響整個數據中心的可靠性。
而采用預制模塊化的建設模式,將各個子系統預集成在模塊內,在工廠進行預制組裝,標準化生產流程,各個模塊品質如一,多系統協同設計,并且在出廠前完成全系統調試和測試,確保高質量和高可靠性。同時現場只需完成極簡施工,可大大降低現場管理難度及施工風險,有效提升數據中心可靠性。
本次歐洲頂級云數據中心著火事件敲響的警鐘,也進一步印證了打造高可靠的數據中心,需要從部件、設備、子系統上升至整體來考慮。作為數據中心領域的創新領導者,華為從全局視角出發,緊緊圍繞數據中心的整體可靠性,創新打造預制模塊化數據中心解決方案。該方案融合AI、預制模塊化建筑、數字化全生命周期管理等多重創新技術,將智能IT模塊、智能電力模塊、智能溫控模塊、智能管理平臺等核心子系統全部預集成預測試,所“見”即所得,顯著降低施工和交付風險。樂高式搭建,現場土建與工廠生產同時進行,可縮短50%以上建設周期。同時將人工智能和數字化融入數據中心的規劃、建設、運營、運維、優化迭代全過程,貫穿全生命周期,實現全鏈路可視,AI預測性維護,防患未然,筑牢數據中心的堅實“防火墻”。