數據中心對火災的管理,也應隨著國家戰略的落地、數據中心在國民經濟中發揮越來越重要的關鍵作用,而進行更加全面的有效管理,將目前以風險管控和應急預案為主的防火防災管理,改變為著眼于為各行業,特別是對數據中心高度依賴的行業,提供連續穩定的支撐服務為目標的火災場景下的服務連續性管理,數據中心應制定詳盡的火災場景下的服務連續性計劃。
1、火災情況
總部位于法國魯貝的法國獨角獸公司OVHCloud(前身為OVH),在全球擁有27個數據中心,OVH是歐洲最大的托管服務提供商,也是世界第三大托管服務提供商,其位于法國斯特拉斯堡的數據中心園區,共包括SBG1、SBG2、SBG3和SBG4四棟數據中心建筑。2021年當地時間3月10日凌晨,一場大火燒毀了法國斯特拉斯堡OVHCloud的鋼結構SBG2數據中心,導致其托管的許多網站中某些數據永久丟失。
根據該公司網站上的事件報告稱,大火在當地時間凌晨1點在SBG2內的一間房內發生。到凌晨4點左右,大火完全摧毀了OVH的SBG2數據中心,并波及摧毀了SBG1八個服務器機房中的四個房間。OVH創始人和董事長奧克塔夫·克拉巴(OctaveKlaba)在推特更新中表示,SBG3中的所有服務器均完好無損,SBG4不受大火影響。但這些數據中心均由于這次事件停止服務,處于離線狀態。
據了解,OVH的上一次重大停機危機也發生在斯特拉斯堡園區。2017年曾導致整個園區停電約40min。Klaba表示,該事件與停電無關,是由于網絡設備中的一個無關軟件漏洞,導致其位于魯拜克斯(RoubaiX)的園區失去了與其網絡上六個關鍵點的所有連接。
至于本次火災原因,目前還沒有正式的官方公告,但多種事實指向了UPS設備導致的一系列故障。在火災發生的前一天,供應商對UPS7進行了維護,Klaba稱供應商在UPS7內部更換了某些部件,并在下午重新啟動了它。
雖然直流電匯聚成高壓時,的確會有失火的風險,Klaba并沒有說UPS就是此次失火事件的起因。他說:“我們今天并沒有得到所有的答案。”OVHcloud的工作人員在周二晚上11點42分響應火災警報,但數據中心受影響的部分已經煙霧彌漫:“兩分鐘后,他們決定離開,因為太危險了。”
2、相關組織和媒體的災后報道與反思
事發后,國內很多組織開始結合這次火災的事實,并且不局限于本次火災擴展開來,分析火災風險、成因以及對策,希望能夠為數據中心行業減少火災發生,做出一點貢獻。
仔細研讀后,我發現這些分析文章的觀點都集中在起火原因分析,并且大多只分析技術上的起火原因,比如短路、過載、接觸不良、漏電、線路老化或散熱等,所給出的對策也多集中在針對這些起火原因,減少起火概率和早發現等方面,例如使用極早期煙霧探測技術、增加火災高風險設施的監控、加強巡檢、定期更換老化的元器件、完工驗收與檢測等等。
然而,僅僅如此分析顯然不夠。從本次火災的現有記錄來看,在凌晨1點確認SBG2的一間房內發生大火的1個多小時之前,就已觸發火警,不可謂發現不及時,然而這么長時間,為什么沒有有效處置?直到凌晨4點在外部消防力量介入下才控制火勢,防火分區為什么沒有發揮足夠的作用?為什么數據中心自身的滅火系統沒有發揮有效作用?為什么沒有受到火災影響的部分也無法提供服務?說好的多路由呢?這次火災從故障發煙到起火,從小災到大災再到影響眾多下游企業和政府部門業務的系統性大災難,這個演變過程,豈是上面那些原因可以覆蓋的?
3、有必要全面地反思火災成因
火災一詞是由兩個字構成的,因火成災才能被稱作火災。所以我們分析火災原因的時候,不僅要分析起火原因,還要分析致災原因。大家都知道,火災重在預防,但是防什么?不僅僅要防火,還要防災!
關于起火原因以及對策,如前所述,其他組織和各種媒體多有反思,不再贅述。
雖然這次火災的原因尚無正式結論,該數據中心的關鍵數據也未披露,所以致災原因也無法準確判斷,但是這也不妨礙我們就常見的致災原因進行舉例說明。
首先是防火防災意識淡漠,這是數據中心火災頻發的最根本原因。例如某四大行總行數據中心的總經理就曾經指責手下分管副總經理部署火災防范工作是做無用功,他的觀點非常有代表性,這位總經理說我們數據中心用的都是難燃阻燃的材料,怎么可能著火?持這種觀點的人不在少數。甚至在出了這次OVH火災后,又有媒體說,把數據中心放到海底去,就不會發生火災了。如果真的是這樣,為什么各國海軍常有潛艇火災的報道?以為海底數據倉不存在氧氣就不會有火災,但是你知道不僅只有氧氣才可以助燃嗎?在極高能量密度的封閉空間,有誰能保證不會起火、甚至爆炸?一旦有了這種意識,自然就不會在防火防災上下功夫。