人類在對于災難的承擔與付出中,實現了向更高程度文明過渡的歷程,數據中心的基礎設施運維也是如此。如果說,處于高風險社會的事實,以暴亂、洪水、礦難、重大污染事件為標志的各類事故災難類突發公共事件在近年來的集中發生,是對于中國當下政治、社會的重大考驗。那么停電、停水、火災、洪水等意外事件的發生,對于數據中心的連續不間斷運營也提出了前所未有的挑戰。
本文基于業界的最佳實踐,國內服務器租用 服務器托管,對數據中心基礎設施運維之應急處理的組織體系、運行機制、應急保障、監督管理等方面進行淺析,探討了應急處理的目的及意義,給出了應急處理相關名詞解釋,分析了應急處理的基本原則,研究了應急處理體系建設方式及應急處理物資管理建議,最后本文針對數據中心幾種典型場景,給出相應的應急處理建議,供讀者參考借鑒。
1、應急處理的目的及意義
為保障數據中心業務的連續運營,各類數據中心在硬件建設上通過設備及系統的冗余配置,使得數據中心的業務保障能力不斷提高。但與此同時,據統計顯示,全球每年仍有大量的數據中心由于基礎設施運維的應急處理不當,造成部分或全部業務宕機。如何保障數據中心在意外事件發生后能做到有章可循、有據可依,要求各類數據中心必須建立明確的應急處理體系,其目的及意義探討如下。
數據中心基礎設施運維的應急處理體系確定了應急救援的范圍和方法,使數據中心應急管理不再無據可依,無章可循,尤其是通過培訓和演練,可以使數據中心應急人員熟悉自己的任務和角色定位,具備完成指定任務所需的相應能力,并檢驗預案和執行程序,評估應急人員的整體協調性。
數據中心基礎設施運維的應急處理建設,有利于在突發事件來臨時做出及時的應急響應,降低事故后果,應急行動對時間要求十分敏感,不允許有任何拖延,應急預案預先明確了應急各方職責和響應程序,在應急資源等方面進行先期準備,可以指導應急救援迅速、高效、有序的開展,將事故造成的人員傷亡、財產損失、環境破壞、運行中斷時間等降到最低限度。
數據中心基礎設施運維的應急處理體系是數據中心各類突發事故的應急基礎,通過編制應急預案,可以對那些事先無法預料到的突發事故起到基本的應急指導作用,成為開展應急救援的“底線”,在此基礎上,可以針對特定事故類別編制專項應急預案,并有針對性地制定應急預案、進行專項應急預案準備和演習。
數據中心基礎設施運維的應急處理體系,建立了與上級單位和部門應急救援體系的銜接,通過編制應急預案,可以確保當發生超過本級應急能力的重大事故時,與有關應急機構的聯系和協調。
數據中心基礎設施運維的應急處理體系建設,有利于提高風險防范意識,應急預案的編制、評審、發布、宣傳、演練、教育和培訓,有利于各方了解面臨的重大事故及其相應的應急措施,有利于促進各方提高風險防范意識和能力。
2、小應急處理相關
應急:應急是一種要求立即采取行動(超出了一般工作程序范圍)的狀態,以避免事故的發生或減輕事故的后果。
預案:為進行危機管理提前制定的操作計劃。
應急信息保障:當數據中心設施遭受破壞、性能降級、異常或執行重要信息保障任務時,通過應急方式來保障信息服務能力。
數據中心保障應急預案:為開展數據中心服務保障工作而提前制定的操作計劃,規定了各級單位應對各種突發或重要事件的工作原則、組織機構、應急響應等通用性內容,適用于應對各類突發或重要事件。
重大危險源:指在數據中心園區內或周邊,長期地或是臨時地生產、搬運、使用或貯存危險性物品,且危險物品的數據等于或超過臨界量的,重大危險源歷來就是數據中心運營監管重點對象。
分級響應:突發或重要事件發生時,按照分級負責、快速反應的原則,應急響應劃分參照國家應急預案標準。
3、應急處理的基本原則
數據中心基礎設施運維應急處理應當遵守國家相關法律法規,遵守數據中心所在地區的行政法律法規。
數據中心基礎設施運維應急處理在保障人員生命安全的前提下,積極承擔應盡的社會責任,優先確保涉及民生的信息服務安全、暢通。
數據中心基礎設施運維應急處理要做到統一領導,分級指揮,充分利用現有資源,突出保障重點。
數據中心基礎設施運維應急處理的信息發布應當及時、準確、客觀、全面,要積極主動,準確把握,避免猜測性、歪曲性的信息披露等。
4、應急處理體系建設
1、應急體系建設
各類數據中心應針對本數據中心基礎設施運維的特點,建立基礎設施運維應急處理體系,應急體系建設原則如下:
總則:包括基礎設施運維應急處理體系目的、工作原則、編制依據和適用范圍。
數據中心基礎設施運維應急處理組織指揮體系及職責:包括組織機構和職責、組織體系框架描述。
數據中心基礎設施運維應急處理的預防和預警機制:包括對預防機制、預警監測、預防預警行動、預警分級和發布的介紹。