完善的災難恢復 (DR) 策略可幫助公司從自然、意外或惡意來源的緊急情況中恢復。通過確保公司能夠在危機時期快速恢復 IT 運營,災難恢復有助于防止收入損失、客戶不滿意和品牌受損。本文介紹了災難恢復以及具有安全意識的公司為緊急情況做準備的方式。我們解釋了所有主要的災難恢復概念,研究了不同的恢復策略,并概述了創建有效災難恢復計劃所需的所有內容。
什么是災難恢復?
災難恢復 (DR) 是一組程序、策略和流程,用于規定公司如何應對破壞性事件和事件。公司通常將其 DR 戰略構建成一份正式文件,為團隊提供應對災難的詳細說明。
災難恢復的目標是確保在發生自然或人為事件時,企業可以繼續運營或快速恢復 IT 運營。常見的災難場景有:
- 自然災害,如海嘯、地震、洪水或颶風。
- 設備故障(斷電、硬盤故障、物理損壞等)。
- 意外的人為錯誤,例如意外刪除數據或丟失BYOD 設備。
- 火災爆發。
- 工業事故。
- 惡意內部人員?破壞系統。?
- 炸彈威脅。
- 來自組織外部的網絡攻擊(DDoS、??SQL 注入、勒索軟件攻擊等)。
- 數據泄露。
公司通常將災難恢復和業務連續性?計劃結合到一個計劃 (?BCDR?) 中。然而,盡管有一些重疊,但 BC 和 DR 之間有明顯的區別:
- 業務連續性是一組積極主動的做法,可最大限度地降低風險并確保業務能夠繼續提供服務而不會中斷。
- 災難恢復計劃是一個反應過程,它概述了公司在發生災難時必須采取的恢復 IT 運營的具體步驟。
為什么災難恢復很重要?
災難恢復至關重要,因為它使公司能夠:
- 預測和預防可避免的事件。
- 應對不可避免的事件并從中恢復。
當災難發生時,恢復計劃可以減少損失并幫助團隊正確應對問題。因此,災難恢復在緊急情況期間和之后可以帶來以下好處:
- 節省成本:為破壞性事件做準備可以節省數十萬美元的損失(更安全的設備、更好的數據保護、更少的法律后果等)。
- 快速恢復:與沒有反應計劃相比,企業可以通過 DR 更快地重新啟動任務關鍵型服務。
- 無服務中斷:災難恢復計劃可確保服務繼續運行,就好像災難沒有發生一樣。
- 降低團隊壓力:災難準備通過在緊急情況下為團隊提供明確的行動計劃來降低員工的壓力。
一些企業需要災難恢復計劃來滿足合規性規定。在金融、?醫療保健和政府部門運營的公司通常在法律上有義務為某種形式的 DR 做好準備。
災難恢復類型
公司可以從多種災難恢復類型和方法中進行選擇,以形成有效的恢復策略。您設置的災難恢復類型取決于您的:
- IT 環境及其獨特的需求。
- 哪些資產需要保護(數字和物理)。
- 行業風險等級。
- 備份和恢復的首選方法。
- 總預算。
以下是最常見的災難恢復類型:
- 數據中心災難恢復:這種災難恢復類型可確保公司在輔助數據中心或托管?設施?中擁有故障轉移站點?。該計劃還應包括恢復主數據中心的措施 (例如,滅火工具或備用電源)。
- 云災難恢復:您可以使用云災難恢復?來設置在發生中斷時自動將工作負載故障轉移到云,?而不是設置輔助設施?。這種類型的 DR 可以包括從保留云計算資源到備用?虛擬數據中心 (VDC)的任何內容。
- 網絡災難恢復:此災難恢復策略是在災難期間恢復網絡功能的計劃。該計劃通常涉及訪問備份站點和數據。
- 虛擬化災難恢復:虛擬化?允許您在備用位置或云中復制占用空間小的工作負載。
- 災難恢復即服務 (DRaaS?):??DRaaS?是基于服務的云災難恢復版本。如果出現緊急情況,DRaaS 提供商會將所有計算機處理轉移到其云基礎架構中,讓您能夠繼續運營。
根據您的 IT 設置的范圍和復雜性,您可能需要上面列出的多種(甚至全部)恢復類型。
災難恢復的工作原理
災難恢復依賴于在不受當前事件影響的外部位置復制數據和計算過程。這些位置可以是物理的或虛擬的,并且屬于以下三個類別之一:
- 冷站點:冷站點是具有電源和網絡功能的輔助設施。這些站點不包括數據存儲,因此在發生災難時進行設置非常耗時且容易出錯。
- 溫站點:除了?數據存儲?硬件之外,溫站點還包含冷站點的所有元素。如果發生災難,這些站點已準備就緒,但團隊仍需要傳輸當前數據。
- 熱站點:?熱站點是一個完全可操作的備份站點,具有所有關鍵數據的最新鏡像。這些位置的設置和維護非常耗時,但可以確保在緊急情況下幾乎沒有停機時間。
公司建立的站點類型取決于 IT 環境的復雜性和分配的預算。由于冷站點的設置成本低廉,而熱站點非常復雜且成本高昂,因此大多數公司都選擇了熱備份。
災難恢復示例
恢復策略的復雜性因事件類型和您要保護的資產價值而異。以下是一些災難恢復的示例:
- 員工應如何應對數據中心內或附近發生的火災的計劃。
- 有關從數據備份中恢復內容?并在Web 或應用服務器?出現故障時?維持正常操作的?說明。
- 如果公司的云 ERP?系統出現故障,如何恢復運營的指導?。
- 在網絡攻擊后使網站重新上線的策略?。
- 有關如何在颶風多發地區保護設備并使用故障轉移備份保持服務在線的說明。
- 如果其中一名員工意外打開網絡釣魚電子郵件中的文件,團隊應如何緩解這種情況的說明?。
- 勒索軟件預防DR 計劃,提供? 有關團隊應如何隔離受感染系統并使用不可變備份來恢復數據的步驟。
什么是災難恢復計劃?
災難恢復計劃是一份公司范圍內的文件,它指定團隊應如何應對特定的中斷或災難。本文檔提供了員工所需的所有信息,以最大限度地減少災難的影響并保護企業。
雖然每個 DR 計劃都是獨一無二的,但每個文檔都應包括:
- 災難計劃的主要目標和恢復時間。
- 首選人員及其聯系信息。
- 潛在威脅和風險的概述。
- 關鍵 IT 資產的細分。
- 響應行動和程序的詳細描述。
災難恢復計劃應該不斷發展。每當您添加新設備或擴展工具堆棧時,通過更新文檔來確保響應策略保持有效和準確。
災難恢復計劃的要素
完善的災難恢復計劃應包括以下要素:
- 風險分析:?對企業可能面臨的所有潛在風險的評估。
- 業務影響分析:??BIA 評估風險分析概述的危險的影響。該評估可預測對公司安全、財務、聲譽和合規性的潛在影響。
- 災難恢復目標:?明確定義組織旨在通過災難恢復計劃實現的目標。
- 恢復時間對象 (RTO):??RTO 是 IT 基礎架構在事件發生后重新上線所需的時間。該指標定義了關鍵系統在發生災難時可以經歷的最大停機時間。
- 恢復點對象 (RPO):??RPO 是在事件開始到完全 IT 恢復之間可能丟失的可接受的數據量(按時間衡量)。
- 首選人員:?負責執行 DR 計劃的工作人員的姓名和聯系方式的清晰列表。
- IT 清單:?硬件和軟件資產、IT 重要性和依賴關系的詳細列表。
- 恢復站點:?團隊在緊急情況下可以依賴的所有冷、熱和熱站點的概述。
- 備份程序:?有關備份資源的方式、時間和地點以及如何恢復內容的說明。
- 災難恢復程序:?針對不同事件場景的分步應急響應。
- 恢復指南:?恢復 IT 運營的詳細計劃。
如何制定災難恢復計劃?
以下是有關如何創建基本災難恢復計劃的分步指南:
- 執行風險分析:?找出您最有可能面臨的威脅,包括自然災害、設備故障和網絡威脅。
- 定義 DR 目標:?概述災難恢復計劃的主要目標并定義預期恢復時間(RTO 和 RPO)。
- 規劃資產:?確定您要保護的內容,包括網絡設備、服務器、工作站、軟件、云資源和關鍵數據。列出每個資產的位置(無論是物理的還是數字的)、配置、型號、序列號、版本和依賴關系。
- 資產優先級:?根據損失對業務的影響程度來定義每項資產的優先級(高、中和低)。
- 提供設施概要:?深入了解您的設施(平面圖、電力需求、安全要求、防火機制等)。
- 定義首選人員:?提供負責執行 DR 措施的員工和團隊的姓名和聯系方式。
- 解釋備份程序:?詳細說明公司備份數據的方式、時間和地點。
- 概述災難恢復程序:?為每個潛在事件提供應急響應程序。
- 解釋恢復程序:?解釋團隊應如何在災難后恢復 IT 操作和數據。該計劃應涵蓋對風險分析中列出的所有威脅的響應。
- 為備份站點編寫說明:?如果團隊在災難后無法繼續使用主數據中心,員工必須知道如何到達備用站點(無論是冷的、溫暖的還是熱的)。
- 提供恢復說明:?編寫詳細計劃,將整個 IT 設置恢復到災前狀態。
在正式制定計劃之前,您應該針對每種災難類型進行實際演練。您可以為所有基于軟件的災難組織一次?滲透測試?,以查看該過程在現實生活中是否有效。
無論是從頭開始制定 DR 計劃還是改進現有戰略,組建合適的專家團隊都是成功的關鍵。將您的 DR 團隊分成四個關鍵組,負責:
- 行政決策:?這些工作人員批準與 DR 相關的戰略、政策和預算。
- 危機管理:?該團隊啟動恢復計劃、協調恢復工作并處理不可預見的問題。這些員工是所有 DR 相關問題的首選聯系人。
- 運營連續性:?這些專家負責?業務連續性最佳實踐?并確保服務在災難期間保持可用。
- 影響評估和恢復:?該團隊評估損害并領導 DR 計劃的恢復階段。
培訓是創建有能力的 DR 團隊的關鍵。定期進行演練和測試,讓員工保持良好狀態,并確保 DR 團隊及時了解 IT 環境的變化。
抱最好的希望,做最壞的打算
您從事件中恢復的時間越長,對您的運營和財務的影響就越大。完善的災難恢復計劃可確保從中斷中快速恢復,因此必須成為您的 IT 和業務戰略不可或缺的一部分。