雖然數(shù)據(jù)中心的設(shè)計(jì)在理論上不會(huì)發(fā)生故障,但它確實(shí)會(huì)出現(xiàn)這種情況,因此數(shù)據(jù)中心運(yùn)營商將面臨非常嚴(yán)峻的情況,特別是托管數(shù)據(jù)中心。
根據(jù)最近發(fā)生的一些事情,表明托管數(shù)據(jù)中心遭遇停電和業(yè)務(wù)中斷的后果是十分嚴(yán)重的。例如:英國電信公司是全球最大的通訊商和托管數(shù)據(jù)中心商之一,其運(yùn)營的數(shù)據(jù)中心今年遭遇兩次宕機(jī)事件。據(jù)報(bào)道,由于故障影響,倫敦及其周邊地區(qū)的語音和數(shù)據(jù)流量下降了10%,事故時(shí)間長達(dá)四小時(shí)以上。
盡管在設(shè)計(jì)和運(yùn)行數(shù)據(jù)中心時(shí)努力避免中斷或事故,但數(shù)據(jù)中心托管設(shè)施并不能避免這些問題,其短期和長期的意外中斷都將是代價(jià)高昂的。如果客戶選擇放棄服務(wù),企業(yè)可能會(huì)因不符合服務(wù)等級協(xié)議(SLA)而受到經(jīng)濟(jì)處罰,也可能會(huì)對企業(yè)的品牌造成長期的損害,并對業(yè)務(wù)收入造成損失。
從數(shù)據(jù)中心的角度來看,應(yīng)該做什么或不應(yīng)該做什么以防止中斷事故的發(fā)生,是一個(gè)非常簡單道理。但是,如果作為數(shù)據(jù)擁有者,并且其數(shù)據(jù)中心解決方案存在失誤,那么這是一個(gè)不同的結(jié)論。如果企業(yè)客戶已經(jīng)做出戰(zhàn)略決定,將其數(shù)據(jù)放在外部數(shù)據(jù)中心,并進(jìn)行了風(fēng)險(xiǎn)分析。但這樣就真的做好應(yīng)對最壞結(jié)果的準(zhǔn)備好了嗎?問題是,如果企業(yè)客戶發(fā)現(xiàn)自己處在這種情況下該怎么辦?
對最壞情況做好準(zhǔn)備的最好辦法是不斷地解決這個(gè)可能性。如果失敗,組織的努力準(zhǔn)備和對流程的認(rèn)識將為其提供減輕失敗的資源和工具。如果企業(yè)沒有考慮或者沒有這樣做,那么建議從以下幾個(gè)方面評自己的情況。
(1)分散風(fēng)險(xiǎn)
首先,當(dāng)企業(yè)制定數(shù)據(jù)中心戰(zhàn)略時(shí),應(yīng)避免將所有數(shù)據(jù)放在一處,這樣做會(huì)增加風(fēng)險(xiǎn)因素。同樣的道理,也避免將所有關(guān)鍵應(yīng)用程序放在同一位置。考慮將主要的數(shù)據(jù)存放在一個(gè)位置,并將備份數(shù)據(jù)存放在另一個(gè)位置。然后逐步了解每個(gè)場景,并確定任何級別的故障將產(chǎn)生怎么樣的影響。每年重復(fù)一次這個(gè)過程。
(2)信任但要驗(yàn)證
企業(yè)從服務(wù)提供商獲得審核記錄,更重要的是認(rèn)真審查。在許多情況下,托管數(shù)據(jù)中心需要審計(jì)是否符合HIPAA,SOX和PCI等規(guī)定。然而有時(shí)候,這種審查可能是由不完全了解IT或數(shù)據(jù)中心如何運(yùn)營的人員來完成。因此,企業(yè)需要安排了解數(shù)據(jù)中心如何可靠運(yùn)營的專業(yè)人士進(jìn)行審核。這些第三方審核通常比他們自己識別的風(fēng)險(xiǎn)要容易得多,并且可以提供的信息更加豐富。在大多數(shù)情況下,與發(fā)生中斷事故的成本和運(yùn)營成本相比,通過審查和驗(yàn)證措施減輕風(fēng)險(xiǎn)的成本通常是最小的。
(3)簽署書面協(xié)議
企業(yè)需要知道數(shù)據(jù)中心托管提供商將如何處理中斷事故。在與供應(yīng)商簽訂合同時(shí),堅(jiān)持簽署書面協(xié)議,承認(rèn)雙方同意在什么情況將造成中斷。這一點(diǎn)至關(guān)重要。事實(shí)上,數(shù)據(jù)擁有者發(fā)現(xiàn)有時(shí)協(xié)議并沒有涵蓋他們的想法。此外,還要書面上保證供應(yīng)商在中斷期間所提供的服務(wù),并承諾在可接受的時(shí)間內(nèi)恢復(fù)。
(4)備份策略
企業(yè)一定要了解自己的業(yè)務(wù)面臨的風(fēng)險(xiǎn),并為最壞的情況做好準(zhǔn)備。大多數(shù)托管數(shù)據(jù)中心都有一個(gè)替代的站點(diǎn),可以處理基本的災(zāi)難恢復(fù),以確保他們的客戶對運(yùn)營幾乎沒有影響。大多數(shù)公司仍在追求在數(shù)據(jù)中心(托管數(shù)據(jù)中心,云計(jì)算或者內(nèi)部部署)中部署雙活數(shù)據(jù)庫。雖然有些雙活部署接近成功,但在嘗試使用災(zāi)難恢復(fù)備份時(shí),其中斷卻讓人痛苦。數(shù)據(jù)庫沒有企業(yè)期望的那樣完整,數(shù)據(jù)丟失或應(yīng)用程序在故障轉(zhuǎn)換期間很可能受到影響。
(5)了解(并記錄)流程
在事故出現(xiàn)的時(shí)候,所有各方都進(jìn)入危機(jī)模式。了解(并記錄)企業(yè)的托管服務(wù)提供者如何處理自然災(zāi)害和故障組件等事件很重要。那么采取什么步驟和順序?企業(yè)要問的一個(gè)重要問題是在發(fā)生故障時(shí)誰可以訪問?事故發(fā)生后,其他企業(yè)也會(huì)訪問這個(gè)服務(wù)器。企業(yè)需要準(zhǔn)確了解其是否可以訪問,訪問權(quán)限,誰能訪問,以及在訪問時(shí)允許執(zhí)行的操作。此外,還要知道在修復(fù)期間將采取什么額外的安全措施來保護(hù)其數(shù)據(jù)。
這個(gè)過程的重要組成部分是通信協(xié)議。開放溝通對于有效管理情況至關(guān)重要,并為企業(yè)的管理者提供更新信息。企業(yè)需要知道誰是主要聯(lián)系人,聯(lián)系誰來獲取更新,以及更新的頻率。另外,定期驗(yàn)證聯(lián)系人的姓名和電話號碼。重要的是,如果呼叫列表中的電話號碼作廢或聯(lián)系人員離職,那么這種情況將會(huì)更糟。
(6)保存記錄文檔