日前據(jù)悉,信用卡發(fā)行商Visa公司的數(shù)據(jù)中心本月早些時(shí)候遭遇停機(jī),那么人們還記得2011年臭名昭著的為期四天的停電?那么發(fā)生了什么?以及Visa公司為避免再次停機(jī)采取了什么措施?
Visa公司歐洲分公司的首席執(zhí)行官Charlotte Hogg表示,由于數(shù)據(jù)中心的交換機(jī)出現(xiàn)故障,6月早些時(shí)候歐洲各地的數(shù)百萬(wàn)客戶受到影響,導(dǎo)致信用卡業(yè)務(wù)處理中斷了10小時(shí)。
作為對(duì)英國(guó)財(cái)政部要求自行解釋的要求,Hogg向英國(guó)國(guó)會(huì)議員跨黨派委員會(huì)發(fā)出了一封詳細(xì)信函中的數(shù)據(jù)中心問(wèn)題。
停電發(fā)生在6月1日,停機(jī)事件發(fā)生在英國(guó)夏令時(shí)14:35,并于00:45結(jié)束。英國(guó)數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)意識(shí)到處理系統(tǒng)功能已經(jīng)存在“部分退化”,據(jù)說(shuō)已經(jīng)制定了相應(yīng)的協(xié)議來(lái)處理這個(gè)問(wèn)題。
其第一步是召開(kāi)技術(shù)響應(yīng)團(tuán)隊(duì)評(píng)估會(huì)議。隨后,亞洲服務(wù)器租用 歐洲服務(wù)器,這一問(wèn)題升級(jí)為危機(jī)管理協(xié)議,并就此問(wèn)題發(fā)布了媒體聲明。
該公司在英國(guó)經(jīng)營(yíng)著兩個(gè)數(shù)據(jù)中心,其中任何一個(gè)據(jù)稱都能夠在歐洲處理Visa公司的100%交易。在“正常情況下”,系統(tǒng)是同步的,任何一個(gè)數(shù)據(jù)中心停電,另一個(gè)可以立即接管。Hogg說(shuō),每個(gè)中心都內(nèi)置了設(shè)備和控制的多種備份形式。
每個(gè)數(shù)據(jù)中心都配置了兩臺(tái)核心交換機(jī),一臺(tái)主要的交換機(jī)和一臺(tái)次要的交換機(jī)。如果主要交換機(jī)發(fā)生故障,在“正常運(yùn)行”狀態(tài)下,備用交換機(jī)將接管。在這種情況下,主要數(shù)據(jù)中心交換機(jī)中的某個(gè)組件出現(xiàn)“非常罕見(jiàn)的部分故障”,從而導(dǎo)致備份交換機(jī)無(wú)法啟動(dòng)。
因此,該公司花費(fèi)比通常在主要數(shù)據(jù)中心隔離系統(tǒng)更長(zhǎng)的時(shí)間。主要數(shù)據(jù)中心的故障系統(tǒng)繼續(xù)嘗試與輔助數(shù)據(jù)中心同步消息。這在輔助數(shù)據(jù)中心創(chuàng)建了消息積壓,這反過(guò)來(lái)又減緩了該站點(diǎn)處理傳入事務(wù)的能力。
數(shù)據(jù)中心工作人員采取了一些關(guān)鍵措施來(lái)嘗試緩解問(wèn)題,其中包括關(guān)閉主站點(diǎn)的軟件應(yīng)用程序,并通過(guò)人工和自動(dòng)方式清理輔助數(shù)據(jù)中心的消息積壓。
直到19:10左右才完全停用導(dǎo)致主要數(shù)據(jù)中心事務(wù)失敗的系統(tǒng)。到那時(shí),輔助數(shù)據(jù)中心已經(jīng)開(kāi)始正常處理幾乎所有的交易。到20:15,其影響“基本解決”,6月2凌晨00:45處理水平正常。
事件發(fā)生時(shí),整個(gè)系統(tǒng)都沒(méi)有中斷。相反,在整個(gè)中斷期間,未能處理的交易百分比“波動(dòng)”。
Hogg說(shuō):“我們尚不清楚為什么交換機(jī)在當(dāng)時(shí)出現(xiàn)故障,但我們正在與]制造商合作對(duì)交換機(jī)進(jìn)行取證分析。”
她補(bǔ)充說(shuō):“根據(jù)他們的初步調(diào)查結(jié)果,域名注冊(cè),我們被告知這是非常罕見(jiàn)的失敗。制造商向我們提供了有關(guān)軟件的建議,用于在發(fā)生類似的故障時(shí)自動(dòng)監(jiān)控和關(guān)閉交換機(jī)。而在運(yùn)行時(shí),該計(jì)劃將不斷審查交換機(jī)中的關(guān)鍵組件,以跟蹤其可用性。如果檢測(cè)到相同的錯(cuò)誤,程序?qū)⒆詣?dòng)接收組件或切換操作。”
她表示,Visa公司還在內(nèi)部開(kāi)展工作、開(kāi)發(fā)和安裝其他新功能,以便以“更加自動(dòng)化和及時(shí)的方式”將處理環(huán)境中的故障組件隔離并刪除。
該公司還正在對(duì)其測(cè)試和運(yùn)營(yíng)以及事件響應(yīng)流程進(jìn)行審查。Visa公司已將其歐洲處理遷移至其全球處理系統(tǒng)VisaNet。此遷移計(jì)劃于2018年底前完成。VisaNet基于與歐洲系統(tǒng)不同的技術(shù)架構(gòu),擁有多個(gè)數(shù)據(jù)中心并服務(wù)于多個(gè)地區(qū)。
VisaNet有四個(gè)雙活圖像協(xié)同工作,與歐洲的系統(tǒng)相比,它具有更大的容量和規(guī)模。
Hogg說(shuō):“VisaNet在檢測(cè)和恢復(fù)6月1日影響歐洲系統(tǒng)的部分故障時(shí)具有更強(qiáng)的適應(yīng)能力。”
Hogg表示,“它可以用一個(gè)命令隔離和刪除失敗的組件,只需幾分鐘時(shí)間即可從處理環(huán)境中刪除故障組件。通過(guò)這樣做,我們?cè)谄渌?a href="http://www.qzkangyuan.com/cnidc/dc/jfjs/20160910/2102.html">數(shù)據(jù)中心的操作系統(tǒng)可以忽略故障系統(tǒng)并繼續(xù)無(wú)縫運(yùn)行。”
Hogg證實(shí),6月1日的停機(jī)事件與這次移徙沒(méi)有任何關(guān)系,而其移徙事件自2月份以來(lái)一直在進(jìn)行。
在很多方面,Visa公司歐洲分公司運(yùn)營(yíng)中斷在2011年臭名昭著的為期四天的全球黑莓智能手機(jī)中斷事件中發(fā)生,當(dāng)英國(guó)數(shù)據(jù)中心的網(wǎng)絡(luò)交換機(jī)出現(xiàn)故障,并且備份系統(tǒng)未能完全啟動(dòng)時(shí),由于狹窄設(shè)計(jì)的網(wǎng)絡(luò)陷入癱瘓,導(dǎo)致日志堵塞。當(dāng)然,黑莓手機(jī)當(dāng)時(shí)并沒(méi)有從事件中恢復(fù)過(guò)來(lái),這加速了用戶向iPhone和Android設(shè)備的遷移。