2017年1月14日,Ucloud云北京B區(qū)的業(yè)務(wù)產(chǎn)生了間斷,間斷的原因是運(yùn)營商施工原因?qū)е翨區(qū)數(shù)據(jù)中心機(jī)房到北京焦點(diǎn)匯聚點(diǎn)的兩對光纖同時(shí)被挖斷,導(dǎo)致業(yè)務(wù)間斷。這讓人想起了2015年5月的付出寶業(yè)務(wù)間斷事件,也是運(yùn)營商網(wǎng)絡(luò)光纖被施工挖斷導(dǎo)致,其時(shí)是四條大對數(shù)光纜間斷。互連的光纖鏈路呈現(xiàn)間斷這類突發(fā)事件,假如沒有一些備份和監(jiān)控法子,就會導(dǎo)致業(yè)務(wù)受到影響。實(shí)際上,在數(shù)據(jù)中心表里部,雷同于這樣的鏈路妨礙問題時(shí)有產(chǎn)生,只不外這兩個(gè)例子是影響較量大的。那么,數(shù)據(jù)中心怎么才氣提前做好鏈路檢測事情,制止產(chǎn)生雷同問題呢?
鏈路妨礙是數(shù)據(jù)中心碰著的一種非經(jīng)常見的妨礙范例。假如在數(shù)據(jù)中心內(nèi)部,很好辦,通過增加鏈路備份的方法,晉升靠得住性,一般漫衍在差異網(wǎng)絡(luò)設(shè)備上,彼此之間只管斷絕,這樣當(dāng)一側(cè)鏈路呈現(xiàn)妨礙時(shí),業(yè)務(wù)實(shí)時(shí)切到別的一側(cè)來,這個(gè)鏈路可以是兩條也可以是多條,越多靠得住性越高。最常見的方法是回收聚合的方法,個(gè)中有幾條或數(shù)條有問題時(shí),業(yè)務(wù)也可以切換到正常鏈路上來。假如在數(shù)據(jù)中心外部,尤其是租用運(yùn)營商的線路,這個(gè)外部情況并不是數(shù)據(jù)中心可以或許節(jié)制的。假如在財(cái)力答允的環(huán)境下,可以租用多條鏈路。單條鏈路出妨礙,業(yè)務(wù)還可以走其它的鏈路。不外像Ucloud和付出寶都是有備份鏈路的,付出寶甚至有四條鏈路,只要有一條鏈路不絕,業(yè)務(wù)也不至于全斷。惋惜的是四條全斷的事件照舊產(chǎn)生了,這時(shí)可以或許救數(shù)據(jù)中心的方法只能是有異地?cái)?shù)據(jù)中心可能災(zāi)備數(shù)據(jù)中心,當(dāng)正在運(yùn)行的數(shù)據(jù)中心外部鏈路全部間斷時(shí),業(yè)務(wù)可以實(shí)時(shí)遷移到其它數(shù)據(jù)中心,保持業(yè)務(wù)不受影響。這也是成立災(zāi)備數(shù)據(jù)中心的重要性地址,假如說Ucloud和付出寶提前有完整的異地災(zāi)備系統(tǒng),業(yè)務(wù)不至于間斷這么久。平時(shí)在數(shù)據(jù)中心和災(zāi)備數(shù)據(jù)中心之間有及時(shí)的備份流量,一旦主用數(shù)據(jù)中心產(chǎn)生妨礙,應(yīng)用自動切換到災(zāi)備數(shù)據(jù)中心上運(yùn)行,切換進(jìn)程很是短暫,對業(yè)務(wù)的影響微乎其微。
僅有各類鏈路的備份,數(shù)據(jù)中心的備份還不足,最為要害的是要有能檢測到鏈路妨礙的手段,并按照這些檢測功效去自動執(zhí)行應(yīng)用業(yè)務(wù)的切換行動。首先,數(shù)據(jù)中心都有網(wǎng)管監(jiān)控系統(tǒng),當(dāng)呈現(xiàn)鏈路的DOWN事件時(shí),在網(wǎng)管中心就可以監(jiān)測到,網(wǎng)管中心可以按照鏈路DOWN的位置和數(shù)量,人工或自動的方法舉辦鏈路切換可能業(yè)務(wù)切換。人工的方法就是通過查抄鏈路DOWN的妨礙位置,舉辦有針對性的業(yè)務(wù)切換,自動的方法就是通過鏈路DOWN事件與系統(tǒng)提前配置好的行動聯(lián)動起來,按照差異位置的鏈路DOWN有差異的應(yīng)急預(yù)案,只要系統(tǒng)自動執(zhí)行即可規(guī)復(fù)業(yè)務(wù)。其次,許多時(shí)候互連鏈路中間可以顛末光傳輸設(shè)備(主要在數(shù)據(jù)中心外部可能跨數(shù)據(jù)中心之間),這樣一端鏈路縱然DOWN了,另一側(cè)并不能感知到,就需要陳設(shè)一些檢測協(xié)議來感知。常見的有聚合LACP協(xié)議、DLDP協(xié)議、OAM協(xié)議,LACP協(xié)議假如回收慢速的檢測,30秒才發(fā)送一個(gè)探測包,90秒超時(shí),所以切換速度是較量慢的,雖然可以將這個(gè)設(shè)置為快速檢測,最快1秒發(fā)送一個(gè)探測包,3秒超時(shí),這樣可以或許在幾秒鐘的時(shí)間里完成鏈路切換。有的時(shí)候假如不是聚合備份干系,這時(shí)就要借助DLDP協(xié)議,DLDP協(xié)議本是檢測單光纖不通鏈路妨礙的,假如回收DLDP,當(dāng)協(xié)議超時(shí)后迅速對端口做SHUTDOWN操縱,這樣云打點(diǎn)平臺就可以感知到端口DOWN,采納修復(fù)行動。OAM協(xié)議同樣是鏈路檢測協(xié)議,是物理鏈路層的協(xié)議,所以開銷更小,檢測速度更快,并且行動富厚,可以告警,可以DOWN端口,可以和其它協(xié)議聯(lián)動。第三,要有災(zāi)備的數(shù)據(jù)中心。假如是數(shù)據(jù)中心內(nèi)部的DOWN,業(yè)務(wù)影響范疇還不是出格廣,但假如是數(shù)據(jù)中心與外部互連的端口呈現(xiàn)了DOWN,嚴(yán)重時(shí)導(dǎo)致整個(gè)數(shù)據(jù)中心無法運(yùn)轉(zhuǎn),這時(shí)就要啟用災(zāi)備數(shù)據(jù)中心。將應(yīng)用業(yè)務(wù)切換到災(zāi)備數(shù)據(jù)中心,由災(zāi)備數(shù)據(jù)中心經(jīng)受業(yè)務(wù)。在主業(yè)務(wù)數(shù)據(jù)中心和災(zāi)備數(shù)據(jù)中心之間要有及時(shí)的業(yè)務(wù)備份,同時(shí)尚有一套配合的打點(diǎn)平臺,確保在數(shù)據(jù)中心妨礙時(shí),業(yè)務(wù)可以滑膩切換到災(zāi)備數(shù)據(jù)中心,這里凡是回收的照舊路由切換的方法,通過調(diào)解路由將業(yè)務(wù)流量引入災(zāi)備數(shù)據(jù)中心。要實(shí)現(xiàn)這個(gè)進(jìn)程照舊較量巨大的,要對多個(gè)數(shù)據(jù)中心的業(yè)務(wù)模子洞若觀火,需要做業(yè)務(wù)遷移的時(shí)候,通過調(diào)解路由將業(yè)務(wù)切換到災(zāi)備數(shù)據(jù)中心。第四,調(diào)解路由有時(shí)照舊太慢了,也容易墮落,這時(shí)就呈現(xiàn)了VXLAN技能,VXLAN技能將多個(gè)數(shù)據(jù)中心大二層買通,差異數(shù)據(jù)中心內(nèi)部的虛擬機(jī)可以向其它數(shù)據(jù)中心自如遷移(所謂遷移指的是二層轉(zhuǎn)發(fā))。這樣當(dāng)一個(gè)數(shù)據(jù)中心妨礙時(shí),所有的虛擬機(jī)業(yè)務(wù)可以全部遷移到災(zāi)備數(shù)據(jù)中心,整個(gè)進(jìn)程在業(yè)務(wù)層面都無感知,切換速度快,調(diào)解簡樸,并且許多時(shí)候這種遷移是系統(tǒng)自動完成,不需要工錢參加的。