過去五年內(nèi),我國數(shù)據(jù)中心的數(shù)量劇增,產(chǎn)業(yè)規(guī)模不斷擴大,預(yù)計2018年我國IDC產(chǎn)業(yè)規(guī)模將接近1400億元,在未來中國數(shù)據(jù)中心的產(chǎn)業(yè)將繼續(xù)蓬勃發(fā)展。但近年來,數(shù)據(jù)中心因為運維水平不足引起的宕機事故頻發(fā),越來越多的用戶和服務(wù)商開始意識到數(shù)據(jù)中心運維的重要性,并且已經(jīng)將運維水平逐步納入到重要的服務(wù)指標中。未來隨著數(shù)據(jù)中心基礎(chǔ)設(shè)施和網(wǎng)絡(luò)能力的提升,服務(wù)商運維能力也將成為運營的門檻,具備高品質(zhì)服務(wù)能力的服務(wù)商將獲得更多客戶的青睞。
數(shù)據(jù)中心故障頻發(fā)
2017年6月微博數(shù)據(jù)中心因電力原因故障,造成了微博“黑色一小時”,美國云服務(wù)器 韓國vps云主機,緊接著餓了么機房也出現(xiàn)故障,導(dǎo)致商家無法接單,客戶無法取餐。2017年2月28日晚8點39分,百度移動端搜索發(fā)生故障,搜索請求無法顯示結(jié)果,至晚9點21分恢復(fù),歷時42分鐘。亞馬遜的云服務(wù)出現(xiàn)過持續(xù)數(shù)小時故障,故障起因是AWS S3(云存儲)團隊在進行調(diào)試時輸入了一條錯誤指令,本應(yīng)該將少部分的S3計費流程服務(wù)器移除,可是最終意外地移去了大量的服務(wù)器,2016年1月18日Microsoft Office 365的用戶的電子郵件賬戶出現(xiàn)問題,微軟將故障歸咎于一次錯誤的軟件更新,但是其初次修復(fù)的嘗試并沒有解決問題,在最初的故障出現(xiàn)五天之后,第二次電子郵件故障又爆發(fā)了,這一次激怒了很多用戶。2016年4月22日11時28分,某數(shù)據(jù)中心服務(wù)商位于北京亦莊的數(shù)據(jù)中心供電中斷,在該機房托管的多家金融機構(gòu)和73家村鎮(zhèn)銀行的所有設(shè)備宕機,服務(wù)全部中斷長達7小時以上!
根源在于運維管理
對于這些數(shù)據(jù)中心機房故障,中國信息通信研究院專家對事故原因進行總結(jié)說,故障多發(fā)的原因關(guān)鍵還是在運維管理上,所謂“三分技術(shù),七分管理”,數(shù)據(jù)中心的故障大多源自于人禍。運行中的數(shù)據(jù)中心,應(yīng)減少人為參與的機會,要對人為行為進行充分的管理和評估。
大量的事實表明,數(shù)據(jù)中心提供的服務(wù)品質(zhì)優(yōu)劣主要是運維管理水平?jīng)Q定的。加強運維人員的管理,提升運維人員的技能水平,才能減少人為犯錯的機會,避免產(chǎn)生人禍。數(shù)據(jù)中心是一個非常復(fù)雜的IT系統(tǒng),難免會出現(xiàn)這樣那樣的問題,從而引發(fā)故障,若能夠通過有效管理減少其中人禍部分的因素,將能有效提升數(shù)據(jù)中心的運行穩(wěn)定性。
服務(wù)商宣傳未必靠譜
頻繁出現(xiàn)的數(shù)據(jù)中心故障、宕機事故說明,某些數(shù)據(jù)中心的基礎(chǔ)設(shè)施可靠性,并不像他們對外宣傳的那樣完美。而且,很多用戶在選擇托管服務(wù)的時候認真考察過服務(wù)商的服務(wù)水平,但是一旦選定之后很少會再去關(guān)注他們的運營質(zhì)量。尤其是很多關(guān)鍵業(yè)務(wù)托管上云之后,更是如此。這也不奇怪,業(yè)務(wù)在云之間進行遷移的風(fēng)險和成本極高,所以一旦完成遷移上線,幾乎很少會有用戶再去監(jiān)督服務(wù)商的服務(wù)質(zhì)量。反正也遷不出來,即使發(fā)現(xiàn)他們有些不合規(guī)也只能認了。這導(dǎo)致了服務(wù)商的服務(wù)質(zhì)量得不到監(jiān)督。長此以往,就很有可能出現(xiàn)服務(wù)質(zhì)量下降的情況。服務(wù)商在發(fā)生災(zāi)難時的損失和客戶在發(fā)生災(zāi)難時的損失往往不在同一個層次上,這也使得服務(wù)商沒有足夠的意愿去保證服務(wù)水平。
現(xiàn)在對于數(shù)據(jù)中心服務(wù)商來說,如何增強自身的市場競爭力,如何留住現(xiàn)有客戶并發(fā)展新的客戶,如何規(guī)避運維過程中的各類風(fēng)險,為客戶提供更加優(yōu)質(zhì)的服務(wù)是主要思考的問題。而如何選擇優(yōu)質(zhì)的服務(wù)商,如何評估一個數(shù)據(jù)中心的服務(wù)能力,如何規(guī)避SLA陷阱,如何審查服務(wù)商的SLA執(zhí)行力度,保障自身的合法權(quán)益是客戶在選擇服務(wù)商時經(jīng)常面臨的問題。
評估揭示真實水平
為了解決這些問題,給數(shù)據(jù)中心和商家雙方都吃一顆"定心丸",數(shù)據(jù)中心聯(lián)盟在工業(yè)和信息化部的指導(dǎo)下完成了數(shù)據(jù)中心服務(wù)能力評價標準的編撰工作。數(shù)據(jù)中心服務(wù)能力評價標準是從用戶視角出發(fā)的評估體系,所有評分細則都來自于IDC用戶及數(shù)據(jù)中心行業(yè)專家。除服務(wù)能力評估外,聯(lián)盟還開展數(shù)據(jù)中心可靠性評估和綠色數(shù)據(jù)中心評估。
數(shù)據(jù)中心可靠性評估:是目前行業(yè)一套統(tǒng)一、權(quán)威的IDC基礎(chǔ)設(shè)施可靠性評價體系,一方面使用戶在選擇機房時有科學(xué)評判依據(jù),用戶權(quán)益能夠得到保障;另一方面也使企業(yè)具有較高公信力的宣傳推廣手段,在IDC運營企業(yè)之間建立優(yōu)勝劣汰的良性競爭機制。