9月27日,由開放數據中心委員會主辦,百度、騰訊、阿里巴巴、中國電信、中國移動、中國信息通信研究院、英特爾承辦的“2016ODCC開放數據中心峰會”在京謹慎召開。在下午的ODCC數據中心辦理方案分會場上,百度的高級工程師顏小云頒發題為“數據中心基本設施運維最佳實踐項目分享”的演講。以下是演講全文:
百度的高級工程師 顏小云
我叫顏小云,來自百度系統部。我首先感激ODCC提供了這樣的平臺,讓我們有時機去做這樣一個項目數據中心基本設施運維體系項目分享的項目,在做的進程中獲得了像朱總的大力大舉支持,并且本日又提供了這樣的時機讓我和各人分享,所以在這里首先照舊對ODCC尚有所有介入過這個項目標廠家和小我私家暗示由衷的感激。
我本日給各人分享四個方面的內容,第一個,談一下項目開展的配景,就是我們為什么要做這個項目,第二個,看一下項目籌備實現的方針是什么,可能項目開始的時候定的什么樣的方針,第三個,是各人較量感樂趣的,這次峰會我們有什么樣的成就可以宣布出來展示給各人的,最后一個是我們下一步的打算。
看一下這個項目標配景,其實在已往的一年我們15、16也好,海表里的很大都據中心知名的公司都產生過這樣那樣的變亂,每一次變亂其實影響都挺大的,其實我小我私家更感樂趣的是,這么多變亂它對付我們數據中心的影響是什么?各人看右面的這個圖,這是16年頭美國一家調研機構連系(英文)一起做的調研,他們獲得一個結論,是銀行業每一次宕機損失近一百萬美金,各人可以看到通信、醫療、電子商務的行業,每一次的損失都高出了九十萬。接下來我們會想這樣一些宕機的變亂,造成那么大的損失,原因是什么,同一個調研陳訴里他們也做了排序,排的第一個是電力系統妨礙,第三個是我用赤色的勾出來,人的錯誤也占了2%,所以我小我私家認為這是一個很高的比例,可是除了這個公司像其他的調研機構也宣布了一些調研陳訴,在13年的時候阿富汗做了一個調研陳訴,各人可以看到內里提到的所有變亂有67%的比例,大概每一個運維人員沒有憑據尺度操縱的流程去觸發了哪些設備,造成了某些變亂,反過來講,并不是所有運維的人員一個好的運維人員他又能制止我們數據中心的一些較量嚴重的變亂,在數據生命周期的前端和結尾是很容易產生設備妨礙的,很有大概在數據中心方才投入運營的時候,有些設備用著用著就壞了及因為調試的原因,像這樣的環境并不是所有的事件城市激發變亂影響我們最終的業務的。這樣的事件里有41%的事件是因為我們數據中心有冗余,一個設備損壞并不是造成一個妨礙,別的我想說的是,尚有29%是因為運維人員實時的過問把妨礙切除去了。
舉一個例子,都是真實產生的,去支撐我們適才說的,第一個是許多的業內同行都知道,西安有個變電站因為施工原因沒有按劃定把操縱電源的電池用好,造成了電氣系統的不事情,那么它的電流系統這個妨礙沒有實時的被切除,最后整個變電站爆炸,影響了高出十萬人的供電,這是本年在西安正式宣布的工作,網絡上都可以搜索到。這次因為運維的時候沒有按牢靠操縱。尚有兩個好的例子,我們曾經有一個運維的人員巡檢的時候,因為數據中心其實在水泵房是較量吵的,可是因為這個同學較量有履歷,他同時發明有兩臺水泵有異響,最后排查發明都是因為連軸器有妨礙,厥后都維修了,尚有一個例子,我們有一個數據中心它是在一個大的園區里,韓國云服務器 美國云主機,這個園區除了我們本身的數據中心尚有其它的企業也在用電,別的一個企業跟我們一樣也是從同一個變電站下來的,可是有一次別的一個變電站接入的時候發明白一個妨礙,這樣子反過來引起了我們數據中心這內里高壓線的異常,雖然常常環境來講會有掩護的行動,把妨礙切掉,從別的一個角度供電,可是剛巧因為大概是線較量久了,掩護系統失效了,這種環境下我們運維人員快快速的切入,幾分鐘就切掉了,把有妨礙的切掉了用別的一邊的供電,這樣子擔保了我們機房的正常運行。所以我以為適才我想可以用一句話總結,就是一個好的運維團隊可以輔佐我們,假如他很是有履歷,可以輔佐我們制止妨礙,可是假如一個欠好的運維團隊,大概會促成妨礙。
所以年頭的時候我們就在思考,我們如何去總結數據中心運維這方面的最佳實踐,把人的腦筋內里的運維履歷總結出來傳承,從而到達制止運維變亂,發明一些潛在的變亂,還可以把履歷積聚起來快速的處理懲罰變亂,制止影響到我們的業務。所以這是我們開展這個項目標配景,所以在本年5月份的時候啟動了一個項目,就是數據中心基本設施運維,誰人時候還不叫運維體系,之前我們叫數據中心基本運維最佳實踐,我們想把最佳實踐總結出來,這個項目方才成立的時候, 我們組建了項目團隊,包羅三大運營商,包羅BAT。成立之初我們就定了一個方針,一個是我們叫無端正不成周遭,我們但愿成立一個完善的運維框架,從最開始的籌劃開始,一直到最后監測一個框架從要領論的角度成體系的類型我們的運維行為,第二個,他山之石可以攻玉,我們想成立一個交換的平臺,各人坐在一起相互交換,用專題的方法總結分享出來。