近年來,數(shù)據(jù)中心單機架功率密度呈上升趨勢,根據(jù)Colocation America數(shù)據(jù)顯示,單一機柜機架功率密度由2008年的6kW,直線上升至2016年的12kW。2020年,單一機柜機架功率密度可能達到16.5 kW。而個別改造案例中,單一機柜機架功率密度更是高達43 kW,高功率密度的機架假設(shè)為數(shù)據(jù)中心制冷系統(tǒng)提出了前所未有的高要求。水冷系統(tǒng)冬季通過冷卻塔、板式換熱器利用室外自然冷源進行制冷,全年能效比相比風(fēng)冷空調(diào)更具優(yōu)勢,在越來越多的大型數(shù)據(jù)中心得到應(yīng)用。
典型的數(shù)據(jù)中心水系統(tǒng)通常由冷凍水、冷卻水系統(tǒng)組成,管路較長,法蘭、閥門、過濾器等管路附件較多,隨著使用年限的增加,水系統(tǒng)故障率隨之升高。面對隨時可能發(fā)生的故障,水系統(tǒng)備品備可以說是應(yīng)急搶修的保障前提。備品備件是指為保障系統(tǒng)正常運行和設(shè)備修理要求,儲備、存放于庫房內(nèi)備用的用于維護系統(tǒng)和設(shè)備的可替換單元。
1 非常用型備品備件儲備
不同企業(yè)所需備品備件種類不同,根據(jù)現(xiàn)場實際情況,企業(yè)需制定生產(chǎn)、訂購、供應(yīng)、儲備等方面的備品備件管理方案。針對數(shù)據(jù)中心7X24小時平穩(wěn)運行的需求,故障處理務(wù)必及時有效,備品備件存在種類多、數(shù)量大的特點。大型數(shù)據(jù)中心部分水冷系統(tǒng)管徑超過DN500,管路附件類配品備品備件并不常用,服務(wù)器租用,且尺寸、重量較大,出于非常用備品備件自損及庫房空間規(guī)劃的考慮,這些非常用型備品備件不會進行現(xiàn)場儲備。
但值得注意的是,這些非常用型備品備件一旦出現(xiàn)故障,很可能直接影響數(shù)據(jù)中心水系統(tǒng)運行。如果現(xiàn)場沒有儲備,而備品備件的供應(yīng)周期又長,數(shù)據(jù)中心就會直接面對制冷中斷的風(fēng)險。
2 故障搶修案例分析
2.1 故障描述
某大型數(shù)據(jù)中心機房樓配備5臺冷水機組,故障發(fā)生前1#、2#、3#冷水機組運行,單臺負載率均在60%以上。
2019年8月16日17:10,1#冷水機組冷卻水自清洗過濾器漏水,冷卻水缺水導(dǎo)致冷水機組停機,系統(tǒng)自動切換至4#冷水機組,切換后3臺冷水機組負載率均在60%以上。但由于5#冷水機組壓縮機故障無法啟動,現(xiàn)1#冷水機組不能啟動,導(dǎo)致制冷系統(tǒng)無冗余,數(shù)據(jù)中心運行存在巨大風(fēng)險。
數(shù)據(jù)中心立刻成立專項搶修組,爭取在最短時間內(nèi)完成故障的恢復(fù)。
2.2 故障原因
圖2 自清洗過濾器
如圖2所示,自清洗過濾器是安裝在管路Y型過濾器上的自動清洗排污裝置,Y型過濾器管徑為DN350。自清洗過濾器主要由法蘭盤、不銹鋼內(nèi)刷(含支架)、過濾網(wǎng)、鋼刷主軸、電機組成,漏水原因為自清洗過濾器運行時間較長,法蘭盤安裝孔處水封腐蝕,且鋼刷主軸磨損嚴重,安裝孔處冷卻水泄露。
雖然備品備件庫儲備了水封,但因自清洗過濾器尺寸較大、故障率低,故并未儲備。因鋼刷主軸磨損嚴重,故單純更換水封無法解決冷卻水泄露的問題。
2.2 故障處理
方案一:采購鋼刷主軸進行更換
因自清洗過濾器為定制設(shè)備,主軸為異型件,制作周期最少為3-4天,且發(fā)生故障臨近下班時間,經(jīng)電話溝通,主軸的制作最快為第二天上午,這樣,VPS租用,冷機系統(tǒng)處于無冗余備份狀態(tài)至少持續(xù)4-5天。采用方案一,數(shù)據(jù)中心將面對前所未有的運行風(fēng)險。
方案二:利用未啟用水系統(tǒng)鋼刷主軸進行更換
除冷凍水、冷卻水在用主管路,該數(shù)據(jù)中心還配備水環(huán)加熱管路,且并沒有啟用。可利用管路上的自清洗過濾器鋼刷主軸進行更換。但自清洗過濾器為鑄鐵材質(zhì),自重較大,常規(guī)拆卸電機、法蘭盤及鋼刷主軸需要約2小時,故拆卸及安裝將耗時約4小時,且因自清洗過濾器較重,安裝過程極易造成水封變形,可能導(dǎo)致再次漏水,如故障搶修失敗,故障恢復(fù)時間將會延長。采用方案二,該數(shù)據(jù)中心亦將面對較長時間的運行風(fēng)險。
2.3 故障分析
方案一風(fēng)險過高,方案二雖然利用了閑置備品備件,但依然不能在短時間內(nèi)完成故障搶修。
搶修組成員均認為方案一和方案二效果都不能達到短時間完成搶修的目的,并總結(jié)關(guān)鍵點如下:
(1)自清洗過濾器泄露點為鋼刷主軸與法蘭盤的安裝孔;
(2)自清洗過濾器重量大是拆裝工作耗時較長的主要原因;
(3)自清洗過濾器利用內(nèi)部鋼刷、排污開關(guān)定時啟動,達到控制水質(zhì)的目的。
針對以上三個關(guān)鍵點,搶修組提出了幾點疑問:
(1)不更換鋼刷主軸和水封,而是完全堵住安裝孔,是否可以解決漏水問題;
(2)自清洗過濾器更換是否可以減少工作量;
(3)1#自清洗過濾器不起作用,是否會對系統(tǒng)水質(zhì)產(chǎn)生影響。
針對以上三點疑問,搶修組經(jīng)過討論,最終得到答案:
(1)完全堵住安裝孔,可以解決漏水問題;
(2)工作量可降低至拆卸法蘭盤、鋼刷主軸及不銹鋼內(nèi)刷(含支架);
(3)1#冷水機組運行時,可加大另外兩臺冷水機組自清洗過濾器的排污量,不影響系統(tǒng)水質(zhì)。
綜上,搶修組總結(jié)得出方案三:
拆除1#自清洗過濾器法蘭盤,并將鋼刷主軸、不銹鋼內(nèi)刷(含支架)拆除,臨時利用一款鐵板焊死安裝孔,再安裝回Y型過濾器。
2.4 故障處理
(1)17:10—17:30
搶修組對現(xiàn)場故障做出評估,最終確定方案三;
(2)17:30—18:45
搶修組借調(diào)其他機房樓人員力量,關(guān)閉1#自清洗過濾器前后閥門,完成拆卸;
(3)18:45—19:00
搶修組現(xiàn)場利用一小塊鐵板將安裝孔焊死;
(4)19:00—19:30
搶修組安裝1#自清洗過濾器的法蘭盤。
(5)19:30—20:00
搶修組打開1#自清洗過濾器前后閥門進行注水,觀察1#自清洗過濾器前后壓力恢復(fù)正常,安裝孔無泄漏現(xiàn)象。