在數(shù)據(jù)中心行業(yè)中,廣泛使用冗余設(shè)備來(lái)實(shí)現(xiàn)更高的系統(tǒng)可用性,通常要求其范圍為99.999%(5個(gè)9)。但是,所需的冗余級(jí)別取決于設(shè)備的可靠性。
例如,“N+1”冗余系統(tǒng)無(wú)法通過(guò)不可靠的系統(tǒng)組件獲得很高的可用性,而這些組件的同時(shí)故障可能性很高。可靠性會(huì)影響可用性,但是在數(shù)據(jù)中心經(jīng)歷的停機(jī)和故障的事件中,可靠性和可用性并非同一回事。可靠性也會(huì)影響數(shù)據(jù)中心運(yùn)營(yíng)成本。更長(zhǎng)的停機(jī)時(shí)間等于更多的維護(hù)和維修支出。
可靠性是指在規(guī)定的條件下,一個(gè)項(xiàng)目在規(guī)定的時(shí)間間隔內(nèi)執(zhí)行其預(yù)期功能的概率。關(guān)于可靠性,需要注意以下一些重要問(wèn)題:
•數(shù)據(jù)中心是否使用以可靠性為中心的維護(hù)(RCM)概念來(lái)優(yōu)化維護(hù)工作?
•是否完成了設(shè)備關(guān)鍵性分析?
•是否定期跟蹤平均故障間隔時(shí)間(MTBF)?
•是否優(yōu)化了預(yù)防性維護(hù)(PM)計(jì)劃?
•是否跟蹤設(shè)備故障并相應(yīng)地改進(jìn)流程?
目標(biāo):最小化支出,并最大限度地提高可靠性
在當(dāng)今競(jìng)爭(zhēng)激烈的市場(chǎng)中,必須在不犧牲可靠性和正常運(yùn)行時(shí)間的情況下將運(yùn)營(yíng)費(fèi)用降至最低。許多數(shù)據(jù)中心僅根據(jù)OEM服務(wù)建議來(lái)開(kāi)發(fā)其關(guān)鍵設(shè)備的服務(wù)范圍。盡管這可以產(chǎn)生足夠的結(jié)果,美國(guó)服務(wù)器,但通常不是最好的結(jié)果。很多時(shí)候,這些建議都是為了服務(wù)組織而不是最終用戶(hù)的最大利益。實(shí)際上,通常有更好的方法使用以可靠性為中心的維護(hù)(RCM)原則來(lái)提高可靠性,同時(shí)降低成本。
盡管已證明以可靠性為中心的維護(hù)(RCM)計(jì)劃是有效的,但它們可能成本昂貴,并且需要大量資源。它們涉及創(chuàng)建詳細(xì)的故障模式和影響分析(FMEA)以及填充決策工作表,這需要專(zhuān)業(yè)知識(shí)并且可能非常耗時(shí)。考慮到這一點(diǎn),在數(shù)據(jù)中心內(nèi)實(shí)施全面的以可靠性為中心的維護(hù)(RCM)程序通常并不劃算。相反,實(shí)施采用關(guān)鍵以可靠性為中心的維護(hù)(RCM)要素和有關(guān)常見(jiàn)故障模式的歷史信息的預(yù)防性維護(hù)(PM)優(yōu)化程序是一種已在其他行業(yè)證明經(jīng)濟(jì)有效的策略,并為數(shù)據(jù)中心采用提供了良好的模型。
下圖顯示了采用預(yù)防性和預(yù)測(cè)性維護(hù)策略的故障概率曲線(xiàn)(P-F曲線(xiàn))。
P-F曲線(xiàn)是以可靠性為中心的維護(hù)(RCM)的基本原理,無(wú)需完成詳盡的分析即可成功應(yīng)用。可以使用許多此類(lèi)可靠性工具來(lái)顯著改善資產(chǎn)的狀況和使用壽命。
解決方案:實(shí)施可靠性計(jì)劃
2017年,數(shù)據(jù)中心運(yùn)營(yíng)商RagingWire公司決定為其數(shù)據(jù)中心實(shí)施可靠性計(jì)劃。該公司聘用了具有生產(chǎn)背景的可靠性工程師。
其最初的可靠性措施包括:
1.服務(wù)范圍
a. 開(kāi)發(fā)81類(lèi)相關(guān)設(shè)備。
b.輸入的是管理機(jī)構(gòu)(IEEE、ANSI/NETA、ASHRAE、NFPA)的OEM建議和代碼。
c. 設(shè)備清單包括支持設(shè)備,站群服務(wù)器,如叉車(chē)、托盤(pán)升降機(jī)、電梯、防雷裝置、高架門(mén)、裝卸平臺(tái)、閥門(mén)和供水系統(tǒng)。
d.用于為所有設(shè)備創(chuàng)建任務(wù)列表,并在預(yù)防性維護(hù)(PM)計(jì)劃的計(jì)算機(jī)維護(hù)管理系統(tǒng)(CMMS)中設(shè)置。
2. 計(jì)算機(jī)維護(hù)管理系統(tǒng)(CMMS)
a.制定并記錄標(biāo)準(zhǔn)。
b.重新部署程序以未使用或不需要的信息。
c.添加了可靠性字段,例如故障、原因和維護(hù)代碼以及使用壽命。
d.輸入用于內(nèi)部和外部工作活動(dòng)的糾正性工作訂單。
e.在公司范圍內(nèi)對(duì)實(shí)施的變更進(jìn)行培訓(xùn)。
f.為正在進(jìn)行的年度培訓(xùn)和新員工建立培訓(xùn)矩陣。
g.建立一個(gè)每月舉行會(huì)議的咨詢(xún)團(tuán)隊(duì),以討論可改善該計(jì)劃的就業(yè)和變動(dòng)。
h.創(chuàng)建詳細(xì)的用戶(hù)指南。
i.制定環(huán)境健康與安全(EHS)定期要求以確保達(dá)到要求。
3.可靠性
a.制定責(zé)任分配的路線(xiàn)圖。
b.建立了可靠性指導(dǎo)小組。
4.節(jié)省成本
a.成立了消減成本團(tuán)隊(duì),其中包括工程和運(yùn)營(yíng)人員。
b.采購(gòu)團(tuán)隊(duì)就主要設(shè)備和費(fèi)用達(dá)成了協(xié)議。
c.利用服務(wù)范圍,每年可節(jié)省25萬(wàn)美元。
5. 預(yù)防性維護(hù)(PM)
a.通過(guò)在線(xiàn)報(bào)告建立了柴油發(fā)電機(jī)和變壓器油的分析團(tuán)隊(duì)。
b.通過(guò)故障模式和影響分析(FMEA)為關(guān)鍵設(shè)備實(shí)施的預(yù)防性維護(hù)(PM)優(yōu)化流程
6.資產(chǎn)管理
a.定義資產(chǎn)并創(chuàng)建列表。
b.設(shè)備層次結(jié)構(gòu)已定義。
c.確定設(shè)備關(guān)鍵性。
d.確定的維護(hù)策略:預(yù)防性維護(hù)(PM)、故障查找、重新設(shè)計(jì)、運(yùn)行至故障。
7. 根本原因分析(RCA)
a.根據(jù)批準(zhǔn)的政策和詳細(xì)程序開(kāi)發(fā)程序。
b.選擇了根本原因分析(RCA)軟件來(lái)鞏固該過(guò)程。
c.對(duì)選定的工程和操作人員進(jìn)行了培訓(xùn)。
8.創(chuàng)建策略和文檔