為了最大限度地延長數(shù)據(jù)中心的正常運行時間,許多組織嘗試通過采用多種方法來管理其數(shù)據(jù)中心運營以降低風(fēng)險。其基本要求可能很好地表明可以保證一定程度的可靠性或魯棒性。組織要求將最新的技術(shù)創(chuàng)新融入數(shù)據(jù)中心的設(shè)計和建設(shè)中,這的確可以為數(shù)據(jù)中心持續(xù)提供服務(wù)做出貢獻,但在這里需要強調(diào)的是“可能”一詞。數(shù)據(jù)中心的運營專業(yè)化和更重要的運營表現(xiàn)的關(guān)鍵不是理論上能做到什么,而是在現(xiàn)實中是否可以付諸實踐。
不要過度復(fù)雜化
多年來的經(jīng)驗證明,過度復(fù)雜的設(shè)計和規(guī)格實際上會增加數(shù)據(jù)中心停機時間的可能性,因為不必要的復(fù)雜系統(tǒng)在發(fā)生故障時可能難以維護和修復(fù)。調(diào)查表明,數(shù)據(jù)中心的停機時間的75%都是由于人為錯誤造成的,那么最明智的做法是暫時不要采用尚未成熟的新技術(shù),避免復(fù)雜的設(shè)計,并簡單地實施更容易操作和維護的系統(tǒng)。
而那些利用以往在設(shè)計、調(diào)試和運營數(shù)據(jù)中心時學(xué)到的知識的工程師能夠更好地避免失敗的情況,并實現(xiàn)安全運營。而以運營和經(jīng)驗主導(dǎo)的數(shù)據(jù)中心運營商能夠?qū)⑦@些知識重新投入到數(shù)據(jù)中心的設(shè)計和施工中。
事實表明,最有效的方法可以管理任何類型的風(fēng)險,例如,在任何可能的情況下避免單一的故障點。其目的是遏制一些相對較小的問題,防止它們在數(shù)據(jù)中心設(shè)施內(nèi)升級成為主要問題,但不幸的是,并非所有的單一故障點都是顯而易見的。
例如,如果工作人員使用建筑管理系統(tǒng)(BMS)遠程啟用/禁用關(guān)鍵設(shè)備,則簡單的軟件故障可能會關(guān)閉正常運行的設(shè)備,從而導(dǎo)致租戶無法使用服務(wù)。因此,良好的實踐表明,VPS租用 國內(nèi)服務(wù)器,最好保持簡單性,并在客戶使用服務(wù)之前測試每種故障的可能性。當(dāng)然,解決方案越簡單,在滿負載集成系統(tǒng)測試(IST)期間就越有可能測試每種可能發(fā)生的情況。
要現(xiàn)實一些
數(shù)據(jù)中心運營商最終會根據(jù)其實現(xiàn)情況進行判斷,未能達到服務(wù)等級協(xié)議(SLA)只會導(dǎo)致未達到運營目標(biāo)并引發(fā)懲罰條款。確保服務(wù)等級協(xié)議(SLA)實用、可行和可實現(xiàn)的最佳方法是采用以工程為主導(dǎo)的方法來管理運營。換句話說,服務(wù)等級協(xié)議(SLA)看作是工程的數(shù)字功能,而不是合同的談判要素。客戶完全了解數(shù)據(jù)中心停機時間或故障間隔時間(MTBT)是非常重要的。必須采取設(shè)計和調(diào)試決策對服務(wù)等級協(xié)議(SLA)和運營效率的影響。
例如,減少安裝數(shù)據(jù)中心冷卻管道的成本和時間可能被認為是實現(xiàn)提前完工日期的最佳方式,域名注冊,但采用塑料材質(zhì)的管道可能具有成本效益,但它們也更容易開裂,最終可能會破壞冷卻系統(tǒng)的正常運行。經(jīng)驗表明,采用塑料管道不值得冒這個風(fēng)險,因為數(shù)據(jù)中心運營商可以解釋為什么在大多數(shù)情況下需要花費額外的時間和成本來安裝部署價格昂貴的鋼管的原因。
利用經(jīng)驗
顯然,數(shù)據(jù)中心運營商需要更加透明地了解不同系統(tǒng)、方法和認證的優(yōu)缺點。他們需要傾聽客戶的要求,然后解釋并證明他們的建議,即使這意味著采取建議將會實施其他行動方案,如果這符合客戶的最佳利益,也可以考慮執(zhí)行。如果服務(wù)等級協(xié)議(SLA)不具備技術(shù)上或運營上的可行性,它們應(yīng)將服務(wù)等級協(xié)議(SLA)視為交付,并準(zhǔn)備重新協(xié)商服務(wù)等級協(xié)議(SLA)的承諾。
畢竟,減少任何潛在的基礎(chǔ)設(shè)施薄弱或可能阻礙災(zāi)難恢復(fù)能力或效率的操作復(fù)雜性的唯一途徑是數(shù)據(jù)中心運營商利用其設(shè)計、調(diào)試和管理經(jīng)驗,并最終以專業(yè)人士的建議為準(zhǔn)。