近年來,數(shù)據(jù)中心基礎(chǔ)設(shè)施變得更加可靠,管理實(shí)踐也得到改進(jìn),因此預(yù)計(jì)報(bào)告的停機(jī)事件數(shù)量正在減少是公平的。但事實(shí)并非如此。根據(jù)Uptime Institute 2018 年的一項(xiàng)調(diào)查,31% 的受訪者在去年經(jīng)歷了停機(jī)事件或嚴(yán)重退化,48% 的受訪者表示在過去三年中他們的站點(diǎn)或服務(wù)提供商至少發(fā)生過一次中斷。
停機(jī)時(shí)間很昂貴。它既費(fèi)時(shí)又費(fèi)錢,并且可能對(duì)準(zhǔn)備不足的組織造成嚴(yán)重后果。據(jù) Gartner 稱,停機(jī)時(shí)間平均每分鐘造成 5,600 美元的損失。這導(dǎo)致平均成本在每小時(shí) 140,000 美元到 540,00 美元之間,具體取決于組織。導(dǎo)致與停機(jī)時(shí)間相關(guān)的成本的一些因素包括:
- 銷售損失。對(duì)于在線開展業(yè)務(wù)的組織,停機(jī)時(shí)間直接導(dǎo)致客戶無法購買,從而失去潛在收入。如果企業(yè)依賴于網(wǎng)絡(luò)可用性來提供服務(wù),則停機(jī)會(huì)導(dǎo)致無法與用戶通信。
- 品牌美譽(yù)度。如果客戶經(jīng)常不得不處理妨礙他們輕松購買或使用服務(wù)的中斷,他們將不再是客戶并分享他們的糟糕體驗(yàn),從而嚇跑潛在客戶。
- 生產(chǎn)力下降。現(xiàn)代企業(yè)嚴(yán)重依賴在線通信和服務(wù)。如果沒有網(wǎng)絡(luò)訪問,由于員工無法完成大部分工作、生產(chǎn)線關(guān)閉或業(yè)務(wù)的其他方面受到阻礙,生產(chǎn)力通常會(huì)停滯不前。
- 支出。一些公司在 SLA 正??常運(yùn)行時(shí)間合同中包含定義計(jì)劃外停機(jī)時(shí)應(yīng)支付的補(bǔ)償?shù)恼Z言。
- 丟失數(shù)據(jù)。在中斷期間,數(shù)據(jù)可能會(huì)被破壞,并且可能會(huì)為破壞數(shù)據(jù)的網(wǎng)絡(luò)攻擊創(chuàng)造機(jī)會(huì)。數(shù)據(jù)通常會(huì)備份,但中斷會(huì)嚇到客戶并打擊他們的信心。
數(shù)據(jù)中心故障的首要原因是人為錯(cuò)誤。其他常見原因包括網(wǎng)絡(luò)故障、停電、UPS 系統(tǒng)故障、自然災(zāi)害和網(wǎng)絡(luò)犯罪。幸運(yùn)的是,有一種解決方案可以幫助防止停機(jī)。
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理 (DCIM) 軟件允許數(shù)據(jù)中心經(jīng)理避免計(jì)劃外停機(jī),每次停機(jī)可能造成數(shù)十萬美元的損失并對(duì)您的業(yè)務(wù)造成嚴(yán)重破壞。使用 DCIM 防止人為錯(cuò)誤和最大化正常運(yùn)行時(shí)間的一些方法是:
- 管理入口空氣溫度和濕度。機(jī)柜入口空氣的溫度和濕度很重要,因?yàn)檫@是流經(jīng)機(jī)柜以降低熱量的空氣。如果入口空氣太熱,機(jī)柜將無法正常冷卻。如果空氣過于潮濕,則存在腐蝕和損壞設(shè)備的風(fēng)險(xiǎn)。如果空氣太干燥,可能會(huì)產(chǎn)生靜電。所有這些都可能導(dǎo)致代價(jià)高昂的停機(jī)時(shí)間。DCIM 軟件從數(shù)據(jù)中心的環(huán)境傳感器收集數(shù)據(jù),并將信息顯示在商業(yè)智能儀表板和 3D 平面圖可視化中,以幫助您監(jiān)控?cái)?shù)據(jù)中心環(huán)境并識(shí)別熱點(diǎn)。
- 安全升高溫度。提高數(shù)據(jù)中心的溫度可以提高能源效率,但它會(huì)帶來過熱和損壞設(shè)備的風(fēng)險(xiǎn),從而導(dǎo)致停機(jī)。借助 DCIM,您可以設(shè)置溫度閾值并在溫度超出所需范圍時(shí)接收警報(bào)。同樣,DCIM 將幫助您避免過冷以優(yōu)化效率并降低能源成本。
- 確保電源冗余。由于對(duì)計(jì)算硬件的需求不斷增加,數(shù)據(jù)中心機(jī)柜現(xiàn)在更密集地裝有耗電 IT 設(shè)備。而且由于數(shù)據(jù)中心團(tuán)隊(duì)通常專注于充分利用現(xiàn)有資源和延遲資本支出,他們可能直到為時(shí)已晚才意識(shí)到機(jī)柜超載。這使得設(shè)備故障時(shí)的電源冗余成為最大化正常運(yùn)行時(shí)間的任何策略的關(guān)鍵組成部分。DCIM 軟件允許您運(yùn)行故障轉(zhuǎn)移模擬報(bào)告并確定哪些機(jī)柜存在風(fēng)險(xiǎn)以及哪些設(shè)備可以在 PDU 出現(xiàn)故障時(shí)繼續(xù)安全運(yùn)行。數(shù)據(jù)中心經(jīng)理可以利用此信息在真正發(fā)生故障之前對(duì)負(fù)載進(jìn)行必要的更改。
- 健康投票。確保智能 PDU 和其他設(shè)備正常運(yùn)行并可通過您的網(wǎng)絡(luò)訪問對(duì)于保持正常運(yùn)行時(shí)間非常重要。設(shè)備在沒有人注意到的情況下發(fā)生故障并非不可能。技術(shù)人員或工程師可能會(huì)不小心將 PDU 置于維護(hù)模式、忽略啟動(dòng)新資源或使用不正確的端口或電纜連接設(shè)備。借助 DCIM 軟件,您可以通過以用戶可配置的時(shí)間間隔輪詢智能 PDU 和其他設(shè)備來確保它們可以訪問,從而限制因設(shè)備故障而導(dǎo)致停電的可能性。如果無法訪問設(shè)備,該軟件會(huì)立即提醒您,以便您在出現(xiàn)危機(jī)之前就知道該問題。
借助 DCIM,您可以模擬故障轉(zhuǎn)移并使用報(bào)告來測(cè)試假設(shè)情景,這些報(bào)告確定可用容量以確保發(fā)生故障時(shí)的覆蓋范圍,使用紅-黃-綠顏色編碼的健康地圖可視化數(shù)據(jù)中心和設(shè)施健康狀況,提供 at -機(jī)架負(fù)載水平、線路電流和環(huán)境條件一目了然,并通過自動(dòng)電子郵件收到閾值違規(guī)警報(bào),從而能夠快速識(shí)別熱點(diǎn)和潛在故障問題。憑借這些功能,DCIM 將在數(shù)據(jù)中心發(fā)生災(zāi)難時(shí)幫助保護(hù)您的基礎(chǔ)設(shè)施。