當(dāng)今數(shù)據(jù)中心專業(yè)人員面臨的最大挑戰(zhàn)之一是無法有效地遠(yuǎn)程管理他們的數(shù)據(jù)中心。由于越來越多的邊緣數(shù)據(jù)中心部署、轉(zhuǎn)移到托管設(shè)施以及需要在COVID-19 大流行期間在家工作等原因,所有數(shù)據(jù)中心經(jīng)理必須能夠解決復(fù)雜的數(shù)據(jù)中心問題,而無需去現(xiàn)場查看數(shù)據(jù)中心或查看本地儀表。
數(shù)據(jù)中心經(jīng)理現(xiàn)在一直在思考諸如我有多少容量以及何時會用完之類的問題?如何用遠(yuǎn)程人員管理移動、添加和更改?如果我沒有在數(shù)據(jù)中心地板上行走的奢侈,我可以在哪里部署設(shè)備?如何識別和管理熱點?當(dāng)我不在數(shù)據(jù)中心時,如何確保電力負(fù)載不會超過容量并導(dǎo)致停機?如果沒有正確的解決方案,問題每天都會繼續(xù)增加。
要回答這些問題,解決方案在于識別和監(jiān)控關(guān)鍵績效指標(biāo) (KPI),并利用洞察力優(yōu)化您的數(shù)據(jù)中心并增加正常運行時間、提高效率、更好地利用容量并提高人們的生產(chǎn)力。
遠(yuǎn)程管理數(shù)據(jù)中心需要監(jiān)控的前 15 個 KPI 是:
- 每個機柜的功率容量。數(shù)據(jù)中心電力資源越來越受限,而管理正常運行時間與推動高效電力利用競爭。通過在機柜級別監(jiān)控您的電源容量,您將通過確保不超過容量來延長正常運行時間,并通過發(fā)現(xiàn)擱淺的電源容量來節(jié)省資金。
- 每個機柜的實際有功功率。許多數(shù)據(jù)中心經(jīng)理每周或每月測量他們的功耗,使他們?nèi)菀资艿蕉唐诜逯岛臀礄z測到的潛在過載的影響。實時監(jiān)控每個機架的功耗,連續(xù)趨勢數(shù)據(jù),并設(shè)置閾值和警報,以確保在出現(xiàn)重大問題或用戶受到影響之前通知您并能夠做出反應(yīng)。
- 每個機柜的擱淺功率容量。數(shù)據(jù)中心經(jīng)理通常會為每個機架分配比 IT 設(shè)備實際需求更多的功率。這會導(dǎo)致擱淺的電力可以部署在數(shù)據(jù)中心的其他地方以節(jié)省成本。對于單個機柜,幾千瓦的擱淺功率看似微不足道,但當(dāng)您考慮成百上千個機柜時,擱淺功率可能占所有可用功率的 50%。監(jiān)控數(shù)據(jù)中心的功耗以確定閑置容量。然后,充滿信心地部署該功能并推遲花費數(shù)百萬美元來構(gòu)建您的下一個數(shù)據(jù)中心。
- 冷卻能力。為了讓您的設(shè)備在建議的溫度范圍內(nèi)安全運行,您必須跟蹤您的冷卻能力。這有助于保持正常運行時間,并確保您有能力冷卻 IT 設(shè)備的熱量輸出。一定要有額外的容量來應(yīng)對潛在的設(shè)備故障和負(fù)載增長。
- 免費機架單位趨勢。此 KPI 允許您根據(jù) RU 高度查看隨著時間的推移可以在數(shù)據(jù)中心安裝多少項目。確定空間使用效率的趨勢并將部署新設(shè)備所需的空間與功率容量相關(guān)聯(lián)非常有用
- 剩余可用樓層空間。除了跟蹤可用機柜空間外,還可以通過開放機柜位置的數(shù)量來跟蹤可用地板空間,以了解有多少空白空間可用于在數(shù)據(jù)中心地板上部署新機柜。
- 數(shù)據(jù)和電源端口容量和使用趨勢。您在規(guī)劃和管理數(shù)據(jù)中心容量方面的效率與數(shù)據(jù)的詳細(xì)程度有關(guān)。跟蹤數(shù)據(jù)和電源端口級別的容量可提供細(xì)粒度數(shù)據(jù),讓您了解剩余的可用端口數(shù)量。按連接器類型監(jiān)控您的使用情況和容量,以確保您永遠(yuǎn)不會用完數(shù)據(jù)中心的免費數(shù)據(jù)或電源端口。
- 具有最多空閑數(shù)據(jù)和電源端口的機柜。在部署新設(shè)備時,您應(yīng)該知道預(yù)留機柜空間的最佳位置,以實現(xiàn)資源的最佳利用。這需要知道哪些機柜具有可用數(shù)據(jù)和電源端口容量。通過跟蹤機柜級別的物理端口容量,您可以智能地配置新設(shè)備,做出更明智的容量規(guī)劃決策,更有效地使用電力和網(wǎng)絡(luò)資源,并降低運營費用。
- 按請求者、階段、類型和位置分類的請求。要在提高數(shù)據(jù)中心員工的效率和生產(chǎn)力的同時維護(hù) SLA,您必須正確監(jiān)控和管理移動、添加和更改。跟蹤變更請求、工單和工單的數(shù)量、提出請求的人員和地點、取得的進(jìn)展以及請求的變更類型。跟蹤您的請求從創(chuàng)建到批準(zhǔn)的整個過程,以確保工作訂單的質(zhì)量和透明度,同時通過改進(jìn)協(xié)作來提高員工效率。
- 隨著時間的推移完成的請求。了解數(shù)據(jù)中心正在完成多少工作很重要。執(zhí)行此操作的一種方法是監(jiān)視隨時間推移完成的移動、添加和更改的數(shù)量。以這種方式跟蹤數(shù)據(jù)中心的活動和生產(chǎn)力,可以讓您確定數(shù)據(jù)中心的員工數(shù)量是否合理,更輕松地解決中斷問題,并更準(zhǔn)確地向客戶收費。
- 資產(chǎn)審計跟蹤。對數(shù)據(jù)中心內(nèi)任何資產(chǎn)的信息和歷史具有完整的可見性和透明度有助于提高效率并促進(jìn)合規(guī)性。為了實現(xiàn)最有效的遠(yuǎn)程數(shù)據(jù)中心管理,請為數(shù)據(jù)中心的所有更改維護(hù)一個實時審計日志,其中包括采取了什么行動、由誰以及何時采取。
- 每個位置的能源消耗。隨著性能的提高推動能源需求,每臺服務(wù)器的能耗每年都在增長,能源消耗成本可占數(shù)據(jù)中心總運營費用的 50%。因此,需要監(jiān)控并智能降低能耗。跟蹤您的能源消耗并設(shè)定目標(biāo)以減少消耗、向用戶收費、滿足企業(yè)可持續(xù)性和綠色倡議,以及收集能源回扣和碳信用額度。
- 每個機柜的最新溫度。數(shù)據(jù)中心監(jiān)控的一個常見錯誤是監(jiān)控房間級別的溫度而不是機架級別的溫度,這可能會讓您對在不安全溫度下運行的機柜視而不見。相反,實時監(jiān)控每個機柜的溫度以確保您的設(shè)備在 ASHRAE 標(biāo)準(zhǔn)內(nèi)安全運行,輕松識別熱點,并通過避免過冷來節(jié)省資金。
- 一段時間內(nèi)的平均溫度。除了跟蹤每個機柜的最新溫度外,您還應(yīng)該通過隨時間推移對數(shù)據(jù)進(jìn)行趨勢分析以識別尖峰和異常情況,從而為您的監(jiān)控增加一定程度的復(fù)雜性。通過監(jiān)測每個機柜隨時間推移的平均溫度,您可以確保您的設(shè)備不僅現(xiàn)在而且始終在安全準(zhǔn)則范圍內(nèi)運行。如果您看到溫度峰值,您將有數(shù)據(jù)來確定問題所在并防止它再次發(fā)生。
- 每個機柜的 Delta-T。Delta-T 是機柜不同位置的兩個傳感器讀數(shù)之間的溫差。它用于測量 IT 設(shè)備的入口溫度與 IT 設(shè)備散發(fā)的熱量之比。您應(yīng)該監(jiān)控數(shù)據(jù)中心每個機柜的 Delta-T,以幫助平衡氣流、識別熱點并維護(hù)安全的環(huán)境。這將最大限度地提高您的冷卻能力,減少運營費用,并推遲資本支出。
集成、分析對數(shù)據(jù)中心影響最大的 KPI 并采取行動比以往任何時候都更加重要,但是您如何開始遠(yuǎn)程監(jiān)控這些指標(biāo)?借助全面的遠(yuǎn)程數(shù)據(jù)中心基礎(chǔ)設(shè)施管理 (DCIM)解決方案,這很容易。
現(xiàn)代 DCIM 工具通過零配置儀表板小部件、報告和可視化分析為您提供開箱即用的所有最重要的 KPI 。企業(yè)級數(shù)據(jù)和健康輪詢器直接從設(shè)施設(shè)備收集數(shù)據(jù),以確保獲得準(zhǔn)確、高質(zhì)量的信息,從而獲得更深入、更可靠的洞察力。第二代 DCIM使數(shù)據(jù)中心專業(yè)人員可以輕松地做出更智能、更明智的遠(yuǎn)程數(shù)據(jù)中心管理決策,以改善數(shù)據(jù)中心的健康狀況和效率,同時顯著簡化容量管理。