如今,人們在降低數據中心風險方面所遇到的最大障礙是:
•缺乏知識(一般地點和特定地點);
•缺乏分享這些知識的流程;
•缺乏針對特定地點的經驗;
•不了解風險;
•對待人員和學習的態度不佳。
如果一個數據中心設施的設計和運營很復雜,并且工作人員沒有得到很好的培訓,那么將會面臨很高的風險。
設計的復雜性
在考慮數據中心設計的復雜性之前,有必要考慮采用無單點故障(SPOF)的彈性系統,directadmin安裝,而根據定義,單點故障(SPOF)是指系統中一旦失效,就會讓整個系統無法運作的部件,換句話說,單點故障就會產生整體故障。這些可能是組件故障或不正確的人為干預,例如在不了解系統如何反應的情況下進行切換。
2N冗余系統可以被視為一種實現無單點故障(SPOF)安裝的最低要求。為簡單起見,假設數據中心的2N系統包括A和B兩個相同的電氣和機械系統。故障樹分析(FTA)將突出顯示導致故障的事件組合。然而,在故障樹分析(FTA)中模擬人為錯誤是非常困難的。用于模擬人為錯誤的數據將始終是主觀的,并且存在許多變量。
如果這個2N冗余系統示例中的系統在物理上是分開的,則對一個系統的任何操作都應該對另一個系統沒有影響。但是,引入增強功能并不少見,它采用簡單的2N冗余系統,并添加其他組件,例如災難恢復鏈路和連接兩個系統的公共存儲容器。
在大型設計中,這成為一種自動控制系統(例如SCADA、BMS),而不是簡單的機械聯鎖。 2N冗余系統的基本原則已被破壞,系統的復雜性呈指數級增長。運營團隊所需的技能也是如此。
對設計進行審查仍然表明已經實現了2N冗余設計,然而,由此產生的復雜性和可操作性的挑戰破壞了高可用性設計的基本要求。
研究表明,導致失敗的特定事件序列通常是無法預料的,并且直到它發生之后才會知道會產生什么后果。換句話說,這些事件序列在人們知道之前是未知的。因此,它不會成為故障樹分析(FTA)的一部分。
奧地利物理學家Ludwig Von Boltzmann開發了一種熵方程,該方程已應用于統計學,特別是缺失信息方面。在這個理論中,設置了一個盒子網格,例如4×2或5×4的網格 ,以及一個放在盒子里的硬幣。該理論允許用戶確定問題的數量,以確定在該定義的網格上放置硬幣的哪個框中。如果采用系統組件替換盒子,以及硬幣的未知故障事件,人們可以考慮系統可用性如何受到復雜性的影響。可以看出,較少發生的未知故障事件,系統可以失敗的方式的數量減少。因此,增加人們對系統的詳細知識和發現未知事件減少系統失敗的組合,從而降低風險。
人為因素
研究表明,任何具有人機界面的系統最終都會因漏洞而失敗。漏洞是數據中心設施中可能導致故障的任何可能的弱點。數據中心的漏洞可能與基礎設施或設施運營有關。基礎設施涉及設備和系統,特別是:
•機械和電氣可靠性。
•設施的設計、冗余和拓撲。
這些行動涉及人為因素,其中包括個人和管理層面的人為錯誤。它涉及:
•運營團隊的應變能力。
•團隊對漏洞的反應情況。
系統越復雜,人為因素就越脆弱,運營設施所需的培訓和學習就越多。學習不僅適用于個人,也適用于組織。組織學習的特點是成熟度和流程(在下圖中顯示為累積經驗),例如圍繞數據中心結構和資源、維護、變更管理、文檔管理、調試和可操作性,以及可維護性。
個人學習是知識、經驗和態度的函數(在圖表上顯示為經驗的深度)。開發組織和個人學習的環境有助于降低故障率,并為操作人員提供有效減少能源浪費的專業知識。
通用學習曲線應用于數據中心
重要的是要理解,由于失敗和經驗之間的關系遵循指數曲線,因此永遠不能實現零失敗。擁有良好知識和經驗豐富的數據中心設施操作人員仍然容易自滿,VPS,并且會遇到一系列先前未知事件的失敗。
結論
通過提供可以改善組織和個人知識的學習環境,降低數據中心風險。雖然成熟的操作人員具有可以降低故障率的經驗,但如果在沒有經過充分培訓的情況下實施,則過于復雜的設計仍然會發生故障。