人類是一種體質虛弱但卻具有強大彈性的生物。對于人類來說,可以本能地知道如何在地球各個地方生存和繁衍。而與人類一起發展的物種是機器,更具體地說,是智能機器。
從亞馬遜的Alexa到可穿戴技術,從邊緣技術驅動的智能傳感器到功能強大的機器人,物聯網以指數速度增長,并正在與人們的生活方式完全融合。摩爾定律似乎適用于技術進步的所有方面。
嵌入在軟件中的邏輯和數據使機器設備變得更加智能,而且所有這些關鍵設施都集中在的數據中心。隨著墨菲定律(凡是可能出錯的事都有很大幾率會出錯)永遠潛伏在數據中心運營的陰影中,美國服務器租用,數據中心比以往任何時候都需要有彈性,就像人類一樣。因此,作為數據中心設計師、運營商、IT設施經理來說,數據中心可以從人類強大彈性的特性中學到什么?
數據中心的彈性
無論出于何種原因,人類由于生存而自有的隨機應變的基因被編碼到DNA中。這是數據中心應變能力的起點:設計。數據中心必須設計成在多個層面上具有彈性(電力、冷卻、網絡、通信以及潛在的內部和外部威脅)。
而目前數據中心行業的人士想到彈性時,會想到部署冗余的設備,尤其是基于Uptime Institute的層級而設定的。數據中心擁有兩條主動基礎設施支持路徑,為數據中心業主提供99.995%的可用性,最終成為容錯站點基礎設施,換句話說,每年大約有48分鐘的計劃內或計劃外停機時間。
與人類的基因不同,Tier IV級數據中心彈性設計非常低效。這就好像效率和彈性是完全相反的。由于擁有有冗余設計,將會部署成本高昂的冗余基礎設施。而在Tier Ⅲ數據中心空間內可以找到更有效和更具成本效益的折中方案。在經典的2N配置中,不是采用兩個鏡像的冗余輸入電源,而是可以選擇三條輸入電源,每個電源可以在2N分布式配置下承載2N負載的一半。換句話說,在分別為150VA的三個負載下,三個輸入電源共同承載100%的300kVA負載都是低效的,每個負載的利用率為66.6%。如果其中一個輸入電源中斷,另兩個輸入電源仍然可以提供300kVA的負載容量。除了這種配置成本更低的部署和操作之外,如果三個輸入電源是100%獨立的,它還提供了改進的正常運行時間可用性。
數據中心的選址
人類通常會仔細考慮在哪里定居,并建立他們的社區。選址對人類的生存至關重要,數據中心也是如此。如果發生地震,洪水或飛機撞擊等最為嚴重的自然災害和人為災難,最有彈性的數據中心設計都將很難應對。人們應該規劃和應對潛在的威脅,以及圍繞電力和冷卻可能帶來的好處。替代能源的可用性以及利用自然開發創新方式來冷卻數據中心(不管是自然空氣冷卻還是自然水源等),這將增加彈性,并提高效率,節省成本。
共同工作
如果數據中心變得真正獨立,人工智能,預測分析和機器學習可以進行計算、合理化并做出決策,那么該怎么辦?
人類居住的社區通常適宜生存和生活。如果在一個地方發生災難,通常會很快得以恢復。就像人類分布在世界各地形成集群一樣,可以利用整個數據中心的集群優勢,企業都能夠抵御災害對電力和冷卻的威脅。在研究跨越數據中心網絡的基礎設施時存在這種邏輯,這些數據中心可能位于一個地區或全球各地,而且每個數據中心設施在基礎設施體系結構、外觀和感覺方面都完全相同。而多數據中心的彈性拓撲意味著每個數據中心設施都運行相同的應用程序,并可訪問N個數據庫副本,并在數據中心內復制所有更改。因此,用戶可以隨時與任何數據中心進行通信,而不會有失敗的風險。
從過去的錯誤中學習
人類具有彈性的強大特征是在可能威脅到人們生存的情況中學習的能力。同樣,了解運營中的數據中心是一項應該延續數據中心設施壽命的努力。其起點是監測,數據中心的一切都需要監控。例如,機架內部溫度、機架前部、機架上方、機架后部、UPS/電池空間、地板、冷通道和熱通道內的溫度和濕度、氣壓、電路、流量和回水溫度、返回空氣,以及煙霧探測等,都需要進行監測。人們永遠無法獲得足夠的監測資源。
然后,重點應該是在相當長的一段時間內收集數據,并通過創新地創建設施數據的子集來尋找趨勢和周期。每個數據中心都是獨一無二的,需要工作人員對數據中心設施所提供的數據有了持續的了解,并且所創建的正確信息可以持續規劃恢復能力。一個良好的數據中心基礎設施管理(DCIM)工具應該對此有所幫助。
數據中心的獨立