6月28日,阿里云官網控制臺和使用部分產品功能出現問題;
7月17日,AWS管理控制臺間歇性失靈;
7月18日,谷歌云平臺全局負載均衡服務發生中斷;
7月24日,騰訊旗下云計算服務在廣東地區宕機,導致部分用戶資源訪問失敗,控制臺登錄異常,多家網站無法訪問;
9月4日,它的美國中南區數據中心附近發生了雷擊在內的惡劣天氣事件,導致了影響冷卻系統的電壓增加,進而導致其多個Azure服務出現連接問題,客戶難以訪問儲存在中南區數據中心的資源……
宕機風險,時刻潛伏在身邊。
實際上,局域網(LAN)和數據中心結構化布線組件的安全性和可靠性至關重要。隨著業務的迅速發展,世界的聯系更加緊密,任何引起停機的故障都可能導致企業收入和生產力大幅下降,并且可能造成客戶的不確定性。
經實踐證明,有源組件到接線板的可靠物理安全性在結構化布線行業中難以捉摸。如今已有一系列的解決方案在著手破解這個問題,服務器租用 免備案服務器,旨在超越標簽標準,其中包括智能修補和端點照明等。所有這些選項都伴隨著一些讓步,無論是對更多設備的投資、維持系統的工時增加,還是功率密度和其他功能的損失,大多數解決方案都有電氣端點照明系統。
但是,這些可用的選項并沒有減少數據中心停機時間的人為失誤。由于跳線跟蹤和管理的采用率較低,行業中的人為失誤并沒有減少,網絡跳線安全和管理解決方案仍然難以實現。
停機時間為什么重要?
網絡停機也就是網絡無法提供其預期的操作或服務,這仍然是網絡管理員面臨的嚴重威脅,其后果可能對企業業務造成嚴重影響,并可能導致客戶對企業的負面看法。
波洛蒙研究所于2016年1月發布關于網絡停機的調查研究表明,網絡停機損失增加了38%,從2010年的平均505,502美元增加到2015年的平均740,357美元。調查顯示,企業和用戶的停機事件造成的損失變得更加昂貴,并增加了企業的網絡依賴性,這些表現意味著這一趨勢將繼續上升。其中損失最高的行業包括金融服務、通信、醫療保健、電子商務以及托管數據中心。但是,所有行業都缺乏一種可以保持功率密度的要求,并缺乏減少空間、材料和人力的開銷物理安全解決方案。最后造成的結果是網絡管理者和技術人員面臨著更大的壓力、不確定性以及收入損失。
人為失誤造成的停工
人為失誤是造成網絡停機事件的主要原因。信息技術情報咨詢(ITIC)2017-2018全球服務器硬件和服務器操作系統可靠性報告指出,“調查結果表明人為失誤仍然是計劃外可靠性事故的最大原因。”波洛蒙研究所的2016年1月報告表明,由于人為失誤導致網絡中斷的事件從2013年到2016年保持穩定,為事件總量的22%。
更糟糕的是,人為失誤造成相關網絡中斷的總成本從2013年的380,000美元躍升至2016年的489,000美元,增長了28%以上。這是此次分析的所有根本原因的最大增幅。這個事實將讓任何負責網絡硬件和安全的人員感到不安。
在這種情況下,問題是如何發生的?跳線在傳統上被視為數據中心的消耗品,雖然許多企業都有強大的跳線管理標簽和安全計劃,但隨著網絡跳線數量的增加,以及持續的移動、增加和變化,必須采取主動和艱苦的工作來確保標簽滿足要求。沒有強大的跳線程序會導致對昂貴的有源組件連接到網絡的跳線管理松懈。而在數據中心工作人員幾乎都有關于貼錯標簽跳線的故事,而重復使用的舊標簽跳線、不可讀的標簽或許多補丁,使得工作人員難以找到網絡鏈路的另一端,而且很多人都有過拔掉跳線的失誤。
如何降低停機風險?
事實證明,估計企業網絡停機總成本具有挑戰性。通常可以計算網絡中斷的財務影響,但無形的后果可能更難以量化。這些影響可以包括來自客戶的負面看法,即對某些服務質量、持續訪問和按時結果進行評估和支付。網絡中斷對客戶的影響越大,就越會成為新聞報道熱議的話題。
在市場擁有可行且具有成本效益的解決方案之前,網絡管理人員必須保持警惕,保護其網絡免受意外中斷。
第一步是估算中斷成本,企業可以建立業務,然后平衡網絡安全投資與中斷相關的風險和成本。
其次,數據中心技術人員必須對網絡資產盡到保護的責任,其中包括管理跳線。采用強大的計劃,遵守當前的標簽標準,并滿足企業的需求。
此外,企業應實施安全計劃,確保所有物理接觸網絡的人員(包括新員工)接受培訓,以了解業務規則、標簽方案、MAC工作的布局和程序。
結論
針對人為失誤、網絡停機時間以及提供有效的物理網絡解決方案方面,需要行業廠商和用戶更多的努力。