6月初,北京亦莊某數(shù)據(jù)中心機房柴油機發(fā)生起火;
6月28日,阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題;
7月17日,AWS管理控制臺間歇性失靈;
7月18日,谷歌云平臺全局負載均衡服務發(fā)生中斷;
7月24日,騰訊旗下云計算服務在廣東地區(qū)宕機,導致部分用戶資源訪問失敗,控制臺登錄異常,多家網(wǎng)站無法訪問;
9月4日,它的美國中南區(qū)數(shù)據(jù)中心附近發(fā)生了雷擊在內(nèi)的惡劣天氣事件,導致了影響冷卻系統(tǒng)的電壓增加,進而導致其多個Azure服務出現(xiàn)連接問題,客戶難以訪問儲存在中南區(qū)數(shù)據(jù)中心的資源……
宕機風險,時刻潛伏在身邊。
實際上,局域網(wǎng)(LAN)和數(shù)據(jù)中心結(jié)構(gòu)化布線組件的安全性和可靠性至關(guān)重要。隨著業(yè)務的迅速發(fā)展,世界的聯(lián)系更加緊密,任何引起停機的故障都可能導致企業(yè)收入和生產(chǎn)力大幅下降,并且可能造成客戶的不確定性。
經(jīng)實踐證明,有源組件到接線板的可靠物理安全性在結(jié)構(gòu)化布線行業(yè)中難以捉摸。如今已有一系列的解決方案在著手破解這個問題,服務器租用 免備案服務器,旨在超越標簽標準,其中包括智能修補和端點照明等。所有這些選項都伴隨著一些讓步,無論是對更多設(shè)備的投資、維持系統(tǒng)的工時增加,還是功率密度和其他功能的損失,大多數(shù)解決方案都有電氣端點照明系統(tǒng)。
但是,這些可用的選項并沒有減少數(shù)據(jù)中心停機時間的人為失誤。由于跳線跟蹤和管理的采用率較低,行業(yè)中的人為失誤并沒有減少,網(wǎng)絡(luò)跳線安全和管理解決方案仍然難以實現(xiàn)。
停機時間為什么重要?
網(wǎng)絡(luò)停機也就是網(wǎng)絡(luò)無法提供其預期的操作或服務,這仍然是網(wǎng)絡(luò)管理員面臨的嚴重威脅,其后果可能對企業(yè)業(yè)務造成嚴重影響,并可能導致客戶對企業(yè)的負面看法。
波洛蒙研究所于2016年1月發(fā)布關(guān)于網(wǎng)絡(luò)停機的調(diào)查研究表明,網(wǎng)絡(luò)停機損失增加了38%,從2010年的平均505,502美元增加到2015年的平均740,357美元。調(diào)查顯示,企業(yè)和用戶的停機事件造成的損失變得更加昂貴,并增加了企業(yè)的網(wǎng)絡(luò)依賴性,這些表現(xiàn)意味著這一趨勢將繼續(xù)上升。其中損失最高的行業(yè)包括金融服務、通信、醫(yī)療保健、電子商務以及托管數(shù)據(jù)中心。但是,所有行業(yè)都缺乏一種可以保持功率密度的要求,并缺乏減少空間、材料和人力的開銷物理安全解決方案。最后造成的結(jié)果是網(wǎng)絡(luò)管理者和技術(shù)人員面臨著更大的壓力、不確定性以及收入損失。
人為失誤造成的停工
人為失誤是造成網(wǎng)絡(luò)停機事件的主要原因。信息技術(shù)情報咨詢(ITIC)2017-2018全球服務器硬件和服務器操作系統(tǒng)可靠性報告指出,“調(diào)查結(jié)果表明人為失誤仍然是計劃外可靠性事故的最大原因。”波洛蒙研究所的2016年1月報告表明,由于人為失誤導致網(wǎng)絡(luò)中斷的事件從2013年到2016年保持穩(wěn)定,為事件總量的22%。
更糟糕的是,人為失誤造成相關(guān)網(wǎng)絡(luò)中斷的總成本從2013年的380,000美元躍升至2016年的489,000美元,增長了28%以上。這是此次分析的所有根本原因的最大增幅。這個事實將讓任何負責網(wǎng)絡(luò)硬件和安全的人員感到不安。
在這種情況下,問題是如何發(fā)生的?跳線在傳統(tǒng)上被視為數(shù)據(jù)中心的消耗品,雖然許多企業(yè)都有強大的跳線管理標簽和安全計劃,但隨著網(wǎng)絡(luò)跳線數(shù)量的增加,以及持續(xù)的移動、增加和變化,必須采取主動和艱苦的工作來確保標簽滿足要求。沒有強大的跳線程序會導致對昂貴的有源組件連接到網(wǎng)絡(luò)的跳線管理松懈。而在數(shù)據(jù)中心工作人員幾乎都有關(guān)于貼錯標簽跳線的故事,而重復使用的舊標簽跳線、不可讀的標簽或許多補丁,使得工作人員難以找到網(wǎng)絡(luò)鏈路的另一端,而且很多人都有過拔掉跳線的失誤。
如何降低停機風險?
事實證明,估計企業(yè)網(wǎng)絡(luò)停機總成本具有挑戰(zhàn)性。通常可以計算網(wǎng)絡(luò)中斷的財務影響,但無形的后果可能更難以量化。這些影響可以包括來自客戶的負面看法,即對某些服務質(zhì)量、持續(xù)訪問和按時結(jié)果進行評估和支付。網(wǎng)絡(luò)中斷對客戶的影響越大,就越會成為新聞報道熱議的話題。
在市場擁有可行且具有成本效益的解決方案之前,網(wǎng)絡(luò)管理人員必須保持警惕,保護其網(wǎng)絡(luò)免受意外中斷。
第一步是估算中斷成本,企業(yè)可以建立業(yè)務,然后平衡網(wǎng)絡(luò)安全投資與中斷相關(guān)的風險和成本。
其次,數(shù)據(jù)中心技術(shù)人員必須對網(wǎng)絡(luò)資產(chǎn)盡到保護的責任,其中包括管理跳線。采用強大的計劃,遵守當前的標簽標準,并滿足企業(yè)的需求。
此外,企業(yè)應實施安全計劃,確保所有物理接觸網(wǎng)絡(luò)的人員(包括新員工)接受培訓,以了解業(yè)務規(guī)則、標簽方案、MAC工作的布局和程序。
結(jié)論
針對人為失誤、網(wǎng)絡(luò)停機時間以及提供有效的物理網(wǎng)絡(luò)解決方案方面,需要行業(yè)廠商和用戶更多的努力。