近日,一則“小道”消息引起了中國IDC圈記者的注意,有網友在朋友圈爆料某數據中心機房柴油機發生起火(小編表示內心異?;炭郑?。
經過一番搜索,原來都是亦莊眾多數據中心被限電“搗的鬼”,事件詳情是這樣的:因亦莊電力公司對泰和變電站、博興變電站和科創街變電站進行改造,其中泰和變電站、博興變電站改造期間為6月1日至15日,科創街變電站為6月15日至6月30日,共計30天時間。
值得注意的是,在進行改造期間,用電單位務必將平日用電負荷減少、限制25%。于是,部分數據中心開始使用柴油發電機進行帶載,以保障數據中心的正常運行。
人云亦“云”的時代,數據中心作為重要基礎設施發揮著必不可缺的重要作用,而隨著數據中心建設規模的不斷擴大,新技術的層出不窮,數據中心的運維難度也“更上一層樓”。尤其是當面臨“突發事故”,更是考驗一個數據中心運維團隊的應急能力。雖然說數據中心運維已是老生常談的話題,但實際上,國內服務器租用 服務器托管,在數據中心的整個生命周期里,運維占據了非常高的比例,且運維的質量和效率對數據中心的發展起著決定性作用。
據筆者了解,數據中心的日常業務運維主要包括:
1. 日常檢查,即主要對數據中心的所有運行設備進行例行檢查,包括服務器、業務運行、機房環境(溫度、適度以及灰塵等)、空調和供電系統的運轉情況、設備運行是否過熱、地板、天窗、消防、監控等內容;
2. 應用變更。隨著數據中心承載業務的不斷發展,管理人員應根據應用的需要及時作出變更,進行調整;
3. 軟硬件升級。進行軟硬件升級時,需做好回退機制,以防升級出現問題時無法回退,業務長時間無法恢復;
4. 突發故障。對數據中心來說,要做到完全避免事故發生是0概率事件,而當遇上突發故障,運維人員需及時對故障原因作出準確判斷并迅速找出解決方法。若短時間內找不到解決方法,應通過切換到備用設備上先恢復業務,再進行分析。
降低運行維護風險,專業技能之外還要有風控策略
運維工作對數據中心來說至關重要,關乎整個數據中心業務的正常運行。運維團隊在具備一定的專業技能和應急能力的基礎上,美國服務器租用,還需制定出相應的運行維護風險控制策略“以備不時之需”。
運行維護風險是指信息系統在運行與維護過程中操作管理、變更管理、機房管理和事件管理等環節產生的風險。運行人員應按操作規程巡檢和操作,維護人員應按授權和維護規程要求對生產狀態的軟硬件、數據進行維護,除應急外,其他維護應在非工作時間進行。以下是對運行人員提出的幾條建議:
(一)制定詳細的運行值班操作表,包括規定巡檢時間,操作范圍、內容、辦法、命令以及負責人員等信息;
(二)提供常見和簡便的操作菜單或命令,如信息系統的啟動或停止、運行日志的查詢等;
(三)提供機房環境、設備使用、網絡運行、系統運行等監控信息;
(四)記錄運行值班過程中所有現象、操作過程等信息。
優質的數據中心運維管理系統能夠協助企業整合優化企業信息資源和服務、提高生產率和競爭力,能為企業提供更有力的保障支持。總之一句話,做好運維很重要!