隨著互聯網、5G、IoT等技術的飛速發展,全球大型數據中心數量將以3.6%的復合年增長率增長,數據中心規模不斷擴大,數據中心服務器規模已經達到10萬級,這不僅需要更多的運維工程師,給企業增加運維成本,同時給運維工程師也帶來了極大的難度和挑戰:如何及時發現異常設備?異常根因是什么?故障是否能自愈?是否能預測故障?性能趨勢是什么?如何決策?
運維發展歷程:人肉運維、自動化運維和智能運維
早期的運維工作,大部分是由運維工程師手工完成,這被稱作人肉運維。服務器運行狀態,全靠運維工程師每日肉眼查看,進行問題定位與解決。自動化運維應運而生,大大提升了發現異常設備的效率,降低了運維成本。但是,面對故障根因、故障預測、性能趨勢和控制決策,自動化運維力不從心。
Gartner在2016時提出了智能運維(Artificial Intelligence for IT Operations)的概念,并預測到2020年,智能運維的采用率將高達50%。從服務器運維的角度來分析服務器智能運維,目標就是通過對帶外信息(配置信息、狀態信息、性能信息、日志等)和帶內信息(配置參數、性能信息、日志信息)進行采集,通過機器學習的方式來解決運維問題,提高系統預警能力和穩定性,降低運維成本,提高運維效率。
異常快速檢測,香港服務器租用,問題準確告警
在服務器運維中,異常檢測是根本,常見的有三大監控數據:狀態指標、性能指標和日志數據,狀態指標一般誤報率較少,而傳統性能指標的設置閾值,常常某一時刻產生噪點數據而產生誤報;對于周期性變化的數據又無法進行動態調整,也常常產生誤報,大大降低了告警的準確性。日志一般是半結構化數據,根據日志級別產生告警,其準確性極差,并且只能檢測到已知和確定模式的異常。
浪潮服務器智能運維采用無閾值告警,無需人為設置閾值,通過對時序數據進行去噪、升維、方差等處理后,經過神經網絡、LSTM、隨機森林等算法進行動態的學習,達到對監控的性能指標,自動、實時、準確的識別出異常數據。對于日志的處理,通過對單條日志的語義識別和日志文件的時序識別方式,經過自然語言、專家系統、神經網絡、深度學習等算法進行訓練或者維護,從而不斷完善,達到日志異常的準確檢測。
故障智能處理,輕松運維so easy
智能故障診斷是建立在異常檢測之上,有了準確的異常檢測,通過綜合各個異常指標進行數據的融合、過濾、權重等處理,使用神經網絡、SVM、隨機森林等智能算法,尋找問題根因,給出問題解決方案,使得運維工程師能夠分鐘級解決問題。
智能故障預測是對設備某一部件的性能數據和狀態的動態檢測,對原始數據進行數據挖掘,尋找特征數據建立數學模型,使用神經網絡、SVM等智能算法進行在線/離線訓練,形成預測模型。在部件發生故障前,感知故障,從而避免業務宕機,提高系統穩定性。
智能故障自愈是指故障確認后或者預測到故障時,無需人為干預,能夠通過重啟、配置或者一定的流程,使得系統能夠恢復正常。故障自愈,需要維護一定的規則或者對故障進行標記,經過神經網絡、SVM等算法進行訓練,形成自愈模型,實現系統的故障自愈。
智能決策,感知未來發展
浪潮服務器智能運維工具可對服務器的性能數據進行預測,經過ARIMA、最小二乘法、指數平滑、LSTM等智能算法,能夠感知系統在未來幾個小時、幾天或者一年的數據的走勢、增長量或者周期性變化等,不僅為人工預測或者智能決策提供基礎數據,還能夠為業務系統提供優化建議。
浪潮服務器智能決策是建立在異常檢測、故障診斷、故障預測、性能預測等之上,通過建立數據模型,經過神經網絡、深度學習、專家系統等智能算法的不斷學習,形成決策模型,無需人為干預,對服務器的配置參數進行智能調整,歐洲服務器,版本基線的升級/回退等決策,從而達到系統性能最優、異常最少、功耗最低等效果。
例如監控服務器運行的性能,在業務少的時候,可以將服務器功耗降低,在集群方式下,甚至可以進行服務器關機操作,在業務量大的時候,將服務器性能調整至最優等智能決策。在整機柜/機房中,功耗的管理,當服務器都處于滿載時,服務器的功耗是否超越了整個機房或者機柜的最大功耗,超越之后如何進行智能決策等。
智能推薦,發掘無限價值