在2019年11月1日舉辦的2019金融科技產業峰會之“人工智能在金融領域應用”分論壇上,中國信息通信研究院聯合行業協會、金融機構、科技廠商、高校等多家單位,邀請知名學術界專家、行業內頂尖企業工程師,就人工智能在金融領域應用的相關議題開展交流,希望為金融及技術領域從業者提供交流的平臺,共同推動行業健康發展。光大證券信息技術總部高級經理孫偉在論壇上做了題為《智能檢測與定位在光大證券運維中的實踐》的精彩演講。
光大證券信息技術總部高級經理孫偉
孫偉:各位領導、各位專家,我是來自光大證券的孫偉,我跟大家分享的主題是智能檢測與定位在光大運維中的實踐。
首先介紹一下自己,我是85后,在乙方做了四年運維開發以及實施經驗,懷著對甲方羨慕嫉妒恨進入了光大。不論角色如何,其實我一直是地地道道的一線運維人員,如果有人問我,你作為運維人員你覺得最大的挑戰是什么?一入運維深似海。
運維高度依賴于運維經驗,對于運維工作來說,就是咖啡式運維,這種往往覺得比較理想、比較漫長的,作為理想中的運維,系統可以極早地發現風險,給我們足夠多的時間修復這個風險,從而避免故障的產生,在故障真實產生之后,幫我們找到故障的原因,幫我們修復故障,及時止損。2016年通過機器學習對運維大數據進行分析,找到運維規律,從而提升運維水平。這個方案提出來以后,我們和各家高校實際場景測試之后選擇這個場景作為實際落地和研究方向,大家可以看一下,這是我們整個異常檢測的一個圖。
首先,整個異常檢測是以業務為導向的,大家可以看到,我們首先會對應用的KPI指標進行實時的監控,在發現異常之后我們會對組成這個應用的關鍵組件所有的組件包括KPI進行一個全局的異常檢測。最后,我們會這些模塊所運行的日志進行日常檢測,因為大家知道,其實故障的原因往往隱藏在日志之中。相信在故障發生的時候,我們將所有這些信息擺在我們運維人員的時候,是可以幫助運維人員進行快速的故障定位和故障排查的,這事實上也是我們人為排查故障的正常步驟,因為當故障發生的時候,特別是一些比較復雜的故障,其實是需要各種系統管理員從各個方面進行全局的檢測。
在整個場景的構建之后,接下來就構建AI平臺,大家知道構建AI平臺有兩個方面,一個是數據一個是算法,接下來我做一個介紹。首先是數據部分,我們將數據分為三類數據,一是指標數據,二是日志數據,第三是RTM(音)數據,指標數據業務指標和性能指標,業務指標可以反映業務的好壞,不同的業務系統業務指標是不同的,具體的方式也是不同的,網上交易日志,抽取出來的調用數據、平均延時等幾個關鍵指標,到集中交易系統還有OCR系統是通過與APM這種工具進行對接獲取這種指標。第二種指標就是性能指標,這些指標就比較固定,操作系統有CPU利用率等等,這些KPI我們通常從監控系統獲取,可以實時進行抽取,這些指標是我們作為日常定位的重要的來源跟數據對象。
第二個數據是日志數據,我們將日志數據分為兩種,業務日志和運行日志,這些日志我們用做什么呢?第一個抽取業務的關鍵指標對日志的解析和計算,經過日志計算分析之后,這些指標也是我們作為一個業務報表實時報表輸出的重要數據來源。第二個日志是系統運行日志,這種日志其實是可以描繪某一個模塊的運行狀況。通常來說,大家知道操作系統還有數據庫日志,Grade運行日志等等,這些運行日志中我們用來干什么呢?主要做日志日常檢測,故障發生的時候我們會對這些日志進行檢測。
第三種數據是ITSM數據,一個是CMDB數據一個是變更數據,CMDB給我們提供了算法編排也是我們數據采集的基礎,因為它提供了各個模塊之間的訪問關系和組成關系,另外它也包含了各種日志所在的日志路徑。另外大家知道在故障發生的時候,還有一種數據就是變更數據,為什么把變更數據拿出來,大家都知道在故障發生的時候,故障發生原因往往有可能是變更引起的,所以真實的情況下我們在進行故障排查的時候我們會把相應的應用最近一段時間所做的變更也展現在運維人員面前,幫助他進行進一步的故障定位。
以上是所有的數據部分。接下來跟大家介紹一下算法部分,數據部分雖然處理起來是非常復雜的,非常煩瑣的,但是最有開源方案或者商業方案來進行,只要投入足夠的人力可以做好。但是算法這塊專業性非常強,它其實需要支撐的。算法往往缺少一定比如說金融的運維數據還有包括運維經驗等等,但是運維人員大家可以看到你在運維中找到非常了解算法或者精通算法的人非常少,這塊我們與清華大學一起共同學習進行研發進行算法落地。