前面我們看了全景,我們第二步通過系統里面點擊下載來查自己,通過性能和交易量的分析可以查出我們系統自己本身的健康狀況是什么時間和歷史數據的交易量對比,都可以直觀地看出來。
我們說到分布式架構和集中式架構的對比,集中式架構已經無法滿足業務發展的需要,主要存在以下一些問題。首先是集中式架構普遍缺乏彈性伸縮的能力,隨著數據量和交易量的發展,我們部分的數據量一旦交易量巨大,部分的實時業務交易場景已經無法支撐,更不用說現在我們互聯網客戶瞬時爆發的時候海量交易。我們這種瓶頸首先一般體現在核心系統,核心系統升級之后,隨著我們處理能力的飛躍提升,在渠道、支付、安全、數據以及運維體系支撐,各方面的瓶頸也會充分地暴露出來。所以我們系統集成式架構這種轉型,不單從核心系統,從各個渠道、安全、其他產品以及運維體系,都需要配合這種整體架構的轉型,擺脫我們集中式架構的束縛。
在數據庫層面,我們使用了讀寫分離和分庫分表,通過這種我們實現了數據庫的水平擴展,從而實現了數據的水平擴展的訪問能力。這是我們分布式技術平臺的功能。我們的分布式系統上線之后,給我們數據中心業帶來了一系列的挑戰,它能夠解決我們的很多問題。首先來看一下集中式架構和分布式架構的對比,有一個直觀的印象。我們數據中心首先面對的問題是分布式系統如何運維,因為首先系統變的多了,原來的很多運維方式、運維方法都需要改變,很多標準、工具也需要改變,商業銀行的分布式系統如何運維?因為分布式在互聯網應用的比較多,在銀行領域應用的比較少,分布式系統如何運維,這一系列的挑戰給我們數據中心系統帶來了思考。我們面對的是兩個分散,應用分散和幾百個分布式應用實例,另外是數據分散。面對三個層次復雜,服務層次復雜、調用關系復雜、系統狀態復雜。四個多,設備多、應用多、服務多、配置多。
我們使用了大量的開源軟件,directadmin漢化 虛擬主機,包含這八個主要的組件,是我們運維人員自己開發的,而且是我們平常對分布式核心系統運維的時候使用最多的工具。另外我們對數據庫做了分庫分表,提供了這種彈性的擴展能力,但是我們數據的查詢是通過自主研發的一個工具CDAL來實現數據的集中化統一查詢管理,我們自主研發的這個工具CDAL我們也申請了專利。我們的集中監控平臺是中國民生銀行科技應用系統的重要監控工具。這是我們分布式的DevOps平臺,我們通過它來實現開發和運維一體化的部署,這是我們運維部署的實時流程圖。
通過這些,我們分布式核心系統建設方向就實現了提前的掌控,實現了對問題的精準定位,實現了防患未然,實現了對問題分析的快速響應。通過四化建設,我們實現了整個科技系統的全面掌控,為我們民生銀行科技戰略的轉型提供了有力的支持。
我們除了順應行內的戰略,分布式核心系統的架構還需要順應科技金融的行業趨勢,實現科技價值。極致用戶體驗、海量支撐、高并發、高性能、彈性伸縮、業務高連續性、降本增效。民生科技金融戰略的目標是用未來3—5年的時間全面構建基于數字化的智能銀行,我們把分布式作為科技金融銀行建設的基礎。
大家好,我是來自于中國民生銀行數據中心的陳顯義,我給大家分享的內容是分布式核心運維體系建設。這是我的個人介紹,長期從事商業銀行核心系統的運維工作,全程參與了中國民生銀行兩代核心系統的建設歷程。現在是我們中國民生銀行核心系統的運維負責人,主持搭建了分布式核心系統運維支撐體系。曾擔任某國際知名咨詢公司的高級技術咨詢顧問,為多家世界500強企業實施了企業信息化項目。
我們分布式架構能夠解決很多問題,以及它能夠給我們帶來很多優勢,能夠順應行內的戰略發展,另外也給我們數據中心帶來了很多運維難點。我們如何運維?面對這些問題和難點,我們借鑒了1938年5月毛主席他老人家寫的關于游擊戰爭的戰略問題。其中關于抗日區根據地的建立也是從無到有的創建這種論述,我們要解決的問題可能跟先輩們解決的問題不可同日而語,但是這個創建為我們分布式核心解決這些難點提供了理論和方向的指導。
第二個問題,我們說集中式架構的成本比較高,我們集中式架構一般普遍是基礎設施建立在小型機或者大型機上,硬件及軟件的采購成本比較高。尤其是我們核心系統,軟件版權費用也比較高,服務高度依賴廠商,服務成本也比較高。
第三個問題,我們說集中式架構存在單點的風險,因為集中式架構一般構建的基礎是應用,開發、運維管理的力度比較粗,容易牽一發而動全身這種情況。所以我們想要構建這種分布式的情況,它存在著能夠提供輕量化敏捷開發的這種理念。另外,我們集中式的架構技術體系一般比較封閉,技術升級一般要高度依賴廠商,尤其是國外的一些廠商。我們自己的IT運維團隊把控能力比較弱,而反觀我們的互聯網層面,分布式架構在我們互聯網IT技術領域廣泛地應用,同時也積累了大量的經驗,很多的技術和開源軟件都已經比較成熟。
具體我們的目標分為商業目標和技術目標,技術層面分布式架構是利用網絡計算機社別,把計算任務和數據進行分解、彼此協調,共同完成一項業務功能的技術架構。我們分布式架構是作為我們科技金融的基礎,是由內部原因和外部原因決定的。內部原因是我們的核心系統存在技術瓶頸,系統的成本比較高,產品把控能力比較弱。外部環境是互聯網金融的發展、市場環境、國家戰略以及行業背景。
10月16日,2018年開放數據峰會(Open Data Center Summit 2018)于上午在北京國際會議中心開幕。作為數據中心行業的一大盛事,ODCC每年都將匯聚數千名數據中心專家與幾十名主流媒體。本屆峰會時間為16日-17日,ODCC將發布最新研究成果,碰撞尖端熱點技術,分享國際技術進展,展示主流產品應用。
這是我們分布式架構的故障定位,平常我們處理業務分析的時候是不是有一種叫做飄洋過海來看你,我們簡簡單單的一筆轉帳交易耗時3秒鐘可能通過了2個城市、3個機房,調用了12套系統,路過了21臺服務器。我們把它總結為運維人在囧途。
最后一個是我們運維分析智能化里面的海鏈系統,因為我們分布式系統做了微服務的這種調整,各個組件分布在不同的服務器上,或者各個組件分布在不同的機房之間。我們單個交易有問題之后可以通過海鏈系統把每一個步驟、每一個技術組件都可以查詢出來,哪一步調用了哪些,都可以通過這個展示出來。
我今天分享的內容分為三部分,第一個部分,分布式核心的建設背景,第二個部分,分布式核心的運維挑戰,VPS租用 國內服務器,第三個分布式核心的運維體系建設。我們來看一下中國民生銀行的科技建設歷程,從銀行創立的時候單機作戰時代,到數字化管理時代,以及到2013年新核心系統全面上線,2014年鳳凰計劃開啟科技創新時代,再到2018年我們董事長在500強國際金融峰會上提出了民生銀行十年之內必將成為一個金融科技公司的戰略構想。我們的一位總經理提出堅持科技創新,以數據場景化應用為導向,用科技創新為全行業務發展提供原動力,充分發揮信息科技的戰略支撐作用的要求。
另外我們也實現了自動化,這是總攬,通過它我們可以很直觀地判斷出總體的運行情況。這是我們應用的批量部署。我們通過分布式這種架構,實現了多數據中心、多活的這種部署,但是我們平常做這種自動化切換以及這種切換,我們原來集中式的那種架構和方法已經不太適用了,所以我們把很多技術做了整合,實現了不同數據中心、不同機房之間的一鍵自動化切換。
交易監控平臺是實現我們可視化的交易監控,包括交易量、響應時間、成功率、響應率、支持多個維度、多層次的交易分析。全景運維是我們運維團隊的一個小伙子我們一塊根據我們經常遇到的需求來開發的,我們分為三步,第一步看全景,展示了民生銀行所有科技數據中心的系統,我們把它分為三個指標級,系統間的調用關系、系統交易量以及我們可以實現系統點擊下載,進去查看每個系統的健康情況。針對所有系統的情況,哪一臺系統如果有問題或者出現了告警之類的,我們都會這個圖中通過紅色的高亮提示出來,這是我們全部的系統所有的交易量。