2018年3月21-22日,由中國信息通信研究院主辦的"OSCAR云計算開源產業大會"在國家會議中心舉行。運維開源論壇作為分論壇之一,于3月21日下午召開。作為當下火熱的市場熱點,開源技術和運維結合將碰撞出怎樣的火花?結果就在開源運維論壇見!
(贛州銀行系統數據庫團隊負責人葉光芳)
贛州銀行系統數據庫團隊負責人葉光芳出席會議,并帶來《中小銀行構建自主可控的運維自動化體系》的精彩分享。
葉光芳介紹到,贛州銀行是一家位于江西贛州的城市商業銀行,在2017年中國城商行排名第56位。
他表示,傳統企業的運維自動化建設最常見的兩種方式分別是購買和自建,相比之下,中小銀行卻面臨著財力投入有限、技術人員有限和地處三線城市的三大困境,在此背景下,在開源軟件產品基礎上進行開發以實現自主可控成為中小銀行的主要解決之道。
葉光芳指出,贛州銀行的運維自動化建設主要分為以下三個階段:一是自動化監控。這個階段主要實現對應用系統的全方位的自動監控;二是運維操作自動化。在這個階段的主要任務是把手工執行繁瑣的操作通過工具編排成作業自動執行;三是運維開發。這階段主要是通過運維開發更多的自動化工具,比如故障自愈,實現故障的自動處理,來真正實現運維自動化。
他從這方面入手,對運維自動化建設進行了詳細介紹:
開源的監控平臺包括zabbix、nagios、openflacon等,而根據企業的實際情況去建設一套適合自己的監控平臺則更為重要。葉光芳表示,贛州銀行在建設監控平臺時主要關注以下幾方面:
一是能夠快速實現自定義監控,這也是最重要的一點。一方面在應用運維中會面臨多種個性化的監控需求,而CPU、內存等基礎的監控是遠遠不夠的,同時這些監控需求會隨著業務的發展不斷增加;另一方面,即便是最基礎的監控有時也需要進行個性化的調整,這就要求我們的監控平臺能快速實現這些個性化的監控需求。
二是對監控數據的進行分析。葉光芳表示,監控平臺會產生大量的監控數據,對這些運維數據進行分析可以了解應用系統的整體的運行趨勢,這樣能及早的發現應用系統的一些隱患,從而避免故障的發送。
三是能靈活的配置告警。監控不同,告警需求也不同,這就決定了需要監控平臺能靈活配置支持各式各樣的告警。
四是界面簡潔易懂。葉光芳指出,因為贛州銀行的機房運行值班人員并不是專業技術人員。而簡潔的界面可以方便值班人員查看整個數據中心的運行狀態。
運維操作自動化方面,葉光芳說道,他們團隊主要負責系統和數據庫的運維,在系統數據庫這些基礎架構的運維方面,通過腳本和ansible很早就實現了自動化運維,數據庫一鍵安裝、一鍵批量巡檢、一鍵系統補丁安裝、數據庫的自動擴容等等。
但應用運維之前主要還是登錄到服務器上純手工操作,且對應用維護人員的依賴性較強,當應用出現故障時,將導致故障恢復時間比較長,人工操作效率低下、容易誤操作成為兩大困境,除此之外,當面臨某些重大變更或者災備演練時,中小銀行的ECC監控中心難以滿足需求,這一背景下,香港服務器租用,贛州銀行開啟了應用運維自動化。
在此基礎上,進行了三方面的工作。一是腳本化、標準化,要求所有應用運維統一基礎的操作命令,這樣就解決了應用運維依賴性強的問題;二是批量調度的工作。使用Ansible實現多系統的批量操作;
三是WEB自動化。葉光芳介紹到,藍鯨作業平臺按應用系統來控制權限,操作簡單方便,支持多種語言,能夠快速定制作業,還能夠分發文件、定時作業,而且還記錄了每次執行的詳情,做到了可追溯的操作審計。應用藍鯨平臺,可幫助提高應用運維效率。