我今天分享的主題是“從0到1構建支撐企業自動化運維系統的PaaS”,這個主題是圍繞如何快速構建企業自動化運維,我們這邊是負責騰訊游戲運維的,騰訊2016年的收入是1500億,游戲占了一半,在服務器主機運維這塊我們大概有20多萬臺主機,同時這些游戲大概有400到500款左右,最近很火的《王者榮耀》其實也是我們在負責運維的。
為什么要構建企業自動化運維系統的PaaS,大家知道運維其實是一個重復勞動而且低價值密度的崗位,其實它是負責整個企業內部所有業務系統的穩定運行,自動化程度的高低決定著運維的支撐效率。比如我原來做一個《穿越火線》的運維,這個業務最開始可能10臺、20臺服務器,最后爆發的時候你會發現幾千臺服務器,大家在玩的時候會發現幾百個大區,這個時候如果還是我一個人在運維的時候,那我根本忙不過來,這個時候需要通過自動化的手段,去把我們的一些運維工作解放出來。整個這塊,如果按照傳統的方式來做,可能我們就要去招一批開發,開發一大堆基于ansible、SaltStack、Puppet這樣的自動化工具。領導不可能給你派幾十人來支撐業務,這時候我們就需要一個能夠快速構建自動化運維系統的PaaS。
我今天的演講會按照四個部分來為大家分享。首先第一個,我們從2012年開始做藍鯨,到現在已經做了5年多了,我們從2015年開始,把我們的一些運維經驗輸出到業界,特別是一些傳統企業,我們也了解到了他們在做運維的痛點。第二個,講我們自己本身在騰訊游戲是怎么去支撐騰訊收入一半的運維的自動化,如何構建PaaS這種方式,把我們的經驗給大家講一下。第三部分,把我們在內部具體的實際案例給大家講一下。最后,給大家介紹一下我們的對外開放,我們從2016年已經開始把我們的一些產品拿出來,例如我們對外開放了社區版,到目前為止至少有4000家用戶,把我們的產品下載下來,在他內部的生產環境搭建起來,快速構建他們公司內部的自動化運維支撐體系。
第一個,傳統運維的痛點,這張圖大家看到很多云廠商,現在最火的幾個詞,云計算、大數據、AI。云計算這塊,像我們騰訊自己在做云,阿里在做云,很多傳統企業都開始在做云。云有什么特點,首先第一個可以按需獲取,像個水龍頭一樣,要的時候打開,不要的時候關掉。第二個是彈性伸縮,你可能因為某一個運營活動導致你突然間需要擴縮容,方便我們基礎設施的快速獲取。隨著云計算的到來,對我們運維有什么改變,大家可能知道大概在90年代的時候,傳統企業大家可能就是10臺、20臺左右的大機小機。慢慢的X86,過了之后是虛擬化,過后是容器來了。運維對象發生改變了,傳統的90年代那時候我們只要招一個運維,這個人只要體力好一些就可以了。但是X86或者虛擬機或者容器一上線以后,你會發現可能面臨的是成千上百臺,這個時候還靠人手去點肯定不行的。
運維的數量得到了一個暴增。另外是運維數量的屬性,以前是物理機X86,后面你發現虛擬機還有容器,它們的管理方式不一樣,上面網易的同學也講過了怎么管理容器。如果這個運維你同時,因為很多傳統企業他們會保留以前那些傳統基礎架構,新技術的引進會導致運維,比如要同時操作,我的X86,我的虛擬機,我的容器,你同時發布,這也是一個挑戰。最后一個是應用,各式各樣的行業都已經開始在互聯網化,包括金融行業、電力行業、制造業,都開始在互聯網化,他們所有這樣一些應用服務都是以App的形式,這些應用本身也需要運維。傳統運維,可能以前你只需要關注IDC,關注網絡,關注OS就可以了,但這時候你需要關注業務應用層。比如我做游戲的,突然有一天玩家說金幣購買不了了,那把槍購買不了了,來投訴的時候一定是運維,槍買過來了是哪個模塊哪個進程,有可能出現哪些日志,你需要對整個應用層非常了解,這是對我們運維的一些技能會要求越來越高。這是我們摘取的銀行業對他們銀行的一些要求,作為一個指導意見發出來,打造智能化運維體系,比如像我們可信云金牌運維這個認證。
針對企業,一個傳統的自動化運維做一個變革其實有兩種方式,第一種是購買,像90年進到中國企業的IT支撐系統,像IBM、惠普等,他們可能給你提供一些像發布系統、管控系統、監控系統、工單系統,我們很多的企業都去購買。第二種是自建,我們要提升運維自動化能力,可能下面指派一個技術負責人去招人。我們買IBM、惠普這些系統之后大家會發現有很多問題,第一,它是基于傳統架構開發的,很多都非常笨重,你可能要改一個地方非常困難。另外一塊,你的企業如何需要做自動化流程的串接,你會發現公司里買的各個的像IBM、惠普的系統,各個系統之間其實是孤島,沒辦法打通,這個就會影響你企業流程的自動化。這個是整個你在購買的過程中也可能會遇到很多問題,你可能買了某一家乙方的一個系統,最開始招標的時候告訴你我什么都可以做,也非常積極。當這個標確定以后,開始進入實質階段的時候,你會發現各種問題來了,比如他可能前期技術攻堅人員,把這個人員撤走了。另外你跟他之間溝通成本可能會非常高,你可能非常小一個改動,發現兩個星期以后都沒有任何進展。自建,首先我這個企業需要去組建團隊,你可能需要去互聯網挖人,美國網站空間 香港網頁寄存,人力成本會非常高。招過來之后,其實技術儲備并不是特別足,最后是建設周期長,我們曾經和一個企業交流的時候,那個領導提到一點,他招了一個技術負責人,招了一個團隊,去搞運維自動化,做了大概一年,最后交付給他就是一張圖紙,會有各種各樣的問題。