我們首先從騰訊云的布局說起來,這是我在騰訊云官網上下載的我們現在在全球數據中心的布點圖,當然這里面沒有全部畫全,很多是通過區域的方式來畫的。簡單來講現在騰訊云超過1000架以上的數據中心已經超過了50個,這個量是非常大的。在這種時候,我們管理數據中心的時候面臨很多挑戰,來自多個方面。以前,基礎設施這側監管還沒報警的時候,業務中心找到我們,說我們的數據中心超溫了,這種情況我們是想避免的,免備案主機,我們想達到的理想情況是基礎設施出了問題,我們可以知會業務。這么多數據中心不可能全部是騰訊自建的,大部分是租建的,委托給第三方。這種情況下我們怎么去管理第三方?我們怎么知道跟他簽了SLA協議,他有沒有滿足我們的協議?數據有超溫、漏水的情況他有沒有知會我們?另外很多數據中心都會配數據中心經理管理數據中心,他們是跟第三方去合作的,架起第三方和我們騰訊之間的橋梁。這些都是我們在面臨這么多海量數據中心的時候面臨到的問題。
標準化之后除了帶來部署這塊的好處,我們也做到了軟件部署模塊化,包括像電池,因為電池節數和點位都是一樣的,只要把這些功能做好了布上去就可以。簡單講這就是騰訊北向接口所帶來的好處,大家如果感興趣可以會后在ODCC的官網上去下載,這個協議慢慢地我們也看到在向其他行業去拓展。之前我們也看到一些標書,其他行業在招標的時候說要滿足騰訊的北向接口,這對行業也是一個好處,我的分享就到這里,謝謝大家!
第二個我們就面臨一些協議適配的問題,現在各家做動環的也好,做DCM的也好,其實有很多很多協議,有各種各樣的協議,我們到底選哪一種?因為我們的研發人員也有限,不可能所有協議全部都去支持和適配。信號點的選擇這也是一個問題。
為了便于大家理解我舉了一個例子,香港服務器租用,是從北向接口協議里面扣出來的。這其實是一個類似電表的,左邊這一列是它的標準信號點,也就是說我要去檢測它的點位。有A向電壓、B向電壓、電流、狀態是閉合還是斷開、功率等等,每一個信號有一個OID上傳。所以當廠家跟我們對接好的時候,他傳一個ID,我就知道這個在哪一個點?所以所有設備我們都規定了這樣一個ID,是不重復的,就像每一個信號的身份證一樣。另外我們也規定了每一個信號小數點后面的精度是多少,另外它的名字規定有什么好處?簡單講說騰訊在數據中心A和數據中心B里面看到的告警描述是一樣的,這樣來講只要是接入這樣的設備都是標準的,所以這是每項接口的舉例。
另外一個,它說的語言是走SNMP,也規定了這個微模塊里面有哪些設備我需要監控?每一個要監控的設備到底要去什么點位也是有規定的,UPS多少條、電表多少條等等。另外一個,每一個信號點位的ID是多少?換句話說,只要在微模塊里面給我一個ID,我就知道這代表哪一個設備的電壓和電表,我們把每一個ID定義死。基于這樣一套協議,到目前為止我們已經接入了超過1700個微模塊。
下面接下來面臨的一個問題是比如說一個電表或者一個UPS,這么多監控點位到底哪些對我來講是有用的?因為這么多數據中心,1000個機架以上的超過50個,海量的數據上來,我們要去選哪些點位對我們最有用?我們要把最佳實踐固定下來。這些所有點位我需要選擇,這是我們要做的第三個事情。