可以看到光模塊在數據中心里,芯片占比大概是40%,封裝10%,輔料相關的30%,電信相關的20%。傳統數據中心光模塊應用上,我們是把光模塊直接拿來應用,沒有走到光模塊生命周期的前端,而現在,我們提出一種新的應用模式,從光模塊的設計開發的工作就介入,跟供應商一起聯合設計,定制參數設計規格或者自定義光模塊其他的需求。
現在很多人都在提光模塊的在線監控,理想狀態下,我們希望在在光模塊的標準SPEC之內希望再設置一個小的spec,不影響業務,如果光模塊出現問題,希望SPEC能超越小SPEC,但能滿足業務需求,當然這是理想狀態了。實際上遇到的情況是這樣的,一種情況光模塊確實在小SPEC里運行,免備案主機,一旦失效就超出了標準的SPEC。另外超出了SPEC,但是沒有失效,是長期不穩定的狀態。
所以目前我們是通過三方入手:通過模塊架構設計、參數自定義、結合大數據和AI平臺進行算法優化,從而提升準確性和效率。
剛才講的是我們已經開展或者是正在規劃的一些工作,當然挑戰是持續存在的,比如說現在我們即將面臨的400G應用。比如說從100GSR4,到400G SR8或者SR4.2,芯片數量提升了一倍,這直接導致失效率的提升。另外以單模PAM4調制為例,在同樣的電勢差下,NRZ的2個電平要變成PAM4的4個電平,線性度要求就更高,誤碼率要求就降低了。
上面就是我今天的分享,簡單總結一下,我們數據中心業務在逐步增長,包括新的業務出現,數據中心網絡安全性包括穩定性,現在也是進入到了400G時代,挑戰會更大,所以構建穩定可靠數據中心光互聯是數據中心業務的基石,謝謝大家。
以下是騰訊高級光互聯架構師孫敏的演講實錄:
構建穩定可靠的數據中心光互聯遇到一些現實的挑戰,在線運行光模塊數量超過百萬,新增數量也超百萬,內網外網要提供安全的網絡環境,另外采購模式變化和設備白盒化進程深入,所以我們當前的挑戰還是非常大的。
10月17日,2018年開放數據峰會(Open Data Center Summit 2018,下文簡稱ODCC)數據中心網絡分論壇在北京國際會議中心舉辦。ODCC關注數據中心產業的各個方面,從國家政策和法規,到地方制度和項目,從產業全局發展到具體技術落地,從尖端熱點技術到傳統行業推廣,從國內到國際,從宏觀到微觀,全力推動中國數據中心產業發展。
今天跟大家簡單分享一下騰訊構建穩定可靠的數據中心光互聯以及現在開展和未來開展的一些規劃。內容主要是四個方面:背景介紹、性能分析、在電信、數通上的應用,智能體系監控方面的工作,最后是一些挑戰。
這是另一方面的工作,我們正在建立這樣一個數據庫,將光模塊的所有數據存儲并且加以分析利用,保障監控設計硬件的數據,能夠充分的為我們所用。
如何構建穩定可靠的數據中心光互聯,我們思路大概是三個方面:從歷史和經驗吸取一些教訓和總結,特別是光模塊在電信應用的經驗,然后應用到數據中心;另外是構建新的應用體系;第三是利用大數據和AI平臺。
還有DCI的挑戰,相干光模塊由于內部架構復雜,器件種類繁多,,所以我們在建立這樣一個模型的時候會遇到很多困難,這也是一個挑戰。
這是第三方面的工作,就是光模塊在線監控,現在一般硬件解決方案是通過雙鏈路,一個Server連到兩個交換機上,如果一個鏈路故障了通過另外一個鏈路進行支撐,這是當前的成熟解決方案,但是也會帶來一些問題,就是成本問題,或者雙鏈都失效的情況下就得不到問題的解決,
最終目的是要通過電信應用推導出數據中心的應用,包括應用規則、模型、模式、現象。這是我們簡單的總結,以光模塊失效模式為例,通過電信級應用推導出數據中心應用的情況。
騰訊當前跟很多大型互聯公司一樣,隨著互聯網包括大數據時代的發展,現在主要的業務從原來的ToC到現在的ToB有一些轉變,騰訊數據中心需要兼顧ToC、ToB的要求。騰訊數據中心光互聯當前是25G Based,美國站群服務器 亞洲服務器,TOR選用的是100G。
另一方面我們正在建立一個比較完善的光模塊的認證體系,包括早期的背景調查。一些更詳細的武力分析,單體分析,對接測試,之后才會有系統適配、小批量應用和大批量應用。
數據應用基本上是2000年以后,所以一些經驗和積累可以通過電信的應用進行推廣,包括進行一些總結。另一方面數據中心光模塊應用低于電信級光模塊應用,我們可以優化一些設計和驗證。
硬件保障是必須的,軟件方面也是需要的。