可以看到光模塊在數(shù)據(jù)中心里,芯片占比大概是40%,封裝10%,輔料相關的30%,電信相關的20%。傳統(tǒng)數(shù)據(jù)中心光模塊應用上,我們是把光模塊直接拿來應用,沒有走到光模塊生命周期的前端,而現(xiàn)在,我們提出一種新的應用模式,從光模塊的設計開發(fā)的工作就介入,跟供應商一起聯(lián)合設計,定制參數(shù)設計規(guī)格或者自定義光模塊其他的需求。
現(xiàn)在很多人都在提光模塊的在線監(jiān)控,理想狀態(tài)下,我們希望在在光模塊的標準SPEC之內(nèi)希望再設置一個小的spec,不影響業(yè)務,如果光模塊出現(xiàn)問題,希望SPEC能超越小SPEC,但能滿足業(yè)務需求,當然這是理想狀態(tài)了。實際上遇到的情況是這樣的,一種情況光模塊確實在小SPEC里運行,免備案主機,一旦失效就超出了標準的SPEC。另外超出了SPEC,但是沒有失效,是長期不穩(wěn)定的狀態(tài)。
所以目前我們是通過三方入手:通過模塊架構(gòu)設計、參數(shù)自定義、結(jié)合大數(shù)據(jù)和AI平臺進行算法優(yōu)化,從而提升準確性和效率。
剛才講的是我們已經(jīng)開展或者是正在規(guī)劃的一些工作,當然挑戰(zhàn)是持續(xù)存在的,比如說現(xiàn)在我們即將面臨的400G應用。比如說從100GSR4,到400G SR8或者SR4.2,芯片數(shù)量提升了一倍,這直接導致失效率的提升。另外以單模PAM4調(diào)制為例,在同樣的電勢差下,NRZ的2個電平要變成PAM4的4個電平,線性度要求就更高,誤碼率要求就降低了。
上面就是我今天的分享,簡單總結(jié)一下,我們數(shù)據(jù)中心業(yè)務在逐步增長,包括新的業(yè)務出現(xiàn),數(shù)據(jù)中心網(wǎng)絡安全性包括穩(wěn)定性,現(xiàn)在也是進入到了400G時代,挑戰(zhàn)會更大,所以構(gòu)建穩(wěn)定可靠數(shù)據(jù)中心光互聯(lián)是數(shù)據(jù)中心業(yè)務的基石,謝謝大家。
以下是騰訊高級光互聯(lián)架構(gòu)師孫敏的演講實錄:
構(gòu)建穩(wěn)定可靠的數(shù)據(jù)中心光互聯(lián)遇到一些現(xiàn)實的挑戰(zhàn),在線運行光模塊數(shù)量超過百萬,新增數(shù)量也超百萬,內(nèi)網(wǎng)外網(wǎng)要提供安全的網(wǎng)絡環(huán)境,另外采購模式變化和設備白盒化進程深入,所以我們當前的挑戰(zhàn)還是非常大的。
10月17日,2018年開放數(shù)據(jù)峰會(Open Data Center Summit 2018,下文簡稱ODCC)數(shù)據(jù)中心網(wǎng)絡分論壇在北京國際會議中心舉辦。ODCC關注數(shù)據(jù)中心產(chǎn)業(yè)的各個方面,從國家政策和法規(guī),到地方制度和項目,從產(chǎn)業(yè)全局發(fā)展到具體技術落地,從尖端熱點技術到傳統(tǒng)行業(yè)推廣,從國內(nèi)到國際,從宏觀到微觀,全力推動中國數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展。
今天跟大家簡單分享一下騰訊構(gòu)建穩(wěn)定可靠的數(shù)據(jù)中心光互聯(lián)以及現(xiàn)在開展和未來開展的一些規(guī)劃。內(nèi)容主要是四個方面:背景介紹、性能分析、在電信、數(shù)通上的應用,智能體系監(jiān)控方面的工作,最后是一些挑戰(zhàn)。
這是另一方面的工作,我們正在建立這樣一個數(shù)據(jù)庫,將光模塊的所有數(shù)據(jù)存儲并且加以分析利用,保障監(jiān)控設計硬件的數(shù)據(jù),能夠充分的為我們所用。
如何構(gòu)建穩(wěn)定可靠的數(shù)據(jù)中心光互聯(lián),我們思路大概是三個方面:從歷史和經(jīng)驗吸取一些教訓和總結(jié),特別是光模塊在電信應用的經(jīng)驗,然后應用到數(shù)據(jù)中心;另外是構(gòu)建新的應用體系;第三是利用大數(shù)據(jù)和AI平臺。
還有DCI的挑戰(zhàn),相干光模塊由于內(nèi)部架構(gòu)復雜,器件種類繁多,,所以我們在建立這樣一個模型的時候會遇到很多困難,這也是一個挑戰(zhàn)。
這是第三方面的工作,就是光模塊在線監(jiān)控,現(xiàn)在一般硬件解決方案是通過雙鏈路,一個Server連到兩個交換機上,如果一個鏈路故障了通過另外一個鏈路進行支撐,這是當前的成熟解決方案,但是也會帶來一些問題,就是成本問題,或者雙鏈都失效的情況下就得不到問題的解決,
最終目的是要通過電信應用推導出數(shù)據(jù)中心的應用,包括應用規(guī)則、模型、模式、現(xiàn)象。這是我們簡單的總結(jié),以光模塊失效模式為例,通過電信級應用推導出數(shù)據(jù)中心應用的情況。
騰訊當前跟很多大型互聯(lián)公司一樣,隨著互聯(lián)網(wǎng)包括大數(shù)據(jù)時代的發(fā)展,現(xiàn)在主要的業(yè)務從原來的ToC到現(xiàn)在的ToB有一些轉(zhuǎn)變,騰訊數(shù)據(jù)中心需要兼顧ToC、ToB的要求。騰訊數(shù)據(jù)中心光互聯(lián)當前是25G Based,美國站群服務器 亞洲服務器,TOR選用的是100G。
另一方面我們正在建立一個比較完善的光模塊的認證體系,包括早期的背景調(diào)查。一些更詳細的武力分析,單體分析,對接測試,之后才會有系統(tǒng)適配、小批量應用和大批量應用。
數(shù)據(jù)應用基本上是2000年以后,所以一些經(jīng)驗和積累可以通過電信的應用進行推廣,包括進行一些總結(jié)。另一方面數(shù)據(jù)中心光模塊應用低于電信級光模塊應用,我們可以優(yōu)化一些設計和驗證。
硬件保障是必須的,軟件方面也是需要的。