大家好,今天我想給大家再分享一下邁絡思最近的一些進展。包括端到端的智能網卡、交換機和高速線纜。我先花點時間講一下25G,無論公司內部或者和用戶交流的時候,仍然想為什么要25G,網上有一些文章在論述,講得比較細,我剛好借此機會總結一下,另外有一些定量的東西分享給各位。這張PPT中的“1234”很清楚的展示了原因,有兩個匹配的問題,第一個是MAC和PHY的匹配,第二個是總線匹配,首先是兩個匹配的問題,這是技術因素,還有第三個成本問題,再一個就是其實各個廠商也好、用戶也好比較看好25G的未來,大家都愿意投入生態系統的建設。還有另外技術上的變化,會促生25G甚至更高的網絡:這就是NVMe的快速發展,整個的基礎架構都會因為NVMe的快速發展而有比較大的架構升級,或者對網絡提出更高的需求。今天是網絡專場,就不講NVMe了,但NVMe是實實在在的技術驅動。
剛才講了定性,還有定量的東西,就是10G和25G的比較。大家覺得就提升了2.5倍,只是端口速度有2.5倍的提升。有些用戶已經在部署,但成本只有1倍多點,這樣來看占了很大的優勢。另外你用了25G以后就意味著交換機的端口和服務器的端口都在減少,就意味這成本降低。同樣的傳輸量的情況下,成本很大的降低,達到50%。還有另外的100G與40G比會發現,密度有很大的提升。
回到Mellanox的產品,我們前段時間發布了200G、400G的以太網交換機。從卡、交換機到線纜,我們所有的芯片都是自研的,才能保證比較領先的地位。我記得剛才有嘉賓也提到了開放網絡,我們從做以太網開始就一直秉承著開放。看一下Spectrum-2,現在是25G起步,支持40G 50G 100G、200G 400G。所以題目提到了未來的技術,可以支撐你現有的,對于這種互聯網公司超前的需求我們也支持,我們就怕沒想法,我們一直在找我們更多的應用場景。擴展性有10倍的提升。還有一點特殊的,可編程能力,在spectrum-2交換機里做了優化,同時總的應用成本會很大的降低。對系統延遲來講還是超低的狀態,比友商低30%。
具體產品型號上大家看到有四款3系列的,了解我們知道上一代是2系列的,到這一代大家發現全部是3系列的,這一代就是200G、400G,用的芯片就是spectrum-2。這兩個產品在空間是有時間標準級,存儲環境里必須要高帶寬,對空間比較在意的話,底下這兩款交換機就特別實用。這是最具擴展性的200G、400G的開放以太網。
剛才提到交換機,再說一下智能網卡。很多人了解我們是通過卡先了解的,大家覺得我們公司的卡很有特色:網卡的速率很高、性能很好、功能很多。另外很多功能以前以為只是在概念上有,后來發現Mellanox能實現,跑出來效果還很不錯。從10G一直到現在的200G,后面數字顯示了不同的年代,數字越高,它的速率越高,同時它的功能也會越多,效率也會更高,這是整體的一個思路,性能越來越高,延遲越來越低,功能越來越豐富。
卡本身功能太多了,時間有限,我只說幾個比較關注的點。一個是DPDK,6月28號在上海參加了DPDK大會,在現場有好幾個用戶幫我們背書,直接說了怎么用的我們的網卡,DPDK多好。今天有機會跟大家做一個分享,我們的DPDK大概是什么樣的狀態。DPDK本身不科普了,我們的安全性、高效、靈活。第一是對安全性,我們做的是硬件識別的保護,可以基于硬件的保護實現進程間隔,是標準的DPDK做不到的。更安全,另外有我們的硬件卸載,性能更高。靈活性也提到了,可以讓你的DPDK和非DPDK同時在上面運行,包括我的管理和故障排查,同是一系列的工具、一系列的經驗都可以讓你的使用上效率更高的同時,保證你的靈活性和應用性,這是DPDK上的一些進展。
看一下效果,這是用的ConnectX-5 EX以太網的的端口,64字節達到了業內最高137Mpps,而128字節以上達到線性速率,會發現我們達到了線速性,其實很多友商或者是業內的同仁會講性能如何好,但真做的線速的只有Mellanox。
提到了DPDK,再說另外一個東西RDMA,我相信有人在研究,有少部分的用戶在做一些嘗試性的測試環境。應用最廣的是微軟,國內這兩年的勢頭已經起來了,很多家都在用,因為保密協議的關系沒法說名字,但是大家能想到的比較top的公司都在用。為什么用RDMA?大家都知道CPU越來越強了,但是過于依賴某一個東西很有可能就會受制于它。比如說把所有的東西放在一個籃子里會有問題,CPU越來越多,重內核會消耗CPU,整體的協議堆棧會大量的消耗CPU,讓延遲很難控制。RDMA就直接繞過CPU,讓我的內核和用戶直接和網絡硬件通訊,這樣效率一定最好,原理上至少繞過了CPU,CPU利用率降低了。還有應用程序的卸載讓你的效率更高。RDMA實際上在InfiniBand上,還有以太網上的的RoCE。這里面是兩個,一個是使用RoCE,一種是不用的,香港云服務器 美國云主機,從三個層面可以看到延遲、吞吐、CPU利用率。吞吐率來講會有6倍以上的提升,這是比較保守的,我們實測更會高,但是我們會取一個相對比較平均的結果。延遲來講,基本上保證是1微妙以內。CPU利用率就特別明顯的,測到的是2%,實際上在微軟的云上,給的結果是零點幾,在柱狀圖上完全看不到了。這是RoCE在整個基礎架構里面需要快速的網絡的問題,這是一個問題,但是你會發現除了硬件本身是高性能,同時還需要高效率的協議,就是RoCE/RDMA,這是一個結果,跟大家分享的。