大數據時代帶來的數據流動性,對承擔數據流動的網絡技術帶來了新挑戰。11月7日,在騰訊云主辦的首屆Techo開發者大會現場,騰訊云對下一代高性能網絡技術進行了揭秘。
數據中心網絡帶寬演進的三個階段
隨著5G、AI、云計算的普及和場景應用,越來越多的設備被連接,數據洪流隨時隨地產生和分享,對網絡架構和處理數據的能力提出了新需求,而騰訊云對于高性能網絡軟件架構的思考,也經歷了數據中心網絡帶寬演進的三個階段:
第一階段,公有云數據中心的服務器接入帶寬在2014年從千兆邁入萬兆。這個階段所有的網絡虛擬化軟件通過內核模塊實現, 通過橫向擴展來滿足網關的性能需求, 由于內核框架本身性能的局限性,實現的性能指標今天看起來很差,美國服務器,但是能夠滿足當時的客戶訴求。
第二階段,2017年隨著視頻行業和游戲加速行業的興起,云網絡逐步開始從10G向25G遷移,這些行業上云對虛擬化網絡提出了百萬級別穩定的包處理能力需求,對VM的網絡互訪時延及時延的穩定性要求也更加苛刻。
在這種背景下, 虛擬化網絡的技術突破點是DPDK,整個虛擬網絡的架構并沒本質變化,只是虛擬網絡軟件用dpdk重新實現,提升了單臺機器的性能。
第三階段,預計到2020年底公有云數據中心的服務器接入帶寬即將達到100G。主要驅動力來自于虛擬化密度的提升。事實上,在今年底已有196核的CPU面世,虛擬化密度直接翻倍,可預期的未來,4HT的技術會出現,虛擬化密度會繼續大幅度提升,對網絡基礎設施架構的能力會帶來非常大的挑戰。
顯然,不同的網絡帶寬時代,對虛擬化網絡的軟件架構會有不一樣的要求。尤其是隨著騰訊內部自研業務的大量上云,內網互訪流量非常的大,overlay訪問underlay的支撐服務流量可以百T計,大流量的沖擊下,集中式網關的資源問題和scale能力成為一個非常大的問題。
下一代騰訊云高性能網絡技術兩大突破口
對于騰訊云來說,下一代高性能網絡技術突破有兩個:超穩虛擬化平臺、網關的演進。乍一看,兩者似乎關系不大,但想要搭建下一代高性能網絡技術就像是建房子,超穩虛擬化平臺是支撐房子的地基,而網關則是貫穿房子墻面的的鋼筋骨架。
“網絡架構的元素會簡化,要減少集中式網關的使用,核心是邊界的高性能網關,以及高性能穩定的虛擬化底層平臺”,金峰現場說道。
金峰表示,超穩虛擬化平臺,騰訊云內部有一個專門的云基項目去支撐。這個項目對網絡虛擬化,存儲虛擬化和計算虛擬化都做了大量的重構和優化,計算虛擬化大幅度優化KVM性能損耗,為社區貢獻了超過100個核心patch,在全球的互聯網廠商中都名列前茅,可以保證在大多數場景下實現虛擬化相比物理機單核性能損耗在5%以內。
網絡虛擬化優化了各種不同場景的處理性能,不局限于優化快轉表的性能,對于純粹的包轉發模式也做了大量的查詢匹配優化,性能能做到2M PPS以上,此外vswitch可以自動判斷每個數據包應該采用的轉發模式,分別使用包轉發,基于軟件的快轉表轉發,和基于硬件的快轉表轉發,為每種不同場景提供最適合的轉發模式來保障性能。云基項目支撐的高穩虛擬化平臺在騰訊內部的自研上云業務中大規模使用,支撐了QQ,微信等核心業務的苛刻性能要求。值得一提的,業界支撐自研上云大多使用baremetal方案,騰訊云完全用虛擬化支撐了核心業務的自研上云。
有了超穩虛擬化這個扎實的房子地基,作為“鋼筋骨架網絡”的網關就可以持續演進,表現在三個方面:1、業務網關NFV;2、內部服務去網關;3、邊界網關硬件化。
首先,基于超穩的虛擬化平臺,騰訊云可以將LB, NAT等業務網關放在虛擬化平臺上,復用虛擬化平臺本身的資源池優勢,無感知調度遷移,高性能網絡,優先級QOS等能力,保障自身的性能和穩定性。此外集中式網關變為分散的虛擬化網關,故障域大大縮小,對整體的可用性也有很大的收益。
其次,去除物理網關。對于用戶訪問對象存儲,數據庫等基礎服務,此前會有一個有狀態網關來做overlay-underlay轉換,自研上云之后,幾百T的內網帶寬讓這種集中式有狀態網關的成本和可用性難以承受,將overlay和underlay的邊界從網關移到每臺提供基礎服務的物理服務器上,每臺物理服務器插入一個內核模塊,提供VPC的被動訪問接入能力。
第三,就是邊界網關的硬件化,騰訊云已經在和一些合作伙伴進行這方面的預研,一臺硬件網關可以提供5-10個100G軟件網關集群提供的性能,在大網絡吞吐時代對于邊界網關的規??煽鼐哂蟹浅4蟮囊饬x。
金峰表示,除了VPC網絡之外,100G網絡當前最大的場景來自于大數據、AI帶來的低延遲高吞吐網絡需求,這對于RDMA網絡有非常強烈的訴求。