大數(shù)據(jù)時代帶來的數(shù)據(jù)流動性,對承擔(dān)數(shù)據(jù)流動的網(wǎng)絡(luò)技術(shù)帶來了新挑戰(zhàn)。11月7日,在騰訊云主辦的首屆Techo開發(fā)者大會現(xiàn)場,騰訊云對下一代高性能網(wǎng)絡(luò)技術(shù)進(jìn)行了揭秘。
數(shù)據(jù)中心網(wǎng)絡(luò)帶寬演進(jìn)的三個階段
隨著5G、AI、云計算的普及和場景應(yīng)用,越來越多的設(shè)備被連接,數(shù)據(jù)洪流隨時隨地產(chǎn)生和分享,對網(wǎng)絡(luò)架構(gòu)和處理數(shù)據(jù)的能力提出了新需求,而騰訊云對于高性能網(wǎng)絡(luò)軟件架構(gòu)的思考,也經(jīng)歷了數(shù)據(jù)中心網(wǎng)絡(luò)帶寬演進(jìn)的三個階段:
第一階段,公有云數(shù)據(jù)中心的服務(wù)器接入帶寬在2014年從千兆邁入萬兆。這個階段所有的網(wǎng)絡(luò)虛擬化軟件通過內(nèi)核模塊實現(xiàn), 通過橫向擴(kuò)展來滿足網(wǎng)關(guān)的性能需求, 由于內(nèi)核框架本身性能的局限性,實現(xiàn)的性能指標(biāo)今天看起來很差,美國服務(wù)器,但是能夠滿足當(dāng)時的客戶訴求。
第二階段,2017年隨著視頻行業(yè)和游戲加速行業(yè)的興起,云網(wǎng)絡(luò)逐步開始從10G向25G遷移,這些行業(yè)上云對虛擬化網(wǎng)絡(luò)提出了百萬級別穩(wěn)定的包處理能力需求,對VM的網(wǎng)絡(luò)互訪時延及時延的穩(wěn)定性要求也更加苛刻。
在這種背景下, 虛擬化網(wǎng)絡(luò)的技術(shù)突破點是DPDK,整個虛擬網(wǎng)絡(luò)的架構(gòu)并沒本質(zhì)變化,只是虛擬網(wǎng)絡(luò)軟件用dpdk重新實現(xiàn),提升了單臺機器的性能。
第三階段,預(yù)計到2020年底公有云數(shù)據(jù)中心的服務(wù)器接入帶寬即將達(dá)到100G。主要驅(qū)動力來自于虛擬化密度的提升。事實上,在今年底已有196核的CPU面世,虛擬化密度直接翻倍,可預(yù)期的未來,4HT的技術(shù)會出現(xiàn),虛擬化密度會繼續(xù)大幅度提升,對網(wǎng)絡(luò)基礎(chǔ)設(shè)施架構(gòu)的能力會帶來非常大的挑戰(zhàn)。
顯然,不同的網(wǎng)絡(luò)帶寬時代,對虛擬化網(wǎng)絡(luò)的軟件架構(gòu)會有不一樣的要求。尤其是隨著騰訊內(nèi)部自研業(yè)務(wù)的大量上云,內(nèi)網(wǎng)互訪流量非常的大,overlay訪問underlay的支撐服務(wù)流量可以百T計,大流量的沖擊下,集中式網(wǎng)關(guān)的資源問題和scale能力成為一個非常大的問題。
下一代騰訊云高性能網(wǎng)絡(luò)技術(shù)兩大突破口
對于騰訊云來說,下一代高性能網(wǎng)絡(luò)技術(shù)突破有兩個:超穩(wěn)虛擬化平臺、網(wǎng)關(guān)的演進(jìn)。乍一看,兩者似乎關(guān)系不大,但想要搭建下一代高性能網(wǎng)絡(luò)技術(shù)就像是建房子,超穩(wěn)虛擬化平臺是支撐房子的地基,而網(wǎng)關(guān)則是貫穿房子墻面的的鋼筋骨架。
“網(wǎng)絡(luò)架構(gòu)的元素會簡化,要減少集中式網(wǎng)關(guān)的使用,核心是邊界的高性能網(wǎng)關(guān),以及高性能穩(wěn)定的虛擬化底層平臺”,金峰現(xiàn)場說道。
金峰表示,超穩(wěn)虛擬化平臺,騰訊云內(nèi)部有一個專門的云基項目去支撐。這個項目對網(wǎng)絡(luò)虛擬化,存儲虛擬化和計算虛擬化都做了大量的重構(gòu)和優(yōu)化,計算虛擬化大幅度優(yōu)化KVM性能損耗,為社區(qū)貢獻(xiàn)了超過100個核心patch,在全球的互聯(lián)網(wǎng)廠商中都名列前茅,可以保證在大多數(shù)場景下實現(xiàn)虛擬化相比物理機單核性能損耗在5%以內(nèi)。
網(wǎng)絡(luò)虛擬化優(yōu)化了各種不同場景的處理性能,不局限于優(yōu)化快轉(zhuǎn)表的性能,對于純粹的包轉(zhuǎn)發(fā)模式也做了大量的查詢匹配優(yōu)化,性能能做到2M PPS以上,此外vswitch可以自動判斷每個數(shù)據(jù)包應(yīng)該采用的轉(zhuǎn)發(fā)模式,分別使用包轉(zhuǎn)發(fā),基于軟件的快轉(zhuǎn)表轉(zhuǎn)發(fā),和基于硬件的快轉(zhuǎn)表轉(zhuǎn)發(fā),為每種不同場景提供最適合的轉(zhuǎn)發(fā)模式來保障性能。云基項目支撐的高穩(wěn)虛擬化平臺在騰訊內(nèi)部的自研上云業(yè)務(wù)中大規(guī)模使用,支撐了QQ,微信等核心業(yè)務(wù)的苛刻性能要求。值得一提的,業(yè)界支撐自研上云大多使用baremetal方案,騰訊云完全用虛擬化支撐了核心業(yè)務(wù)的自研上云。
有了超穩(wěn)虛擬化這個扎實的房子地基,作為“鋼筋骨架網(wǎng)絡(luò)”的網(wǎng)關(guān)就可以持續(xù)演進(jìn),表現(xiàn)在三個方面:1、業(yè)務(wù)網(wǎng)關(guān)NFV;2、內(nèi)部服務(wù)去網(wǎng)關(guān);3、邊界網(wǎng)關(guān)硬件化。
首先,基于超穩(wěn)的虛擬化平臺,騰訊云可以將LB, NAT等業(yè)務(wù)網(wǎng)關(guān)放在虛擬化平臺上,復(fù)用虛擬化平臺本身的資源池優(yōu)勢,無感知調(diào)度遷移,高性能網(wǎng)絡(luò),優(yōu)先級QOS等能力,保障自身的性能和穩(wěn)定性。此外集中式網(wǎng)關(guān)變?yōu)榉稚⒌奶摂M化網(wǎng)關(guān),故障域大大縮小,對整體的可用性也有很大的收益。
其次,去除物理網(wǎng)關(guān)。對于用戶訪問對象存儲,數(shù)據(jù)庫等基礎(chǔ)服務(wù),此前會有一個有狀態(tài)網(wǎng)關(guān)來做overlay-underlay轉(zhuǎn)換,自研上云之后,幾百T的內(nèi)網(wǎng)帶寬讓這種集中式有狀態(tài)網(wǎng)關(guān)的成本和可用性難以承受,將overlay和underlay的邊界從網(wǎng)關(guān)移到每臺提供基礎(chǔ)服務(wù)的物理服務(wù)器上,每臺物理服務(wù)器插入一個內(nèi)核模塊,提供VPC的被動訪問接入能力。
第三,就是邊界網(wǎng)關(guān)的硬件化,騰訊云已經(jīng)在和一些合作伙伴進(jìn)行這方面的預(yù)研,一臺硬件網(wǎng)關(guān)可以提供5-10個100G軟件網(wǎng)關(guān)集群提供的性能,在大網(wǎng)絡(luò)吞吐時代對于邊界網(wǎng)關(guān)的規(guī)模可控具有非常大的意義。
金峰表示,除了VPC網(wǎng)絡(luò)之外,100G網(wǎng)絡(luò)當(dāng)前最大的場景來自于大數(shù)據(jù)、AI帶來的低延遲高吞吐網(wǎng)絡(luò)需求,這對于RDMA網(wǎng)絡(luò)有非常強烈的訴求。