趙繼壯:大家好,我們會經常跟一些廠商對新產品新技術進行交流,可能干的最多的事情結合運營商的實際業務需求和機房環境提出尖銳的質疑。比如整機柜已經出現很多年了,這種形態確實密度高、又省電,但電信機房不都是A類機房,供電、承重會有問題,而且相比整機柜,定制化機架服務器可以實現更靈活的硬件配置和形態組合來滿足業務需求。運營商在推SDN、SDS,都屬于用軟件定義數據中心,跟硬件資源池化的路線不太一樣。我們會問為什么一定需要硬件資源池化,深圳論壇空間 香港主機,原來服務器CPU、硬盤、內存的配比都是經過計算和實際驗證的模型,我們不一定需要硬件資源池化,硬件資源池化反而挺難實現的,它的成本也比較高。
現在出現了單卡1.5PB的SSD,性能也無與倫比的強大,但我們現在需要那么高性能的SSD么?我們目前的分布式存儲系統的硬件配置可以通過水平擴展滿足當前業務的需求。運營商對硬件新技術的使用會稍微滯后一些,但不代表我們不關注這個,我們是非常關注ODCC硬件的發展潮流,硬件的進步比軟件更容易帶來產品的整體飛躍,我們在等待新產品性價比最高的時點。
我今天跟大家匯報的是通用服務器網絡功能硬件卸載,包括四方面內容,VXLAN網卡硬件加速、RoCE網卡、Open vSwicth網卡卸載,VNF網卡卸載。為什么要做這件事情?你們可能很清楚,VXLAN網卡硬件加速、RoCE網卡很多年前都有,這是因為隨著NFV的推進,運營商云計算資源池會部署很多網絡密集型的應用,這種情況下這兩個技術就很有必要了,因為資源池中的CPU非常寶貴。比如我們定制化服務器里的存儲型服務器,它CPU的主頻包括核數都是很有限的,我們在在實際測試中發現個問題,就是在一些高負載的情況下用了NVME的SSD整體性能反而出現下降,網絡IO計算與存儲軟件本身的計算對CPU構成了爭搶。VXLAN網卡硬件加速,VXLAN的重要性對于數據中心是毋庸置疑的。Open vSwicth網卡卸載,VNF網卡卸載這兩個部分內容比較新,我們前期與廠商開過幾次會議進行交流,但是到今天可能還沒有拿出一個能在現有資源池中廣泛使用的成熟方案,所以先不講了。
VXLAN網卡硬件加速,最有吸引力的是左上角這個圖,原來是17個VM現在是36個VM,CPU利用率降低到26%,當然這得看是什么應用,普通應用達不到這種效果。右面這張圖把TCP分包的切片,收端的包組合都放到網卡硬件上來完成,網卡必須能解析出VXLAN中的TCP報文,解析不到TCP就沒有辦法進行多隊列的支持。RSS多隊列可以把網卡接收到的數據均勻分布到多個有獨立中斷號的硬件隊列上,通過把中斷分配給不同的CPU并行處理,可大幅提高吞吐量。我們這個服務器模型,有一款模型確實對中斷隊列的多少沒有做限制,但是實際使用當中發現有的廠商提供的網卡它的硬件隊列數特別少。比如右上角這張圖,所有數據都在一個硬件隊列里只能由一個CPU核心去處理,這個CPU的主頻是有限的,所以一下就出問題了。
VXLAN網卡硬件加速,主力廠商的虛擬化平臺,如VMWare的NSX和Openstack都支持。網卡方面Mellanox、Broadcom、Cavium、Intel公司的主流網卡均支持。測試方法是使用iperf3工具進行測試。這是公開測試的數據,我們既需要一些業界的測試結果和我們自己的一些測試結果。TSO這個硬件加速對于整個系統的性能影響還是非常大的。RoCE網卡,現在IB交換機有點貴,現在支持RoCE的網卡比較多,我們如果能把網卡上的RoCE的功能打開,不增加成本的情況下給數據中心的存儲網絡有一個比較大的性能提升。但RoCE有問題,普通Socket不兼容。
RoCE編程,我原來是一個資深軟件工程師,不看編程接口的話,我們始終在上面進行選型是有問題的,我們只有看到代碼具體實現,心里就比較靠譜了,做一些決策的時候我們就有底氣。RoCE的編程界面與TCP比較,它跟TCP都是需要服務器先bind,這個流程仍然是經過內核協議站,但是數據是不經過內核協議站的,這種設計是非常到位的。
OvS硬件卸載,我不重點展開,它確實比較復雜,普通網卡也可以做一部分的數據平面的OvS硬件卸載,莫斯科服務器 新加坡vps,一部分是智能網卡,智能網卡可以做全部的OvS硬件卸載,為什么要做OvS硬件卸載,我們知道OvS的功能相對來說比較固化,既然固化,網卡廠商有動力把它完全做到硬件層面,這是一方面,另一方面現在隨著25G、50G的普及,虛機里面的流量特別大,這種大流量對于CPU的占用已經非常高了,OvS本身在插大容量網卡的時候CPU的消耗非常高,這是有實際數據說話的,要是放到硬件里面實現確實是一個好方法,但是這個也有問題,它必須跟虛擬化層比較好的做兼容,要是不兼容的話這個事情還是沒有辦法做下去。