總之,無論是應用分布式架構,還是RDMA通信效率的角度,均呼吁數據中心網絡發生變革。近日,華為發布了《AI Fabric,面向AI時代的智能無損數據中心網絡》白皮書(以下簡稱“白皮書”),白皮書指出,這場AI驅動的網絡變革需要更智能的調度和無損的轉發,實現零丟包、低時延、高吞吐的智能無損數據中心網絡。
白皮書指出,面對動態流量和海量參數挑戰,華為一方面投入研究團隊分析各種應用,提煉出流量模型特征;另一方面通過在交換機集成AI芯片,實時采集流量特征和網絡狀態,基于AI算法,本地實時決策并動態調整網絡參數配置,使得交換機緩存被合理高效利用,實現整網0丟包。
在這一轉型進程中,數據中心網絡亟需消除自身短板,從而轉向更高吞吐、更低時延、更可靠、穩定和融合的鏈路技術和網絡協議。AI Fabric智能無損數據中心網絡無疑為市場提供了一個面向AI時代的極佳選擇。
存儲介質從機械硬盤(HDD)演進到閃存盤(SSD),來滿足數據的實時存取要求,介質時延降低了不止100倍;在算力方面,業界已經在采用GPU甚至專用的AI芯片,處理數據的能力提升了100倍以上。
不過雖然存儲介質和計算能力在大幅提升,但當前網絡通信時延卻成為性能進一步提升的瓶頸。通信時延在整個存儲E2E時延中占比從10%躍遷到60%以上,也就是說,寶貴的存儲介質有一半以上的時間是空閑通信等待;計算瓶頸也類似,如某語音識別訓練,每次迭代任務時長為650ms~700ms,通信時延為400ms,同樣,昂貴的處理器也有一半時間在等待模型參數的通信同步。
所以回到上面那個問題,在推動AI發展起到關鍵支撐作用的底層網絡基礎設施是否已經準備好?答案是Yes也是No。
在招商銀行,AI Fabric智能擁塞調度加速網絡通信,經實測最終存儲集群IOPS性能提升了20%,單卷性能達到35萬IOPS。加速了招商銀行分行云性能,為用戶提供了像訪問本地盤一樣的使用體驗。
“到2020年,行業前15%的企業都將采用機器學習;到2023年,人工智能將取代50%的IT業務工作量”。
可能有的人對這個結論產生疑問,他們會說RDMA(Remote Direct Memory Access,即遠程直接數據存取)已大大降低了通信時延。的確,RDMA在AI運算和SSD分布式存儲追求極致性能的網絡大潮中,替換TCP/IP已是趨勢。目前,國內外不少互聯網公司已經開始部署RDMA,甚至大規模部署,例如微軟等企業。