2月22日-26日,計算機體系結(jié)構(gòu)頂級會議HPCA 2020在美國加州圣地亞哥召開。
作為國內(nèi)唯一有論文收錄的企業(yè),阿里巴巴此次有兩篇論文入選,其中一篇名為《EFLOPS: Algorithm and System Co-design for a High Performance Distributed Training Platform》,該論文介紹了阿里巴巴的高性能AI集群的節(jié)點架構(gòu)、網(wǎng)絡架構(gòu)、和通信算法,并展示了EFLOPS集群為阿里巴巴內(nèi)部業(yè)務和算法帶來的價值。論文第一作者、阿里巴巴高級技術(shù)專家董建波對此做了詳細解讀。
論文作者之一,阿里巴巴資深技術(shù)專家蔣曉維在會議現(xiàn)場分享
1. 摘要
人工智能(Artificial Intelligence)已經(jīng)被廣泛應用在阿里巴巴集團內(nèi)部的各個業(yè)務,包括:搜素推薦、智能翻譯、預測服務、城市大腦、自動駕駛等。隨著AI業(yè)務和算法的持續(xù)演進,神經(jīng)網(wǎng)絡的模型規(guī)模和訓練數(shù)據(jù)集容量急劇增加,不斷挑戰(zhàn)底層訓練平臺的算力極限。大規(guī)模高性能AI集群可以為算法模型的訓練提供了有力的算力支撐,保證業(yè)務算法的先進性。但由于AI業(yè)務的特征差異和傳統(tǒng)數(shù)據(jù)中心架構(gòu)的局限,大規(guī)模AI訓練集群的擴展性非常差。隨著訓練集群規(guī)模的增長,新增資源在傳統(tǒng)數(shù)據(jù)中心架構(gòu)下所獲得的性能收益不斷降低,成本收益顯著下降。
為解決這一問題,阿里巴巴進行了高性能AI訓練集群EFlops的研發(fā),通過算法架構(gòu)的協(xié)同設計,通信算法的效率達到理論上限,實現(xiàn)了集群規(guī)模的近線性擴展。通過和拍立淘團隊合作在EFlops系統(tǒng)上,將拍立淘百萬分類大模型的訓練速度提升4倍,并首次支持千萬分類模型的訓練;與阿里巴巴機器翻譯團隊合作,提升阿里巴巴翻譯模型精度的同時,將訓練時間從100小時降低至12小時。
EFlops架構(gòu)的集群系統(tǒng)已應用于阿里巴巴計算平臺的人工智能訓練平臺(PAI),服務阿里巴巴的人工智能業(yè)務的模型訓練,大幅縮短業(yè)務模型迭代周期,達到了預期的性能和成本收益,此次論文被收錄標志著阿里巴巴在AI基礎設施設計領域進入了世界領先水平。
2. 背景
由于深度神經(jīng)網(wǎng)絡的技術(shù)突破, AI業(yè)務已廣泛應用于社會生活的方方面面。圍繞AI的技術(shù)研究也引起了越來越多的關注,包括AI算法模型、訓練框架、以及底層的加速器設計等。然而極少有人從集群架構(gòu)角度探究過,AI業(yè)務的運行模式與傳統(tǒng)大數(shù)據(jù)處理業(yè)務的差別,以及AI集群的架構(gòu)設計應該如何優(yōu)化。
阿里巴巴的研究人員率先對AI業(yè)務的運行模式進行了分析,并對AI訓練集群的架構(gòu)設計進行了定制優(yōu)化,使AI訓練業(yè)務的訓練效率成倍提升。雖然AI業(yè)務也存在很強的數(shù)據(jù)并行度,但與大數(shù)據(jù)處理業(yè)務和高性能計算業(yè)務特征存在明顯的不同。其核心差別在于:1)AI業(yè)務的子任務獨立性很低,需要周期性地進行通信,實現(xiàn)梯度的同步;2)AI業(yè)務的運行以加速部件為中心,加速部件之間直接通信的并發(fā)度顯著高于傳統(tǒng)服務器。因此,對AI業(yè)務而言,傳統(tǒng)數(shù)據(jù)中心的服務器架構(gòu)和網(wǎng)絡架構(gòu)都存在很多嚴重的問題。ß
服務器架構(gòu)問題主要為資源配置不平衡導致的擁塞問題,以及PCIe鏈路的QoS問題。傳統(tǒng)服務器一般配備一張網(wǎng)卡用于節(jié)點間通信,為了支持AI業(yè)務而配置多個GPU。AI訓練經(jīng)常需要在GPU之間進行梯度的同步,多GPU并發(fā)訪問網(wǎng)絡,唯一的網(wǎng)卡就成為系統(tǒng)的瓶頸。此外,PCIe鏈路上的帶寬分配與路徑長度密切相關,長路徑獲得的帶寬分配較低,而跨Socket通信的問題更加嚴重。
網(wǎng)絡架構(gòu)問題主要在于AI訓練中同步通信導致的短板效應。網(wǎng)絡擁塞本是一個非常普遍的問題,擁塞控制也已經(jīng)進行了幾十年的研究。但是,阿里巴巴的研究發(fā)現(xiàn),傳統(tǒng)的擁塞控制算法并不能解決AI訓練集群的通信效率問題。擁塞控制算法的最終目的在于對兩個碰撞的流進行限速,使其盡快達到均分物理帶寬的目的。但由于AI業(yè)務通信的同步性,每個通信事務的最終性能決定于最慢的連接。均分帶寬意味著事務完成時間的成倍提升,嚴重影響AI通信的性能。
3. EFlops關鍵技術(shù)
EFlops系統(tǒng)核心關鍵技術(shù)包括:1)網(wǎng)絡化異構(gòu)計算服務器架構(gòu),2)高擴展性網(wǎng)絡架構(gòu),3)與系統(tǒng)架構(gòu)協(xié)同的高性能通信庫。
3.1 EFlops硬件架構(gòu)