欧美三级午夜理伦三级小说 ,欧美精品xxxxbbbb,亚洲一区精彩视频

2月22日-26日，計算機體系結構頂級會議HPCA 2020在美國加州圣地亞哥召開。

作為國內唯一有論文收錄的企業，阿里巴巴此次有兩篇論文入選，其中一篇名為《EFLOPS: Algorithm and System Co-design for a High Performance Distributed Training Platform》，該論文介紹了阿里巴巴的高性能AI集群的節點架構、網絡架構、和通信算法，并展示了EFLOPS集群為阿里巴巴內部業務和算法帶來的價值。論文第一作者、阿里巴巴高級技術專家董建波對此做了詳細解讀。

論文作者之一，阿里巴巴資深技術專家蔣曉維在會議現場分享

　1. 摘要

人工智能(Artificial Intelligence)已經被廣泛應用在阿里巴巴集團內部的各個業務，包括：搜素推薦、智能翻譯、預測服務、城市大腦、自動駕駛等。隨著AI業務和算法的持續演進，神經網絡的模型規模和訓練數據集容量急劇增加，不斷挑戰底層訓練平臺的算力極限。大規模高性能AI集群可以為算法模型的訓練提供了有力的算力支撐，保證業務算法的先進性。但由于AI業務的特征差異和傳統數據中心架構的局限，大規模AI訓練集群的擴展性非常差。隨著訓練集群規模的增長，新增資源在傳統數據中心架構下所獲得的性能收益不斷降低，成本收益顯著下降。

為解決這一問題，阿里巴巴進行了高性能AI訓練集群EFlops的研發，通過算法架構的協同設計，通信算法的效率達到理論上限，實現了集群規模的近線性擴展。通過和拍立淘團隊合作在EFlops系統上，將拍立淘百萬分類大模型的訓練速度提升4倍，并首次支持千萬分類模型的訓練;與阿里巴巴機器翻譯團隊合作，提升阿里巴巴翻譯模型精度的同時，將訓練時間從100小時降低至12小時。

EFlops架構的集群系統已應用于阿里巴巴計算平臺的人工智能訓練平臺(PAI)，服務阿里巴巴的人工智能業務的模型訓練，大幅縮短業務模型迭代周期，達到了預期的性能和成本收益，此次論文被收錄標志著阿里巴巴在AI基礎設施設計領域進入了世界領先水平。

2. 背景

由于深度神經網絡的技術突破， AI業務已廣泛應用于社會生活的方方面面。圍繞AI的技術研究也引起了越來越多的關注，包括AI算法模型、訓練框架、以及底層的加速器設計等。然而極少有人從集群架構角度探究過，AI業務的運行模式與傳統大數據處理業務的差別，以及AI集群的架構設計應該如何優化。

阿里巴巴的研究人員率先對AI業務的運行模式進行了分析，并對AI訓練集群的架構設計進行了定制優化，使AI訓練業務的訓練效率成倍提升。雖然AI業務也存在很強的數據并行度，但與大數據處理業務和高性能計算業務特征存在明顯的不同。其核心差別在于：1)AI業務的子任務獨立性很低，需要周期性地進行通信，實現梯度的同步;2)AI業務的運行以加速部件為中心，加速部件之間直接通信的并發度顯著高于傳統服務器。因此，對AI業務而言，傳統數據中心的服務器架構和網絡架構都存在很多嚴重的問題。ß

服務器架構問題主要為資源配置不平衡導致的擁塞問題，以及PCIe鏈路的QoS問題。傳統服務器一般配備一張網卡用于節點間通信，為了支持AI業務而配置多個GPU。AI訓練經常需要在GPU之間進行梯度的同步，多GPU并發訪問網絡，唯一的網卡就成為系統的瓶頸。此外，PCIe鏈路上的帶寬分配與路徑長度密切相關，長路徑獲得的帶寬分配較低，而跨Socket通信的問題更加嚴重。

網絡架構問題主要在于AI訓練中同步通信導致的短板效應。網絡擁塞本是一個非常普遍的問題，擁塞控制也已經進行了幾十年的研究。但是，阿里巴巴的研究發現，傳統的擁塞控制算法并不能解決AI訓練集群的通信效率問題。擁塞控制算法的最終目的在于對兩個碰撞的流進行限速，使其盡快達到均分物理帶寬的目的。但由于AI業務通信的同步性，每個通信事務的最終性能決定于最慢的連接。均分帶寬意味著事務完成時間的成倍提升，嚴重影響AI通信的性能。

　3. EFlops關鍵技術

EFlops系統核心關鍵技術包括：1)網絡化異構計算服務器架構，2)高擴展性網絡架構，3)與系統架構協同的高性能通信庫。

　3.1 EFlops硬件架構