欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

國內(nèi)資訊

突破傳統(tǒng)數(shù)據(jù)中心算力瓶頸,阿里自研AI集群論文入選體系結(jié)構(gòu)頂會HP

2月22日-26日,計算機體系結(jié)構(gòu)頂級會議HPCA 2020在美國加州圣地亞哥召開。

作為國內(nèi)唯一有論文收錄的企業(yè),阿里巴巴此次有兩篇論文入選,其中一篇名為《EFLOPS: Algorithm and System Co-design for a High Performance Distributed Training Platform》,該論文介紹了阿里巴巴的高性能AI集群的節(jié)點架構(gòu)、網(wǎng)絡架構(gòu)、和通信算法,并展示了EFLOPS集群為阿里巴巴內(nèi)部業(yè)務和算法帶來的價值。論文第一作者、阿里巴巴高級技術(shù)專家董建波對此做了詳細解讀。

論文作者之一,阿里巴巴資深技術(shù)專家蔣曉維在會議現(xiàn)場分享

 1. 摘要

人工智能(Artificial Intelligence)已經(jīng)被廣泛應用在阿里巴巴集團內(nèi)部的各個業(yè)務,包括:搜素推薦、智能翻譯、預測服務、城市大腦、自動駕駛等。隨著AI業(yè)務和算法的持續(xù)演進,神經(jīng)網(wǎng)絡的模型規(guī)模和訓練數(shù)據(jù)集容量急劇增加,不斷挑戰(zhàn)底層訓練平臺的算力極限。大規(guī)模高性能AI集群可以為算法模型的訓練提供了有力的算力支撐,保證業(yè)務算法的先進性。但由于AI業(yè)務的特征差異和傳統(tǒng)數(shù)據(jù)中心架構(gòu)的局限,大規(guī)模AI訓練集群的擴展性非常差。隨著訓練集群規(guī)模的增長,新增資源在傳統(tǒng)數(shù)據(jù)中心架構(gòu)下所獲得的性能收益不斷降低,成本收益顯著下降。

為解決這一問題,阿里巴巴進行了高性能AI訓練集群EFlops的研發(fā),通過算法架構(gòu)的協(xié)同設計,通信算法的效率達到理論上限,實現(xiàn)了集群規(guī)模的近線性擴展。通過和拍立淘團隊合作在EFlops系統(tǒng)上,將拍立淘百萬分類大模型的訓練速度提升4倍,并首次支持千萬分類模型的訓練;與阿里巴巴機器翻譯團隊合作,提升阿里巴巴翻譯模型精度的同時,將訓練時間從100小時降低至12小時。

EFlops架構(gòu)的集群系統(tǒng)已應用于阿里巴巴計算平臺的人工智能訓練平臺(PAI),服務阿里巴巴的人工智能業(yè)務的模型訓練,大幅縮短業(yè)務模型迭代周期,達到了預期的性能和成本收益,此次論文被收錄標志著阿里巴巴在AI基礎設施設計領域進入了世界領先水平。

2. 背景

由于深度神經(jīng)網(wǎng)絡的技術(shù)突破, AI業(yè)務已廣泛應用于社會生活的方方面面。圍繞AI的技術(shù)研究也引起了越來越多的關注,包括AI算法模型、訓練框架、以及底層的加速器設計等。然而極少有人從集群架構(gòu)角度探究過,AI業(yè)務的運行模式與傳統(tǒng)大數(shù)據(jù)處理業(yè)務的差別,以及AI集群的架構(gòu)設計應該如何優(yōu)化。

阿里巴巴的研究人員率先對AI業(yè)務的運行模式進行了分析,并對AI訓練集群的架構(gòu)設計進行了定制優(yōu)化,使AI訓練業(yè)務的訓練效率成倍提升。雖然AI業(yè)務也存在很強的數(shù)據(jù)并行度,但與大數(shù)據(jù)處理業(yè)務和高性能計算業(yè)務特征存在明顯的不同。其核心差別在于:1)AI業(yè)務的子任務獨立性很低,需要周期性地進行通信,實現(xiàn)梯度的同步;2)AI業(yè)務的運行以加速部件為中心,加速部件之間直接通信的并發(fā)度顯著高于傳統(tǒng)服務器。因此,對AI業(yè)務而言,傳統(tǒng)數(shù)據(jù)中心的服務器架構(gòu)和網(wǎng)絡架構(gòu)都存在很多嚴重的問題。ß

服務器架構(gòu)問題主要為資源配置不平衡導致的擁塞問題,以及PCIe鏈路的QoS問題。傳統(tǒng)服務器一般配備一張網(wǎng)卡用于節(jié)點間通信,為了支持AI業(yè)務而配置多個GPU。AI訓練經(jīng)常需要在GPU之間進行梯度的同步,多GPU并發(fā)訪問網(wǎng)絡,唯一的網(wǎng)卡就成為系統(tǒng)的瓶頸。此外,PCIe鏈路上的帶寬分配與路徑長度密切相關,長路徑獲得的帶寬分配較低,而跨Socket通信的問題更加嚴重。

網(wǎng)絡架構(gòu)問題主要在于AI訓練中同步通信導致的短板效應。網(wǎng)絡擁塞本是一個非常普遍的問題,擁塞控制也已經(jīng)進行了幾十年的研究。但是,阿里巴巴的研究發(fā)現(xiàn),傳統(tǒng)的擁塞控制算法并不能解決AI訓練集群的通信效率問題。擁塞控制算法的最終目的在于對兩個碰撞的流進行限速,使其盡快達到均分物理帶寬的目的。但由于AI業(yè)務通信的同步性,每個通信事務的最終性能決定于最慢的連接。均分帶寬意味著事務完成時間的成倍提升,嚴重影響AI通信的性能。

 3. EFlops關鍵技術(shù)

EFlops系統(tǒng)核心關鍵技術(shù)包括:1)網(wǎng)絡化異構(gòu)計算服務器架構(gòu),2)高擴展性網(wǎng)絡架構(gòu),3)與系統(tǒng)架構(gòu)協(xié)同的高性能通信庫。

 3.1 EFlops硬件架構(gòu)

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 浦北县| 临泽县| 克什克腾旗| 二连浩特市| 澎湖县| 兰州市| 镇巴县| 板桥市| 江北区| 庐江县| 宣武区| 洱源县| 保靖县| 深水埗区| 玉溪市| 黑河市| 西林县| 台北市| 博罗县| 东阳市| 湖州市| 尼玛县| 怀来县| 偃师市| 漯河市| 江门市| 赣州市| 郓城县| 南通市| 冷水江市| 新乡县| 木兰县| 孟州市| 晋州市| 聂荣县| 奉节县| 徐汇区| 甘孜县| 霍邱县| 湄潭县| 桐乡市|