IBM Research 在 arXiv 發(fā)表文章,稱使用新型分布式深度學(xué)習(xí)軟件可達到幾乎完美的擴展效果,該系統(tǒng)在 64 位 IBM Power system 的 256 個英偉達 GPU 上使用 Caffe 深度學(xué)習(xí)框架獲得了破紀錄的通信成本,擴展效率高達 95%。之前的最佳擴展效率是 Facebook AI Research 發(fā)布的 89%,其在 Caffe2 上訓(xùn)練運行,通信成本相對較高。IBM Research 還以 50 分鐘的模型訓(xùn)練時間在時間方面優(yōu)于 Facebook 的模型。使用該系統(tǒng),IBM Research 在大型數(shù)據(jù)集(7.5M 圖像)上利用神經(jīng)網(wǎng)絡(luò)達到新的圖像識別準確率——33.8%。微軟之前發(fā)布的記錄是 29.8%。
深度學(xué)習(xí)是一種廣泛使用的人工智能方法,深圳論壇空間 香港主機,它幫助計算機理解人類用來感知世界的圖像和聲音,并從中抽取意義。該方法有望幫助從消費者手機 app 體驗到醫(yī)療影像診斷的所有領(lǐng)域中實現(xiàn)突破。但是大規(guī)模部署深度學(xué)習(xí)的準確率和可行性受到技術(shù)因素的限制,如訓(xùn)練基于大型復(fù)雜深度學(xué)習(xí)的 AI 模型,該過程的訓(xùn)練時間需要用天或周來衡量。
我在 IBM Research 的團隊一直致力于減少在大數(shù)據(jù)集上訓(xùn)練大型模型的時間。我們的目標是將深度學(xué)習(xí)訓(xùn)練的等待時間從數(shù)天或數(shù)小時縮減至幾分鐘甚至幾秒,并改善這些 AI 模型的準確率。為了達到該目標,我們在大量服務(wù)器和多個英偉達 GPU 的分布式深度學(xué)習(xí)中解決了擴展問題這一巨大挑戰(zhàn)。
最流行的深度學(xué)習(xí)框架可以在一個服務(wù)器的多個 GPU 上擴展,但是無法在具備多個 GPU 的多個服務(wù)器上擴展。具體來說,我們的團隊(Minsik Cho、Uli Finkler、David Kung 以及他們的合作伙伴)寫出的軟件和算法,能夠在數(shù)十個服務(wù)器上的數(shù)百個 GPU 加速器之間自動執(zhí)行和優(yōu)化大型復(fù)雜計算任務(wù)的并行化。
IBM 研究員 Hillery Hunter 用前所未有的 GPU 處理速度開發(fā)新軟件。
我們的軟件可以完全同步地進行深度學(xué)習(xí)訓(xùn)練,并且這種訓(xùn)練只有非常少的通信成本。因此,當(dāng)我們將該系統(tǒng)擴展到有 100 多個英偉達 GPU 的大型計算機集群時,它在 ImageNet-22K 數(shù)據(jù)集上的 7.5M 圖片上識別精度達到了 33.8%,而前面最好的結(jié)果是微軟實現(xiàn)的 29.8%,4% 的性能提升已經(jīng)是十分巨大的進步了,因為以前的精度提升基本上都在 1% 以內(nèi)。我們所提出的分布式深度學(xué)習(xí)(DDL)方法不僅能提升性能,還能在 7 小時內(nèi)訓(xùn)練一個 101 層的殘差網(wǎng)絡(luò),因為它能利用 10 個配備 100 塊英偉達 GPU 的服務(wù)器的計算力。相比之下,微軟可能需要十天的時間來訓(xùn)練相同的模型。這個成就進一步要求我們創(chuàng)建 DDL 代碼和算法,以克服擴展到其他強力深度學(xué)習(xí)框架所遇到的固有問題。
這些結(jié)果都是在為測試深度學(xué)習(xí)算法和系統(tǒng)而構(gòu)建的基準上完成的,所以 33.8% 的驗證精度可能看起來不高,但是它要顯著地高于以前的最優(yōu)結(jié)果。給定任意一張圖片,該系統(tǒng)將會在 22000 個選項中給出最佳的選擇(Top-1 accuracy),并且精度還能達到 33.8%。我們的技術(shù)將幫助其它 AI 模型在具體的任務(wù)上訓(xùn)練,例如醫(yī)療影像中的癌細胞檢測就能變得更加精確,并且訓(xùn)練或再訓(xùn)練都只需要數(shù)小時。
FAIR(Facebook AI Research)六月份發(fā)表的研究論文中描述了這個問題,該論文使用較小的數(shù)據(jù)集(ImageNet 1k)和較小的神經(jīng)網(wǎng)絡(luò)(ResNet 50)解釋了他們杰出的研究成果:
深度學(xué)習(xí)的興起得益于大型神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集。但是,大型網(wǎng)絡(luò)和數(shù)據(jù)集導(dǎo)致了較長的訓(xùn)練時間,這阻礙了研發(fā)的前進步伐。
諷刺的是,這個在多服務(wù)器上策劃和優(yōu)化深度學(xué)習(xí)的問題隨著 GPU 不斷變快,也變得越發(fā)困難了。這一問題在深度學(xué)習(xí)系統(tǒng)中造成了一種功能差距,驅(qū)使著我們創(chuàng)建新型的 DDL 軟件,以使在高性能和高精確度的大規(guī)模神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集上運行流行的開源代碼(比如 Tensorflow、Caffe、Torch 和 Chainer)成為可能。
「盲人摸象」的說法有助于描述我們正在解決的問題和已經(jīng)取得的早期成果的背景。根據(jù)維基百科:
「……每一個盲人只能感受到大象的一部分,比如大象身體的一側(cè)或者象牙。然后他們基于這一片面經(jīng)驗描述大象,這些描述和大象完全不同。」
現(xiàn)在,莫斯科服務(wù)器 新加坡vps,盡管存在初始化差異(initial disagreement),但如果這些人有足夠的時間,他們能夠共享信息,并將其組合成相當(dāng)準確的大象的定義。
相似地,如果你使用多個 GPU 處理深度學(xué)習(xí)在數(shù)天或數(shù)周中的并行訓(xùn)練問題,這也是當(dāng)前的常見情形,你可以相對輕松地將這些學(xué)習(xí)結(jié)果同步化。