IBM Research 在 arXiv 發表文章,稱使用新型分布式深度學習軟件可達到幾乎完美的擴展效果,該系統在 64 位 IBM Power system 的 256 個英偉達 GPU 上使用 Caffe 深度學習框架獲得了破紀錄的通信成本,擴展效率高達 95%。之前的最佳擴展效率是 Facebook AI Research 發布的 89%,其在 Caffe2 上訓練運行,通信成本相對較高。IBM Research 還以 50 分鐘的模型訓練時間在時間方面優于 Facebook 的模型。使用該系統,IBM Research 在大型數據集(7.5M 圖像)上利用神經網絡達到新的圖像識別準確率——33.8%。微軟之前發布的記錄是 29.8%。
深度學習是一種廣泛使用的人工智能方法,深圳論壇空間 香港主機,它幫助計算機理解人類用來感知世界的圖像和聲音,并從中抽取意義。該方法有望幫助從消費者手機 app 體驗到醫療影像診斷的所有領域中實現突破。但是大規模部署深度學習的準確率和可行性受到技術因素的限制,如訓練基于大型復雜深度學習的 AI 模型,該過程的訓練時間需要用天或周來衡量。
我在 IBM Research 的團隊一直致力于減少在大數據集上訓練大型模型的時間。我們的目標是將深度學習訓練的等待時間從數天或數小時縮減至幾分鐘甚至幾秒,并改善這些 AI 模型的準確率。為了達到該目標,我們在大量服務器和多個英偉達 GPU 的分布式深度學習中解決了擴展問題這一巨大挑戰。
最流行的深度學習框架可以在一個服務器的多個 GPU 上擴展,但是無法在具備多個 GPU 的多個服務器上擴展。具體來說,我們的團隊(Minsik Cho、Uli Finkler、David Kung 以及他們的合作伙伴)寫出的軟件和算法,能夠在數十個服務器上的數百個 GPU 加速器之間自動執行和優化大型復雜計算任務的并行化。
IBM 研究員 Hillery Hunter 用前所未有的 GPU 處理速度開發新軟件。
我們的軟件可以完全同步地進行深度學習訓練,并且這種訓練只有非常少的通信成本。因此,當我們將該系統擴展到有 100 多個英偉達 GPU 的大型計算機集群時,它在 ImageNet-22K 數據集上的 7.5M 圖片上識別精度達到了 33.8%,而前面最好的結果是微軟實現的 29.8%,4% 的性能提升已經是十分巨大的進步了,因為以前的精度提升基本上都在 1% 以內。我們所提出的分布式深度學習(DDL)方法不僅能提升性能,還能在 7 小時內訓練一個 101 層的殘差網絡,因為它能利用 10 個配備 100 塊英偉達 GPU 的服務器的計算力。相比之下,微軟可能需要十天的時間來訓練相同的模型。這個成就進一步要求我們創建 DDL 代碼和算法,以克服擴展到其他強力深度學習框架所遇到的固有問題。
這些結果都是在為測試深度學習算法和系統而構建的基準上完成的,所以 33.8% 的驗證精度可能看起來不高,但是它要顯著地高于以前的最優結果。給定任意一張圖片,該系統將會在 22000 個選項中給出最佳的選擇(Top-1 accuracy),并且精度還能達到 33.8%。我們的技術將幫助其它 AI 模型在具體的任務上訓練,例如醫療影像中的癌細胞檢測就能變得更加精確,并且訓練或再訓練都只需要數小時。
FAIR(Facebook AI Research)六月份發表的研究論文中描述了這個問題,該論文使用較小的數據集(ImageNet 1k)和較小的神經網絡(ResNet 50)解釋了他們杰出的研究成果:
深度學習的興起得益于大型神經網絡和數據集。但是,大型網絡和數據集導致了較長的訓練時間,這阻礙了研發的前進步伐。
諷刺的是,這個在多服務器上策劃和優化深度學習的問題隨著 GPU 不斷變快,也變得越發困難了。這一問題在深度學習系統中造成了一種功能差距,驅使著我們創建新型的 DDL 軟件,以使在高性能和高精確度的大規模神經網絡和數據集上運行流行的開源代碼(比如 Tensorflow、Caffe、Torch 和 Chainer)成為可能。
「盲人摸象」的說法有助于描述我們正在解決的問題和已經取得的早期成果的背景。根據維基百科:
「……每一個盲人只能感受到大象的一部分,比如大象身體的一側或者象牙。然后他們基于這一片面經驗描述大象,這些描述和大象完全不同。」
現在,莫斯科服務器 新加坡vps,盡管存在初始化差異(initial disagreement),但如果這些人有足夠的時間,他們能夠共享信息,并將其組合成相當準確的大象的定義。
相似地,如果你使用多個 GPU 處理深度學習在數天或數周中的并行訓練問題,這也是當前的常見情形,你可以相對輕松地將這些學習結果同步化。