日前,IBM 公司宣布推出其分布式深度學習軟件的測試版,該軟件證明了在深度學習表現出來的技術飛躍。
深度學習是人工智能的一種形式,它依賴于人工神經網絡的應用。其重點是讓計算機能夠像人們那樣理解數字圖像、視頻、錄音等內容。
然而,由于處理系統“深層次培訓”所需的大量數據的后勤處理可能需要幾天甚至幾周的時間,所以很多潛在的深度學習仍然未能實現。其結果的準確性是導致耗費時間的另一個問題,因為系統需要多次訓練才能獲得預期的結果。每次通過更高的準確度意味著計算機必須“重新訓練”的次數更少,直到它正確為止。
減少時間因素是困難的,因為只需增加更多的計算能力和更快的處理器,而增加更多的處理器不會加快速度。其實恰恰相反:隨著“學習者”處理器數量的增加,計算時間會像預期的那樣減少,但是每個學習者的溝通時間保持不變。換句話說,是學習瓶頸阻礙了發展。
IBM公司在一份研究報告中解釋說:“成功的分布式深度學習需要一個基礎架構,其中硬件和軟件被共同優化,新加坡云主機 香港云主機,以平衡計算需求與通信需求和互連帶寬。”此外,通信延遲在GPU的大規模擴展(100多個)中起著重要的作用。如果這些因素不受控制,分散式深度學習可以快速達到收益遞減的程度。”
這使得最深入的學習項目僅限于單服務器實現。IBM公司日前公布的研究和新軟件也將在這里發揮作用。該公司已經學會了如何加快流程,獲得更準確的結果。
IBM Research系統加速和內存總監Hillery Hunter在一篇博文中表示:“最受歡迎的深度學習框架擴展到服務器中的多個GPU,而不是擴展到具有GPU的多個服務器。具體來說,我們的團隊編寫了軟件和算法,可以自動化并優化這個非常大而復雜的計算任務的并行化,并將數百個GPU加速器連接到數十臺服務器上。”
在對軟件進行測試時,IBM研究人員在部署Caffe深度學習框架時,美國抗攻擊服務器 亞洲服務器,實現了創記錄的通信開銷和95%的擴展效率,該系列集成了64個IBM Power系統,每個系統連接4個NVidia Tesla P100-SXM2 GPU,總共256個處理器。這使得Facebook人工智能研究使用較小的學習模型和數據集展示了以前最佳的89%的擴展比例,從而降低了復雜性。
此外,測試產生了一個識別圖像的神經網絡訓練數據集的750萬個圖像的準確率為33.8%的記錄,打破了微軟公司公布的29.8%的準確性記錄。
Hunter寫道:“IBM研究部門的團隊一直致力于為大數據集減少大型模型的訓練時間。我們的目標是將深入學習訓練的等待時間從數天或數小時縮短到幾分鐘或幾秒鐘,從而提高這些人工智能模型的精確度。為了實現這一目標,我們正在處理在大量服務器和GPU中分布式深度學習的大規模的問題。“
Hunter和她的團隊在加速這一過程中已經取得了很大的成績——只用了七個小時就完成了測試。
“微軟花了10天的時間來訓練同樣的模式,”她提到了以前的行業記錄,“這一成就需要我們創建分布式深度學習代碼和算法來克服擴展這些強大的深度學習框架所固有的問題。”
IBM研究開發的分布式深度學習軟件測試版本或技術預覽,日前已在IBM PowerAI 4.0中開始使用,使開發人員可以使用深入學習培訓人工智能模型實現集群擴展功能。
“我們預計,通過將此DDL功能提供給人工智能社區,我們將會看到更多更高的精度運行,因為其他人利用集群的力量進行人工智能模型的訓練。”Hunter說。