黑人极品ⅴideos精品欧美棵,国产精品久久久久aaaa,牛牛精品视频在线

IBM Research 在 arXiv 發(fā)表文章，稱使用新型分布式深度學(xué)習(xí)軟件可達到幾乎完美的擴展效果，該系統(tǒng)在 64 位 IBM Power system 的 256 個英偉達 GPU 上使用 Caffe 深度學(xué)習(xí)框架獲得了破紀錄的通信成本，擴展效率高達 95%。之前的最佳擴展效率是 Facebook AI Research 發(fā)布的 89%，其在 Caffe2 上訓(xùn)練運行，通信成本相對較高。IBM Research 還以 50 分鐘的模型訓(xùn)練時間在時間方面優(yōu)于 Facebook 的模型。使用該系統(tǒng)，IBM Research 在大型數(shù)據(jù)集（7.5M 圖像）上利用神經(jīng)網(wǎng)絡(luò)達到新的圖像識別準確率——33.8%。微軟之前發(fā)布的記錄是 29.8%。

深度學(xué)習(xí)是一種廣泛使用的人工智能方法，深圳論壇空間香港主機，它幫助計算機理解人類用來感知世界的圖像和聲音，并從中抽取意義。該方法有望幫助從消費者手機 app 體驗到醫(yī)療影像診斷的所有領(lǐng)域中實現(xiàn)突破。但是大規(guī)模部署深度學(xué)習(xí)的準確率和可行性受到技術(shù)因素的限制，如訓(xùn)練基于大型復(fù)雜深度學(xué)習(xí)的 AI 模型，該過程的訓(xùn)練時間需要用天或周來衡量。

我在 IBM Research 的團隊一直致力于減少在大數(shù)據(jù)集上訓(xùn)練大型模型的時間。我們的目標是將深度學(xué)習(xí)訓(xùn)練的等待時間從數(shù)天或數(shù)小時縮減至幾分鐘甚至幾秒，并改善這些 AI 模型的準確率。為了達到該目標，我們在大量服務(wù)器和多個英偉達 GPU 的分布式深度學(xué)習(xí)中解決了擴展問題這一巨大挑戰(zhàn)。

最流行的深度學(xué)習(xí)框架可以在一個服務(wù)器的多個 GPU 上擴展，但是無法在具備多個 GPU 的多個服務(wù)器上擴展。具體來說，我們的團隊（Minsik Cho、Uli Finkler、David Kung 以及他們的合作伙伴）寫出的軟件和算法，能夠在數(shù)十個服務(wù)器上的數(shù)百個 GPU 加速器之間自動執(zhí)行和優(yōu)化大型復(fù)雜計算任務(wù)的并行化。

IBM發(fā)布新型分布式深度學(xué)習(xí)系統(tǒng)：結(jié)合軟硬件實現(xiàn)當(dāng)前最優(yōu)性能

IBM 研究員 Hillery Hunter 用前所未有的 GPU 處理速度開發(fā)新軟件。

我們的軟件可以完全同步地進行深度學(xué)習(xí)訓(xùn)練，并且這種訓(xùn)練只有非常少的通信成本。因此，當(dāng)我們將該系統(tǒng)擴展到有 100 多個英偉達 GPU 的大型計算機集群時，它在 ImageNet-22K 數(shù)據(jù)集上的 7.5M 圖片上識別精度達到了 33.8%，而前面最好的結(jié)果是微軟實現(xiàn)的 29.8%，4% 的性能提升已經(jīng)是十分巨大的進步了，因為以前的精度提升基本上都在 1% 以內(nèi)。我們所提出的分布式深度學(xué)習(xí)（DDL）方法不僅能提升性能，還能在 7 小時內(nèi)訓(xùn)練一個 101 層的殘差網(wǎng)絡(luò)，因為它能利用 10 個配備 100 塊英偉達 GPU 的服務(wù)器的計算力。相比之下，微軟可能需要十天的時間來訓(xùn)練相同的模型。這個成就進一步要求我們創(chuàng)建 DDL 代碼和算法，以克服擴展到其他強力深度學(xué)習(xí)框架所遇到的固有問題。

這些結(jié)果都是在為測試深度學(xué)習(xí)算法和系統(tǒng)而構(gòu)建的基準上完成的，所以 33.8% 的驗證精度可能看起來不高，但是它要顯著地高于以前的最優(yōu)結(jié)果。給定任意一張圖片，該系統(tǒng)將會在 22000 個選項中給出最佳的選擇（Top-1 accuracy），并且精度還能達到 33.8%。我們的技術(shù)將幫助其它 AI 模型在具體的任務(wù)上訓(xùn)練，例如醫(yī)療影像中的癌細胞檢測就能變得更加精確，并且訓(xùn)練或再訓(xùn)練都只需要數(shù)小時。

IBM發(fā)布新型分布式深度學(xué)習(xí)系統(tǒng)：結(jié)合軟硬件實現(xiàn)當(dāng)前最優(yōu)性能

FAIR（Facebook AI Research）六月份發(fā)表的研究論文中描述了這個問題，該論文使用較小的數(shù)據(jù)集（ImageNet 1k）和較小的神經(jīng)網(wǎng)絡(luò)（ResNet 50）解釋了他們杰出的研究成果：

深度學(xué)習(xí)的興起得益于大型神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集。但是，大型網(wǎng)絡(luò)和數(shù)據(jù)集導(dǎo)致了較長的訓(xùn)練時間，這阻礙了研發(fā)的前進步伐。

諷刺的是，這個在多服務(wù)器上策劃和優(yōu)化深度學(xué)習(xí)的問題隨著 GPU 不斷變快，也變得越發(fā)困難了。這一問題在深度學(xué)習(xí)系統(tǒng)中造成了一種功能差距，驅(qū)使著我們創(chuàng)建新型的 DDL 軟件，以使在高性能和高精確度的大規(guī)模神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集上運行流行的開源代碼（比如 Tensorflow、Caffe、Torch 和 Chainer）成為可能。

「盲人摸象」的說法有助于描述我們正在解決的問題和已經(jīng)取得的早期成果的背景。根據(jù)維基百科：

「……每一個盲人只能感受到大象的一部分，比如大象身體的一側(cè)或者象牙。然后他們基于這一片面經(jīng)驗描述大象，這些描述和大象完全不同。」

現(xiàn)在，莫斯科服務(wù)器新加坡vps，盡管存在初始化差異（initial disagreement），但如果這些人有足夠的時間，他們能夠共享信息，并將其組合成相當(dāng)準確的大象的定義。

相似地，如果你使用多個 GPU 處理深度學(xué)習(xí)在數(shù)天或數(shù)周中的并行訓(xùn)練問題，這也是當(dāng)前的常見情形，你可以相對輕松地將這些學(xué)習(xí)結(jié)果同步化。