為什么深度學(xué)習(xí)會是計算機的“殺手級應(yīng)用”? IBM是怎么找到分布式計算來加快大數(shù)據(jù)人工智能工作負載處理速度的?
總的來說,這聽起來足夠簡單:你有一臺大型快速服務(wù)器在處理人工智能相關(guān)的大數(shù)據(jù)工作負載。然后需求變了,更多數(shù)據(jù)需要添加進來才能在一定時限內(nèi)完成任務(wù)。邏輯上講,你需要做的,就是添加更多的處理能力而已。
然而,就像流行表情包里說的一樣:“臣妾做不到啊!”
沒錯,直到今天,添加更多的服務(wù)器是解決不了這個問題的。迄今為止的深度學(xué)習(xí)分析系統(tǒng),都只能運行在單臺服務(wù)器上;用例僅僅是不能通過添加更多服務(wù)器來擴展而已,這背后有些深層次的原因。
但是,現(xiàn)在,這一切都成為了歷史。8月8日,IBM宣稱,已找到新的分布式深度學(xué)習(xí)軟件開發(fā)路線,不久之后深度學(xué)習(xí)負載分布式處理不再是夢。這很有可能是至少最近10年來,人工智能計算領(lǐng)域里跨越最大的一步。
聯(lián)網(wǎng)服務(wù)器搞定AI任務(wù)聽起來簡單,但事實并非如此
僅僅能夠聯(lián)網(wǎng)一組服務(wù)器使之協(xié)調(diào)工作解決單個問題,IBM Research 就已然發(fā)現(xiàn)了讓大規(guī)模深度學(xué)習(xí)更為實際的里程碑:如IBM最初的結(jié)果中證明的,用數(shù)百萬張照片、圖片甚至醫(yī)學(xué)影像,以及通過增加速度和大幅提升圖像識別準(zhǔn)確率,來訓(xùn)練AI模型。
同樣是在8月8號,IBM發(fā)布了其 Power AI 軟件貝塔版,供認知和AI開發(fā)者打造更準(zhǔn)確的AI模型,發(fā)展更好的預(yù)測。該軟件將有助于縮短AI模型訓(xùn)練時間,可從數(shù)天乃至數(shù)周,縮短至數(shù)小時。
到底是什么讓深度學(xué)習(xí)處理如此耗時?首先,數(shù)據(jù)量非常龐大,往往涉及很多GB或TB數(shù)據(jù)。其次,能夠梳理這些信息的軟件現(xiàn)在才針對這類工作負載進行了優(yōu)化。
很多人現(xiàn)在都沒搞清楚的一件事是,深度學(xué)習(xí)與機器學(xué)習(xí)、人工智能和認知智能到底哪里不一樣?
深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集
IBM高性能計算與數(shù)據(jù)分析認知系統(tǒng)副總裁薩米特·古普塔稱:“深度學(xué)習(xí)被認為是機器學(xué)習(xí)的一個子集,或者說一種特別的方法。”
我常舉的一個深度學(xué)習(xí)的例子是:我們在教小孩認貓貓狗狗時,會給他們展示很多狗狗的圖片,然后有一天小孩子就會說“狗”了。但是小孩子并沒有認清狗狗有4條腿和一條尾巴的事實,其他一些細節(jié)也沒認識到;小孩子就是在實際整體感知一條狗狗。這與傳統(tǒng)計算機模型那種“如果……否則……”的條件邏輯迥然不同。深度學(xué)習(xí)試圖模仿這種整體認知,所用方法就是所謂的神經(jīng)網(wǎng)絡(luò)。
深度學(xué)習(xí)的問題在于,計算量太過龐大,高通信開銷一直是其最大的挑戰(zhàn)。
這就是計算機終結(jié)者,實實在在的“殺手App”。我們已經(jīng)在用GPU(圖形處理單元)加速器來加快深度學(xué)習(xí)訓(xùn)練了。我們所做的,就是向這些計算機模型饋送數(shù)百萬的圖片,但之后我們需要在帶強力GPU的計算機上訓(xùn)練它們,為記錄和理解這些圖像涉及的東西。
大多數(shù)深度學(xué)習(xí)框架可擴展到一臺服務(wù)器上的多個GPU,但不能延伸至多臺帶GPU的服務(wù)器。于是,我們的團隊編寫了軟件和算法,自動化并優(yōu)化了該超大復(fù)雜計算任務(wù)的并行計算,使之能跨數(shù)十臺服務(wù)器上的數(shù)百個GPU加速器并行執(zhí)行。這很難!
IBM發(fā)現(xiàn)“理想擴展”
IBM Research 提交了近乎理想的擴展方式。在64臺 IBM Power 系統(tǒng)的256個GPU上部署的開源Caffe深度學(xué)習(xí)框架中,其新分布式深度學(xué)習(xí)軟件,達到了歷史新低的通信量,以及95%的擴展效率。
IBM研究員Hillery Hunter開發(fā)的可驅(qū)動多個GPU的新軟件
上一個最佳擴展,是 Facebook AI Research 在Caffe2上執(zhí)行的訓(xùn)練中展現(xiàn)出來的89%,且其通信量更高。采用該軟件,IBM Research 在超大數(shù)據(jù)集(750萬張圖像)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),達到了33.8%的圖像識別準(zhǔn)確率新高。之前的記錄是微軟的29.8%。
IBM Research 分布式深度學(xué)習(xí)代碼的技術(shù)預(yù)覽,可從 IBM PowerAI 4.0 的TensorFlow版和Caffe版獲取。
在ResNet-101深度學(xué)習(xí)模型上,IBM用來自ImageNet-22K數(shù)據(jù)集的750萬圖片,美國網(wǎng)站空間 香港網(wǎng)頁寄存,以批處理大小5120的規(guī)模,證明了其分布式深度學(xué)習(xí)軟件的擴展能力。該團隊采用64臺 IBM Power 服務(wù)器集群,以總共256塊 NVIDIA P100 GPU 加速器,達到了88%的擴展效率,且只有非常低的通信開銷。
分布式深度學(xué)習(xí)前景廣大,可在很多領(lǐng)域形成突破,從消費者移動App體驗到醫(yī)療影像診斷。但大規(guī)模部署深度學(xué)習(xí)的準(zhǔn)確性和實用性上的進展,卻受阻于大規(guī)模深度學(xué)習(xí)AI模型運行上的技術(shù)難題——訓(xùn)練時間以天計,甚至以周計。
分析師怎么說