出乎意料,在金山云攜手英特爾推出的“AI as a Service”新解決方案中,提供硬件平臺的,不是英特爾而是金山云;負(fù)責(zé)軟件優(yōu)化的,也不是金山云卻是英特爾。
造成這樣“軟硬角色”固化的,是賽揚(yáng)、酷睿、至強(qiáng)等一系列硬件產(chǎn)品的強(qiáng)大,使我們未曾注意到,原來英特爾有一個(gè)超過15000人的軟件工程師團(tuán)隊(duì)。同樣,對并不了解云計(jì)算市場的人士,金山也只是一家軟件公司而已。殊不知,其集團(tuán)旗下的金山云,早已躋身中國公有云市場前三甲。
從云計(jì)算的發(fā)展成熟到如今AI興起,金山云與英特爾一直保持著緊密合作。面對當(dāng)下企業(yè)的“AI應(yīng)用熱、AI應(yīng)用難”現(xiàn)象,雙方則通過將IaaS層的基礎(chǔ)設(shè)施與優(yōu)化版的TensorFlow和Caffe框架組合,提供了“AI as a Service”新型有效的解決方案,不僅有效提高了運(yùn)行效率,還在升級服務(wù)的同時(shí)降低成本,實(shí)現(xiàn)資源的優(yōu)化配置。而AI as a Service新解決方案的出現(xiàn)也絕非偶然……
千變?nèi)f化的市場需求
毫無疑問,人工智能的火熱,使得企業(yè)要么已經(jīng)部署了AI,要么在趕往AI的部署之路上,英特爾與金山云也不斷從各自擅長的層面滿足著企業(yè)日益增長的AI需求。
從至強(qiáng)E5系列到至強(qiáng)可擴(kuò)展再到最新的二代至強(qiáng)可擴(kuò)展處理器,英特爾所提供的數(shù)據(jù)中心級處理器除主頻、核數(shù)的提高外,同時(shí)引入AVX-512、VNNI加速指令集、DAAL、nGraph等庫組件或編譯器,從軟件角度提升深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等高密度計(jì)算負(fù)載時(shí)所需的單精度浮點(diǎn)數(shù)能力。
金山云則借助這些不斷升級的數(shù)據(jù)中心級處理器,與內(nèi)存、網(wǎng)絡(luò)等模塊適配、結(jié)合、優(yōu)化,提升整體架構(gòu)的穩(wěn)定性及性能,為用戶提供更加適用AI場景的云主機(jī)平臺。
此外,在AI場景上,英特爾所做的軟件工作,除對底層指令集、庫組件及編譯器的優(yōu)化外,同時(shí)也優(yōu)化了對TensorFlow、Caffe、MXNet等深度學(xué)習(xí)開源框架的支持,通過借助MKL-DNN核心數(shù)學(xué)加速庫技術(shù),充分調(diào)用AVX-512指令集,以支持該場景下較為普遍的計(jì)算機(jī)視覺、語音識別、自然語言處理等應(yīng)用。
不難發(fā)現(xiàn),從底層云平臺設(shè)施到開源框架優(yōu)化,金山云與英特爾其實(shí)已為AI場景提供了有效支撐,但在“AI as a Service”新解決方案推出之前,服務(wù)器租用,這一系列工作卻沒能完全滿足用戶日益多樣化的需求。
從用戶角度而言,盡管各行各業(yè)大大小小的公司都在應(yīng)用AI,但即便是互聯(lián)網(wǎng)公司,在部署金山云的硬件平臺后,由于并不具備相應(yīng)的深度框架優(yōu)化能力,平臺的性能并不能得到充分發(fā)揮。據(jù)英特爾相關(guān)技術(shù)人員介紹,“我們此前也遇到過一些互聯(lián)網(wǎng)公司,做人臉識別,雖然也是在至強(qiáng)可擴(kuò)展處理上作部署,用了Caffe,但實(shí)際獲得的性能并不理想”。“而基于我們與金山云長期在業(yè)務(wù)上實(shí)際的交流以及針對實(shí)際案例做調(diào)優(yōu)積累的經(jīng)驗(yàn),我們可以合力幫助客戶在金山云的云主機(jī)上針對深度學(xué)習(xí)的框架進(jìn)行創(chuàng)新與調(diào)優(yōu)。”
而這,也是困擾金山云的問題。“客戶以前買我們的云主機(jī)拿去做計(jì)算,會反映CPU使用沒有達(dá)到預(yù)期,但再怎么加壓也跑不上去了,繼而直觀判斷整個(gè)云主機(jī)的處理能力已經(jīng)達(dá)到上限了”,金山云計(jì)算研發(fā)總監(jiān)楊峰說。在這樣的情況下,企業(yè)若想完成整個(gè)模型的學(xué)習(xí)或訓(xùn)練,只能部署更多的機(jī)器,或者,尋求英特爾提供框架優(yōu)化上的幫助。
對英特爾而言,由于金山云客戶眾多,針對每一個(gè)客戶安裝優(yōu)化過的TensorFlow和Caffe,對其技術(shù)人員也是一項(xiàng)挑戰(zhàn)。
1+1>2的“黃金”解決方案
“既然金山云有主機(jī),英特爾有優(yōu)化過的開源框架,何不將這些優(yōu)化預(yù)置在云主機(jī)上,做一套固定的實(shí)例解決用戶的問題呢?”英特爾提出。這一方案很快被金山云認(rèn)可,雙方一拍即合。這,便是“AI as a Service”新解決方案。
在實(shí)質(zhì)上,英特爾與金山云將該方案定位為IaaS增強(qiáng)型服務(wù)。相比傳統(tǒng)IaaS,該方案在計(jì)算、內(nèi)存、網(wǎng)絡(luò)基礎(chǔ)設(shè)施上增加了框架層,同時(shí)又沒有PaaS層過多的API、SDK接口封裝。這使得企業(yè)在做AI應(yīng)用時(shí)無需關(guān)注底層設(shè)施與框架的部署,云主機(jī)租用,將更多資源、精力投入業(yè)務(wù)場景,同時(shí)可在優(yōu)化好的TensorFlow和Caffe上根據(jù)自身需求靈活開發(fā)。
而這樣的解決方案,使得企業(yè)AI應(yīng)用的性能、成本、效率及體驗(yàn)獲得全方位提升。這樣帶來的效果則是:業(yè)務(wù)處理性能并非簡單的線性增長,而是2倍、3倍,甚至10倍、20倍的提升。 “這意味著跑相同模型,此前可能需要10臺、20臺主機(jī)才能完成的工作,在同樣的時(shí)間下僅需要1臺即可,性能的大幅提升自然意味著成本的縮減。”