出乎意料,在金山云攜手英特爾推出的“AI as a Service”新解決方案中,提供硬件平臺的,不是英特爾而是金山云;負責軟件優化的,也不是金山云卻是英特爾。
造成這樣“軟硬角色”固化的,是賽揚、酷睿、至強等一系列硬件產品的強大,使我們未曾注意到,原來英特爾有一個超過15000人的軟件工程師團隊。同樣,對并不了解云計算市場的人士,金山也只是一家軟件公司而已。殊不知,其集團旗下的金山云,早已躋身中國公有云市場前三甲。
從云計算的發展成熟到如今AI興起,金山云與英特爾一直保持著緊密合作。面對當下企業的“AI應用熱、AI應用難”現象,雙方則通過將IaaS層的基礎設施與優化版的TensorFlow和Caffe框架組合,提供了“AI as a Service”新型有效的解決方案,不僅有效提高了運行效率,還在升級服務的同時降低成本,實現資源的優化配置。而AI as a Service新解決方案的出現也絕非偶然……
千變萬化的市場需求
毫無疑問,人工智能的火熱,使得企業要么已經部署了AI,要么在趕往AI的部署之路上,英特爾與金山云也不斷從各自擅長的層面滿足著企業日益增長的AI需求。
從至強E5系列到至強可擴展再到最新的二代至強可擴展處理器,英特爾所提供的數據中心級處理器除主頻、核數的提高外,同時引入AVX-512、VNNI加速指令集、DAAL、nGraph等庫組件或編譯器,從軟件角度提升深度學習、機器學習等高密度計算負載時所需的單精度浮點數能力。
金山云則借助這些不斷升級的數據中心級處理器,與內存、網絡等模塊適配、結合、優化,提升整體架構的穩定性及性能,為用戶提供更加適用AI場景的云主機平臺。
此外,在AI場景上,英特爾所做的軟件工作,除對底層指令集、庫組件及編譯器的優化外,同時也優化了對TensorFlow、Caffe、MXNet等深度學習開源框架的支持,通過借助MKL-DNN核心數學加速庫技術,充分調用AVX-512指令集,以支持該場景下較為普遍的計算機視覺、語音識別、自然語言處理等應用。
不難發現,從底層云平臺設施到開源框架優化,金山云與英特爾其實已為AI場景提供了有效支撐,但在“AI as a Service”新解決方案推出之前,服務器租用,這一系列工作卻沒能完全滿足用戶日益多樣化的需求。
從用戶角度而言,盡管各行各業大大小小的公司都在應用AI,但即便是互聯網公司,在部署金山云的硬件平臺后,由于并不具備相應的深度框架優化能力,平臺的性能并不能得到充分發揮。據英特爾相關技術人員介紹,“我們此前也遇到過一些互聯網公司,做人臉識別,雖然也是在至強可擴展處理上作部署,用了Caffe,但實際獲得的性能并不理想”。“而基于我們與金山云長期在業務上實際的交流以及針對實際案例做調優積累的經驗,我們可以合力幫助客戶在金山云的云主機上針對深度學習的框架進行創新與調優。”
而這,也是困擾金山云的問題。“客戶以前買我們的云主機拿去做計算,會反映CPU使用沒有達到預期,但再怎么加壓也跑不上去了,繼而直觀判斷整個云主機的處理能力已經達到上限了”,金山云計算研發總監楊峰說。在這樣的情況下,企業若想完成整個模型的學習或訓練,只能部署更多的機器,或者,尋求英特爾提供框架優化上的幫助。
對英特爾而言,由于金山云客戶眾多,針對每一個客戶安裝優化過的TensorFlow和Caffe,對其技術人員也是一項挑戰。
1+1>2的“黃金”解決方案
“既然金山云有主機,英特爾有優化過的開源框架,何不將這些優化預置在云主機上,做一套固定的實例解決用戶的問題呢?”英特爾提出。這一方案很快被金山云認可,雙方一拍即合。這,便是“AI as a Service”新解決方案。
在實質上,英特爾與金山云將該方案定位為IaaS增強型服務。相比傳統IaaS,該方案在計算、內存、網絡基礎設施上增加了框架層,同時又沒有PaaS層過多的API、SDK接口封裝。這使得企業在做AI應用時無需關注底層設施與框架的部署,云主機租用,將更多資源、精力投入業務場景,同時可在優化好的TensorFlow和Caffe上根據自身需求靈活開發。
而這樣的解決方案,使得企業AI應用的性能、成本、效率及體驗獲得全方位提升。這樣帶來的效果則是:業務處理性能并非簡單的線性增長,而是2倍、3倍,甚至10倍、20倍的提升。 “這意味著跑相同模型,此前可能需要10臺、20臺主機才能完成的工作,在同樣的時間下僅需要1臺即可,性能的大幅提升自然意味著成本的縮減。”