“我們之所以推出Analytics Zoo這樣的大數據分析和人工智能平臺,就是希望讓用戶在實際的生產環境中可以更方便地構建深度學習應用,將不同的模塊、不同的框架統一到端到端流水線上,從而大幅提升客戶開發部署大數據分析和深度學習的能力。”英特爾高級首席工程師、大數據技術全球CTO戴金權說,已供職英特爾近17年的戴金權如今負責領導英特爾全球(硅谷和上海)工程團隊高級大數據分析的研發工作,以及與全球研究機構(如UC Berkeley AMPLab、RISELab等)的技術合作,是BigDL和Analytics Zoo項目的創始人。
為了幫助客戶在數據的海洋中抓住商業價值,并且讓這一過程通過更加智能化的手段變得簡單易用,英特爾在底層架構和軟件堆棧領域一直在持續投入。在2019全球人工智能技術大會上,戴金權分享了英特爾構建大數據分析+AI平臺背后的思考和實踐,而兩大開源項目BigDL、Analytics Zoo可謂是其中的代表。
BigDL是一個建立在大數據平臺之上原生的分布式深度學習庫,某種程度上類似Tensorflow、Caffe等DL框架,提供了在Apache Spark上豐富的深度學習功能,以幫助Hadoop/Spark成為統一的數據分析平臺,為整個數據分析和機器學習過程提供比現有框架更加集成化的支持。Analytics Zoo則是在Apache Spark、BigDL以及TensorFLow、Keras的基礎上構建的大數據分析+AI平臺,大幅降低用戶開發基于大數據、端到端深度學習應用的門檻。
《連線》雜志創始主編Kevin Kelly曾說:“大數據時代,沒有人能夠成為旁觀者,數據將‘橫掃一切’。”隨著萬物互聯時代的到來,數據對于客戶需求的指導性意義愈發凸顯,如何采集、傳輸、存儲、分析、處理數據成為各行各業攫取數字經濟紅利的必備技能,可以說“數據在哪里,生意就在哪里”。而英特爾所做的事情,就是讓這一切變得簡單高效。“如今深度學習、人工智能的應用場景更加廣泛,要處理的數據也更加復雜,所以要構建端到端的大數據處理分析加上機器學習、深度學習的統一流水線。”戴金權說。
不過要做到這些并不容易,當前的生產系統中基于Apache Spark這樣的大數據集群仍是生產數據和大量硬件資源的聚集地,這樣生產資料和生產工具要通過AI應用串聯起來。同時,工業級的分析平臺需要對數據收集/導入/處理、特征提取、模型訓練、部署、推理等一系列的復雜工作流做出響應,難度可想而知。
從架構角度來看,很多獨立的深度學習框架與大數據平臺的架構存在差異,例如前者對高性能有著格外的要求,后者更注重于橫向擴展,這樣一來就需要在一個通用的大數據平臺上將不同的分布式深度學習系統統一兼容起來。此外,無論是利用Spark還是像Flink這樣的流處理框架,都要將數據處理的流水線和深度學習相互連接,在數十甚至是數千個節點的集群上提升計算效率和可擴展性。
從生產角度來看,像工業大數據在構建數據倉庫時往往會面對高達數百個KPI的流程處理,而且不同企業所面臨的數據類型和需求也是千差萬別,例如有些偏向對圖像或視頻數據的建模、訓練、推理,需要很多的卷積神經網絡優化(CNN),而有些則是時序數據,要收集設備每秒鐘的振動頻率,并對這些數據進行循環神經網絡(RNN)的分析。由此引發出來的兩個挑戰,一是要手動把不同框架整合起來,二是用戶在處理數據時不再是單機環境,而是要在大規模分布式環境、甚至是生產環境中操作。
戴金權談到,無論是阿里云、騰訊云等CSP廠商,還是硬件OEM廠商、軟件提供商,其主要訴求都是希望將深度學習等AI框架和模型應用于數據在生產系統上跑起來,這也是客戶使用Analytics Zoo的一個重要原因,“我們可以幫助用戶將大數據分析+AI應用在端到端的流水線上輕松構建出來,它可以從PC終端運行到集群、生產環境當中,這是我們在底層Analytics Zoo所做的工作。”
端到端的一致性體驗
在Analytics Zoo之下,英特爾集成了豐富的深度學習框架和庫,可以隨時調用OpenVINO工具包、MKL-DNN等各種深度學習加速指令。同時,英特爾在上層也提供了高級的流水線API用于構建端到端的應用,以及深度學習模型,對圖片、文本、時間序列數據等不同類型的對象提供支持,用戶可以直接將內嵌的模型嵌入到解決方案中。