摘要:通過對數據處理階段性發展的解析,分析大數據、人工智能技術的發展趨勢。結合實際生產需求,驗證了基于容器云架構的新一代大數據與人工智能平臺在數據分析、處理、挖掘等方面的強大優勢。
關鍵詞:大數據 人工智能 云計算 Docker 基礎能力 多租戶
Abstract:Through analyzing the staged development of data processing, this paper analyzes the development trend of big data and AI technology. According to the requirement of customers, the new generation of big data and AI platform based on Docker Cloud verify the powerful advantages in data analysis, processing, mining and so on.
Key Words:Big data; AI; cloud computing; Docker;basic abilities; Multi-tenant
引言
人工智能、大數據與云計算三者有著密不可分的聯系。人工智能從1956年開始發展,歐洲服務器租用 云服務器,在大數據技術出現之前已經發展了數十年,幾起幾落,但當遇到了大數據與分布式技術的發展,解決了計算力和訓練數據量的問題,開始產生巨大的生產價值;同時,大數據技術通過將傳統機器學習算法分布式實現,向人工智能領域延伸;此外,directadmin漢化 虛擬主機,隨著數據不斷匯聚在一個平臺,企業大數據基礎平臺服務各個部門以及分支機構的需求越來越迫切。通過容器技術,在容器云平臺上構建大數據與人工智能基礎公共能力,結合多租戶技術賦能業務部門的方式將人工智能、大數據與云計算進行融合。
數據處理的發展階段
隨著信息技術的蓬勃發展,特別是近十年,移動互聯技術的普及,運營商、泛金融、政府、大型央企、大型國企、能源等領域數據量更是呈現幾何級數的增長趨勢。數據量的膨脹除了帶來了數據處理性能的壓力外,數據種類的多樣性也為數據處理手段提出了新的要求,大量新系統的建設同時產生了眾多數據孤島,給企業的數據運營維護與價值發掘帶來了重大的挑戰。隨著大數據技術的不斷發展,企業的數據處理技術轉型也經歷了幾個階段,如圖1所示。
▲圖1 企業數據處理轉型的階段變化
在第一階段,大數據技術發展的早期,為了打破數據孤島,將各類數據向大數據平臺匯集,形成數據湖的概念,作為多源、異構的數據的數據歸集,在此基礎上進行數據標準化,建立企業數據的匯聚中心。在這個階段,對非結構化數據處理以存儲檢索為主,對結構化數據處理提供各類API和少量SQL支持,使海量的以SQL實現為主的業務難以遷移到大數據平臺,新業務開發使用門檻高,大數據技術的推廣受到阻礙。
在第二階段,企業客戶的需求集中表現為,如何更好地處理結構化數據以及將老的IT架構遷移到分布式架構中。各大數據平臺廠商開始在SQL on Hadoop領域進行研發和競爭,不斷提高SQL標準的兼容程度。在這個過程中,Spark誕生并逐漸取代了過于笨重且TB量級計算性能存在缺陷的MapReduce架構,Hadoop技術開始向結構化數據處理分析更深度的應用領域進發。隨著SQL on Hadoop技術的不斷發展與星環科技解決了Hadoop分布式事務的難題,越來越多的客戶在Hadoop上構建新一代數據倉庫,將Hadoop技術應用于越來越多的業務生產場景,技術門檻的降低,使越來越多的客戶可以利用強大的分布式計算能力輕松分析處理海量數據。在這個階段后期,隨著企業客戶對實時數據分析研判需求的不斷提高,流處理技術得以蓬勃發展。
在第三階段,一部分企業已經完成了由基于關系型數據庫為核心的數據處理體系向基于大數據技術為核心的數據處理體系的轉變。在本階段早期,很多企業客戶不滿足于通過SQL基于統計對數據的分析和挖掘,促使傳統的機器學習算法開始實現分布化,但主要還是針對結構化數據的學習挖掘。隨著深度學習技術和分布式技術的碰撞,演化出了新一代的計算框架,如TensorFlow等,計算能力的提升,并結合大量訓練數據,使機器學習人工智能技術在結構化與非結構化數據領域產生巨大威力,開始應用于人臉識別、車輛識別、智能客服、無人駕駛等領域;同時,對傳統機器學習算法產生了巨大沖擊,一定程度上減少了對特征工程與業務領域知識的依賴,降低了機器學習的進入門檻,使人工智能技術得以普及。另一方面,可視化的拖拽頁面、豐富的行業模板、高效率的交互式體驗,極大地降低了數據分析人員的使用門檻,讓人工智能技術進一步走入企業的生產應用。