隨著互聯網+、人工智能、云計算等新技術不斷涌現與成熟,大數據與各行業深度融合,引發了各種變革。搜索引擎服務、電子商務、社交網絡、在線音視頻、地理信息服務等互聯網應用產生了海量數據,企業如何從海量數據中發掘有價值的數據,將數據標準化、平臺化、智能化、產品化,最終幫助企業進行正確決策,成為企業大數據落地的重點和難點。
“在合法合規的前提下,從海量數據中高效的提取數據的應用價值,是大數據落地的關鍵所在。如果數據量很大,但是無法提取出價值,反而是一種負擔。”聯通大數據有限公司數據科學總監陳博表示。“從落地的角度看,我覺得大數據需要與各行業深度融合。同樣的數據可以用于不同的行業,而如何從數據中形成適合某個行業的應用價值,需要對數據的價值維度與行業的應用場景都有非常深入的認知。”陳博補充說。
站在傳統通信運營商的角度,聯通大數據如何深耕大數據領域?如何讓運營商大數據更好的為行業賦能?值此WOT2019全球人工智能技術峰會之際,陳博接受了51CTO記者的專訪,就運營商大數據應用的話題進行了深入探討。
嘉賓介紹
陳博,博士后,聯通大數據有限公司數據科學團隊負責人,主要負責大數據分析挖掘、機器學習建模、人工智能應用方向的研發工作。陳博于2008年畢業于北京郵電大學,獲得工學博士學位,主要研究方向為機器學習、自然語言處理、信息檢索;畢業后曾先后就職于NEC中國研究院、中國聯通集團總部技術部。
作為通信運營商,中國聯通早在2010年,就提出了數據大集中策略;2012年,開始組建全國數據中心,涵蓋全國所有省份實現了全網數據的統一集中匯聚與管理。目前,聯通大數據公司每天的新增數據量達到150TB以上。
為了能高效的處理如此海量的數據,聯通大數據目前擁有數千節點的集群,每天要運行10萬個以上的處理任務。運維如此大規模數據集群,在業界也是不多見的,對于聯通大數據來說,并沒有太多可以直接借鑒的外部經驗,靠的就是自身建立的一支高效的集群運維管理團隊,進行長期24小時不間斷的監護、優化。在過去一年中,在日增數據量翻倍、集群資源幾乎沒有擴容的情況下,通過從集群文件碎片、冗余數據庫表、RPC任務管理等多方面的持續優化,使集群的整體資源負載反而下降了近30%,從而為上層大數據應用提供了堅實的基礎算力保障。
同時,聯通大數據對所有數據業務的開展都是以完全合法、合規為首要前提,內部有著非常嚴格的安全管理和監控機制,香港服務器,堅持“敏感數據不出門”的原則;對外數據產品與服務更多是基于區域性、群體性的統計分析以及模型加工產生的標簽數據,并且任何數據結果的輸出都需要經過內部安全網關的層層嚴格審核,從而為上層大數據應用提供了可靠的安全合規保障。
在此過程中,聯通大數據在大規模數據集群運維、海量數據資產管理方面積累了大量的實踐經驗,逐步總結形成了一整套完善的運維管理機制,在6月初的大數據產業峰會上獲得了“2019年星河獎——最佳數據資產管理實踐獎”。
構建數智能力,釋放應用價值
面對日增上百TB、總量近百PB的海量數據,如何實現大數據的應用價值,陳博認為“大數據企業首先需要對于自身數據的核心價值維度有明確的認識,進而才能清楚如何建立自身的數據能力體系去釋放數據的應用價值“。圍繞自身的運營商大數據,聯通大數據則定義了行為興趣、位置時序、關系圖譜3大數據價值維度,并相應的構建了3大類數智平臺能力體系,這背后則用到了諸多NLP、搜索引擎、時空序列、圖計算等關鍵技術。
而在數智平臺的每一項能力的構建與應用中,聯通大數據的各種數據架構、數據模型、數據算法需要面對的都是PB級的海量數據,既需要考慮算法模型的準確度、有效性,更需要保證在大規模數據上的可用性、穩定性以及運行效率。典型的例如,從萬億級的信令大數據中通過快速排序、迭代進行基站位置工參糾偏;從萬億級位置時序數據中準實時的進行區域、時段關聯檢索,進而實現線上線下融合洞察推薦;從幾億號卡對應的萬億級信令中發現群體聚合,進而進行黑灰產風險號卡識別;從十億級頂點、數百億關系邊的圖譜中,進行N度關聯群體發掘,進而輔助用于企業經營位置識別等等。這些能力的構建、應用的實現,憑借的則是自身組建的一支涵蓋數據分析、數據建模、AI應用等多方面能力的高素質、高效能的數據科學團隊。