隨著海量數據存儲和處理技術的發展,數據的價值將進一步凸顯,銀行自身要用好數據,基于客戶賬戶數據進行客戶畫像,預測客戶潛在需求,推出有競爭力的產品,根據客戶消費數據,結合場景進行智能推薦,并進行風險預測和干預,提升盈利水平,作為金融數據服務提供方,要能在合規的前提下提供高質量的數據服務,打造場景化的金融生態體系。
云時代背景下,大數據(Big Data)吸引了越來越多的關注,數據中蘊藏著豐富的價值,通過提升數據管理和處理能力,應對數據急速增長的挑戰,更多、更好地挖掘數據的內在關系并加以應用,成了金融業發展共同的目標。
隨著業務發展和公司治理要求的不斷提高,各類應用系統產生的數據量急速增加。據初步統計,目前行內各應用系統每年產生的非結構化數據已經超過1PB,結構化數據也以百TB計,加之已歸檔的歷史數據,總數據量已經需要以PB為單位計算。
大數據的特點可歸納為“4V”。數據體量大,數據類型繁多,價值密度低,云主機租用,處理速度快。當前的軟硬件環境,在爆炸式增長的業務和管理數據面前,凸顯出了若干問題,包括數據存儲成本高、橫向擴展能力欠缺、大規模數據分析性能較差、歷史數據難以有效利用等。數據的急劇增長和類型復雜迫切需要快速且有效的處理技術,而以Spark、HBase、Kafka等為代表的Hadoop生態系統則是大數據處理領域的利器。
當金融業遇到大數據技術,能帶來什么點石成金的效果,可從幾個典型的應用場景中見到。
一是海量金融數據的存儲與管理,交易渠道的多樣化帶來明細類結構化數據的快速增長,“雙錄”等監管類要求使影像、圖片、電子憑證等非結構化數據也呈井噴之勢,傳統的數據庫、內容庫等技術因擴展性不高而應對乏力。Hadoop的分布式架構特點為應用提供海量數據管理方面的核心能力,包括結構化數據或半結構化數據的存儲、查詢等,在一定程度上替代傳統關系型數據庫的功能;非結構化數據的存儲和管理,在一定程度上替代傳統文件系統的功能;結構化數據、半結構化數據或非結構化數據的統計、分析、挖掘能力,可基于此構建數據倉庫或數據集市,形成互聯網銀行業務拓展的數據支撐,完成多格式文件隨機存取管理、海量數據統計、分析等多種場景的應用實踐。
二是客戶畫像與精準營銷。金融業面對的客戶群體數量眾多,需要快速識別目標客戶,推出有競爭力的金融產品并進行精準化營銷,依托大數據技術的客戶畫像正是實現該目標的利器,其核心是對客戶屬性的標簽化。
三是交易監控與實時風險識別。金融業競爭中,保證實時性也就保證了競爭的優勢地位,要做到交易快速響應,在用戶無感知的情況下,完成風險識別等操作,既確保交易的安全性,又不影響客戶體驗。
四是多維分析與商業智能。
五是基于內容的業務知識智能檢索。通過對于用戶輸入的關鍵字等內容與海量檢索對象進行相似度匹配,并依據相關性高低進行排序,返回用戶最可能需要的內容,并基于用戶反饋及時調整檢索結果,保證檢索的有效性。
六是歷史交易明細實時查詢。隨著互聯網金融的發展,交易的頻度和復雜性也隨之快速增長,域名注冊,交易數據源源不斷產生,如何提供高質量的數據查詢服務,滿足客戶全天候、場景化且實時性的數據訪問需求,成了數據管理的核心命題。
業務交易數據產生于各自的交易系統(如核心系統),并通過交易系統提供當日數據的查詢服務。采用Hadoop集群進行歷史數據存儲,歷史交易數據通過數據交換平臺獲取,通過批量方式每日執行數據導入,數據導入過程支持數據校驗和異常數據清洗,清洗處理后的交易數據采用實時數據庫HBase作為存儲容器,保存業務系統歷史交易數據。對外提供了交易數據統一查詢服務,覆蓋交易系統中的當日交易數據和HBase中的歷史交易數據,對終端用戶提供統一的數據訪問視圖。
基于以上這些典型應用場景,依托大數據技術可實現風險實時管控、產品精準營銷、支持商業智能決策分析、海量知識快速檢索,更好地讓數據服務業務發展。目前,農行正在逐步構建從采集、存儲、分析、展現到應用的全流程數據服務體系,而在打造全行數據平臺的過程中,還需要著重關注以下問題:
第一,價值驅動,架構先行。數據的存儲和管理是手段,目標是獲取數據的價值。一切對于數據的管理均應基于其價值,對于價值密度高的賬戶類、交易類數據,不僅要管理好,還要利用好,建立數據間的關聯,挖掘潛在的價值。對于數據中臺的建設,要堅持架構先行,確立整體數據架構,通過數據治理等手段,加強數據模型的統籌管理,提升數據質量,并結合服務接口管控,提升數據服務能力,逐步實施架構演進,打造數據領域的開放平臺。