(2)基于分布式內存的并行計算
基于“流立方”流式大數據實時處理技術,研發了“流立方”流式大數據實時處理平臺。其應用框架如圖1所示,具有良好的靈活性和適應性。平臺的數據裝載模塊負責從具體業務系統中接入實時流數據,數據抽取模塊負責批量抽取歷史數據,模型裝載模塊負責將分析處理模型集中的計算模型和腳本加載到平臺中。當收到業務系統發出的實時查詢請求時,“流立方”平臺能夠根據分析處理模型在完整大數據集上實時計算出相應的指標,并進行判斷,將結果反饋給業務系統。
基于“流立方”的金融風控反欺詐技術體系包含技術(如設備指紋、代理偵測、生物識別、關聯分析、機器學習等技術)、知識(如盜卡反欺詐、偽卡反欺詐、信用卡套現、營銷反欺詐等規則與模型)、數據(如虛假手機數據、代理IP數據、P2P失信數據等標識數據)三大板塊。技術部分中的設備指紋技術通過主被動混合的形式采集設備中軟硬相關要素,結合概率論等算法為每一個設備頒發一個全球唯一的指紋編碼,這些指紋編碼在反欺詐的整個過程中起到非常積極的作用;代理偵測技術通過短時間內掃描IP相關端口來識別那些開啟代理的IP,并在這些IP訪問金融服務時進行識別;生物識別技術通過采集設備上用戶的鼠標點擊、觸摸、鍵盤敲擊等行為識別操作者是人還是機器以及是否操作者本人的問題;關聯分析技術在底層通過圖數據庫存儲不同節點以及關系信息,最終在界面上通過圖的形式進行欺詐者關聯分析及復雜網絡分析;機器學習技術通過有監督、無監督的機器學習算法提升欺詐識別的準確率及覆蓋率,并結合流立方技術提供模型的事中預測能力。
舉個例子來說:我們把數據當成水庫的話,水庫里面存在的水就是批式大數據,進來的水是流式大數據
在測試環境為8臺服務器(每臺服務器配置24核 CPU、256 GB內存),同時計算16個統計指標(涉及4個維度,包含計數、求和、平衡、最大、最小、標準差、過濾、去重、排序、復雜事件處理等多種算法)的性能測試中,“流立方”平臺達到了單節點寫入大于43 000 TPS、8節點讀取大于100萬TPS、平均時延為1~2 ms的優異性能,如圖2所示。