中國IDC圈7月20日報道,7月20日,“2017中國行業云計算峰會—金融云”(C9峰會)在北京國貿大酒店(國貿三期)隆重召開。本次大會由中國信息通信研究院指導,云計算發展與政策論壇、數據中心聯盟、云計算開源產業聯盟主辦,云計算發展與政策論壇用戶委員會承辦、CloudBest、中國IDC圈、網貸之家協辦,并受到諸多媒體的大力支持。
2017中國行業云計算峰會—金融云”作為國內金融與云計算領域最具影響力的大會,引來現場人員爆滿,大會全面覆蓋云計算、金融、人工智能、區塊鏈、大數據等多個領域。
會上,PPmoney萬惠集團大數據算法總監黃文堅出席本次大會并發表主題為《人工智能在fintech的應用》的演講。
PPmoney萬惠集團大數據算法總監 黃文堅
以下是演講實錄:
大家好,今天我給大家講人工智能,尤其深度學習和TensorFlow在fintech中的應用。我們公司叫PPmoney,是國內最早一批將人工智能應用在金融科技領域的企業,現在非常流行現金貸的產品業務,國內可能有上千家,大家競爭的點比較趨同,最核心的競爭力還在風控這塊。現在使用傳統的人工審核或者專家做一些專家規則的方式已經不行了,目前業內做得比較好的幾家,像量化派都是使用人工智能的風控模型來做的,非常適合在風控上有一個發展。PPmoney的理財平臺每年可以募集資金300億左右,現金貸的產品、PPmoney理財、挖牛等。
為什么要在金融科技中使用深度學習?金融數據中很多是交易日志或者銀行流水、股票K線數據,這種數據叫時間序列數據,跟傳統的做機器學習問題的靜態信息的數據不太一樣,這種時間序列的數據特別適合使用深度學習,尤其是卷積神經網絡、循環神經網絡來處理。我們傳統做的一些專家規則和行業分析,對這么大量的數據找到規律這是不容易實現、很難做到的。金融數據中很多非結構化的數據,比如我們有很多文本的數據,財經新聞中對某公司的點評,不管對銀行放貸還是對個人征信、預測股票漲跌都非常有用。使用傳統方法是很難做這個問題的,人工智能深度學習可以很好的把這塊數據利用起來。LSTM和Word2Vec最適合處理文本數據,后面會簡單說一下它的應用。
金融數據很多很復雜的業務邏輯,比如我們在銀行貸款的業務中,怎么評價貸款的客戶是不是有比較強的償還能力,有沒有欺詐的風險,需要業內專家來分析的話非常困難,而且要總結出很多經驗規律,最后效果也不一定很準。很抽象的邏輯概念和經驗對使用人工智能來說是不需要的,我們都是從數據中進行學習,所以你只要給我足夠多的數據我們可以很大程度的減少對業務專家的需求。第四,大數據的應用效率比較高,當前這個環境下數據的積累量越來越多,我們最近兩年積累了之前所有數據80%的量,是最近兩年產生的,后面的數字會越來越多。現在是任何一個行為操作或者記錄都會被數據記錄下來的時代,對大量數據的挖掘和應用是未來一個勢。深度學習這個模型對數據的利用率很高,比如傳統機器學習的算法,像國際回歸等傳統金融中使用的模型,當你有幾百萬條樣本的時候模型擬合能力就達到上線了,提供更多的樣本并不會產生很好的表現,但對深度學習來說從幾百萬樣本一直提升到幾億、幾十億的樣本量都有持續的提升過程。對銀行、金融機構、保險、券商、理財平臺來說,大量的數據就是它至關重要的財富,把這些利用起來就能產生很高的價值。
目前人工智能最好的實踐是谷歌在兩年前開源的TensorFlow,阿爾法狗底層的平臺是TensorFlow,目前美國大量公司使用的框架是TensorFlow,它是目前排名第一的框架,同時有谷歌200多人的研發團隊,產品質量和代碼質量都非常高,支持的功能極其豐富,是目前最好的選擇。我本人也是TensorFlow的開發者之一,今年初出版了一本書叫《TensorFlow實戰》,出版之后一個月內是計算機類數據銷量榜第一名,可見人工智能和TensorFlow是目前業界非常火的領域。
深度學習和TensorFlow怎么應用到金融的具體問題中。先看一下金融預測的模型,我們可以使用人工智能來解決信貸審批或者風控的問題。在傳統的金融問題中,如果放貸金額特別大,幾千萬以上、幾萬或者幾千的量,很難讓金融專家一條一條審核,因為量實在太多了,目前一些小的現金貸一天會有幾千幾萬的量,他們做的效果也不如機器自動化的水平。人工經驗沒有一個數據的佐證的支持很難判斷每條規則的有效性,同時多條規則之間怎么組合才能最大化效果。使用機器學習,全自動,節約大量的人工成本,不再需要普通的信審員節約幾千幾百個崗位,準確率比較高,我們也做了測試,相比使用人工來做準確率的提升幅度很大,后面會有一些具體的數字。
金融這個行業變化比較快,不同時間周期內的規律非常不明顯,每當有新的現象新的規律發生的時候,人工可能很難跟上,但機器通過最新的樣本很快識別到這些形態和樣式進行自適應。我們也不需要像人工專家規則去構思很多條件,如果我的客戶有夜間通話或者最近流水額比較低,我認為他償還能力不夠,可以避免人工構思的情況。看一個具體的例子,五大行之一總行有一個POS貸的業務,針對一個商戶的POS機的流水作為授信額度的主要考核依據。這個貸款業務剛上線的時候沒有經過任何風控模型,原始不良率4%,銀行不能接受,銀行要求2%左右,請了專家篩選把不良率降到2%,但通過的審核率只有26%,有將近3/4的客戶被篩掉了,如果使用深度學習的方法的話,我們可以做到將不良率降到2%的同時,審核通過率還有77%,我們篩掉的20%多的客戶里最壞的這批客戶,篩掉他們之后不良率的下降非常明顯,精準的將不良客戶識別出來。
審批率通過了,放款業務量增大3倍,這個業務的營收額和收益都相應的增大3倍。對于這種貸款問題,最大的核心就是要積累足夠的樣本量,需要足夠多的字段,銀行可以通過銀聯拿到商戶的交易流水信息和運營商授權的通話信息、過往的銀行的流水、貸款的記錄,所有這些特征會有幾百個,我們使用深度學習的算法將它衍生到幾千甚至幾萬的特征,自動讓模型算法做化,識別哪些條件和哪些條件組合的時候會有比較明顯的逾期現象,通過這樣的算法自動能實現很好的預測精度。
我們算法中心也會做AB Test,當有新的數據過來我們訓練新的模型的時候,新的特征過來我們訓練新的模型的時候,我們可以對比確定新改進的方法有沒有效果,不像傳統的規則篩選之后并不知道哪條規則比較有效,這些規則哪些是正向的,哪些是負向的,這些都搞不清楚,這樣問題就很大。使用自動化的人工智能的模型來解決這個問題效果就非常好。
另外一個例子是保險復購的預測,很多保險公司比如中國人保、泰康人壽,他們對復購客戶的依賴是很大的,平常會有3%的客戶進行復購,這些客戶是推廣運營商成本比較低的,相對來說比較優質。這里的復購一般指他給自己購買保險之后給他的親屬或者關系很緊密的人再購買第二份保險,我們這邊做的模型是預測哪些現有客戶他在第二年會進行一個復購。最后做到的效果,預測出來的名單里有50%的人都進行了復購,相對原始只有3%的復購率,提升是非常明顯的。使用的信息,用戶的靜態信息,比如收入、年齡、職業、家庭住址、險種信息。還有時間序列的數據,像交易的行為、保全行為、會員行為等等。關系的信息,他跟其他親戚朋友是怎樣一個關聯,他有沒有其他的親戚有購買保險的行為,有沒有團單的行為。
這幾部分不同的數據我們會使用不同的方法進行處理,比如靜態信息和關系信息,這些我們會使用全鏈接的網絡進行處理,時間序列的信息我們會使用循環神經網絡進行處理。復購的主要預測目標是個人和家族在下一個時間節點復購概率,目標是定向,向有高價值的潛在客戶營銷,比如我們給出來的名單中可能有一半都會進行復購的預測,如果定點向這些人營銷能取得非常好的效果,可以大量節約業務人員的工作時間,提高效率。
我們有不同種類的信息,普通靜態的信息我們使用全連接的方式連接,時間序列我們采用單獨的方式連接,韓國云服務器
美國云主機,把這兩個信息連接在一起做分類和回歸的預測,輸出客戶下一個時間節點復購概率的高低。
基金公司,我們在加時基金那邊有一個項目,加時基金是管理3千億資產規模的基金公司,其中有很多大客戶,公募主要是收取管理費,對他管理的資產規模非常敏感,他想提前知道客戶的申購和贖回的行為并采取一些應對措施。如果有上億資產規模的大客戶要贖回的話,對他收益會有一個非常大的影響。我們的大客戶做了這樣一個預測,分為兩種,一種是貨幣基金,申購和贖回的現象比較頻繁,對這種問題我們能做到基準的準確率的3-4倍的效率。比如他每個季度會有10%的人產生贖回的行為,我們給出來的名單預測出來有40%的人會產生贖回。另外部分是比較關鍵的普通基金非貨幣基金,股票型、債券型持有期限比較長,一旦贖回就不會再次回到這里,這樣管理費的贖回就會有很大的問題。對這種基金我們可以做到20-30倍的漁村準確率。基金在每個季度會有3-5%的贖回率,預測出來的結果會到30-40%。這些人群就是高危人群,其中大的客戶需要重點關注,我們將這些客戶的意圖識別出來,提前給他一些優惠或者工作,可以盡量避免這部分資金的流失。我們使用到的數據量比較多,歷史申購贖回的交易記錄、客戶的信息、對基金APP的使用,最近購買基金的表現,會提取出5000多個特征,靜態信息使用全連接的處理,時間序列信息使用循環神經網絡的處理,最后取得了非常良好的效果。
通過TensorFlow實現全連接的神經網絡,7行代碼,在金融的問題中對數值型和種類型清楚的數據使用全連接的神經網絡。輿情分析在很多地方都會使用到,尤其一些大型的金融機構,銀行給大型的客戶貸款之前,客戶可能有幾千萬或者幾億的授信額度,要對企業綜合考量,看最近有沒有負面新聞或者法院判決不力的信息,如果從網上人工搜集信息是不太全面,不太準確的,同時速度很慢。如果將它做成自動化的效果,我們會從全網抓取所有的跟這些公司相關的新聞,一個公司會出來幾千甚至上萬條的新聞,我們再對中間每一條新聞做一個正面負面中性的輿情分類,有了這個分類之后我們可以對這個公司整體的發展狀況做一個評估,directadmin安裝
directadmin漢化,如果它的負面新聞的比例過高超過15%或者是多少,這個風險就比較大。如果他負面新聞很少正面新聞很多的話,那是比較放心的企業。
中文分詞之后做Word2Vec、RNN(LSTM、GRU)、輿情分類。我們有很多券商的分析員對公司的研究報告,之前要讀大量的關于公司的新聞,除了做輿情分析,估計公司整體的輿情現象,同時還要對比較關鍵的新聞進行閱讀,怎么一開始就把幾萬字的報告濃縮成幾段話的文章,讓分析員判斷文章的主旨思想,這邊有一個概要生成的算法。概要生成的算法在傳統實踐中有抽取的方式,它會對很長的文章抽取其中最重要的幾個句子,5-10句,在文章中做了一個page 1,類似谷歌搜索,再將這十句話進行總結,都是原文中出現的一模一樣的句子只是對重要性進行提取。
使用深度學習完全抽象生成的方法,它會嘗試理解整篇文章的含義,將每段每個大篇章轉換成1-2句的總結,這個算法主要是基于谷歌的開源的算法,基于注意力模型的抽象語句的總結。這個算法在前端有一個encoder后端有一個decoder,encoder做的是語言模型,將很長的文章轉化成很短的文章,訓練用到的語料是網上大量新聞以及人工手寫的摘要或者標題,使用這些數據來看人是怎么總結長篇文章變成幾句話的短的概要,通過學習轉化的過程構建了一個轉換的語言模型,后端的decoder會嘗試解析原文,將原文使用語言模型轉化成簡短的總結。概要生成對英文的文章來說已經能做到很不錯的效果,中文文章中目前效果可以令人滿意,可以再逐步提高一些。
研究報告的自動生成,前面我們提到了我們可以分析大量的文本輿情,同時還可以對某一些重要新聞做一個總結性的概要,我們有沒有可能直接把所有關于這個公司的新聞匯總到自動生成報告,其實目前是有的,而且在美國歐洲已經有好幾家公司提供自動報告生成的服務,很多比較初級的信息整理或搜集的業務就不再需要入門級的分析員研究員,人類可以得到一定程度的解放,可以做一些目前還做不了的更抽象的分析任務,對公司戰略或者其他層面的考量分析。這塊也會使用到很多人工智能的算法,它首先要有自然語言理解,這是對所有公司相關新聞或者報告內容的抽取、語義的解析,同時還需要自然語言生成的算法。這幾個算法在TensorFlow中都有相應的實現。目前自動報告的生成大部分是基于模板,會有一個特定的格式,將網上爬取到的信息使用人工智能的方法分析之后,按模板填充起來最后生成這樣一個報告。這幾個例子是在TensorFlow中實現NLP常用的自然語言處理算法的例子,比較簡單,雖然人工智能在其他領域的應用還有一點距離,但是在金融領域是第一個落地的,正好適合在金融有大量數據同時對結果非常敏感,比如在貸款業務中我的盈利空間只有3-4%,我的逾期壞賬率降低1%那就很好,使用深度學習方法可以節約大量分析員的人力。
目前來看人工智能非常適合在金融科技中應用,已經在很多領域都發生了很重要的改變,前段時間高盛將600多名交易員全部換成了機器自動交易的算法,未來會有更多金融相關領域可以被算法以及模型自動化的替代,降低成本,提高工作的效率,比如對貸款逾期預測得更準。
今天我的演講就到這里,謝謝大家。