抗疫戰場上的好消息不斷傳來,關于“數據免疫力”的話題也不斷升溫。如同人體需要提升自身免疫能力以抵抗人際接觸中的潛在病毒威脅,企業和個人用戶數據如何提高“免疫能力”,在越來越廣泛的行業應用與合作中提升自身數據安全和防御能力?近來以破竹之勢興起的“聯邦學習”進入行業視野。聯邦學習在符合數據安全和政策法規的前提下,幫助各行各業實現多方協作訓練AI。FATE(Federated AI Technology Enabler)作為聯邦學習全球首個工業級開源框架,實現了同態加密和多方計算(MPC)的安全計算協議,支持聯邦學習架構,內置了多種機器學習算法的聯邦學習實現,是聯邦學習領域一座繞不開的“豐碑”。官網:https://ai.webankcdn.net/scvm/html/1579237972858.html
正文:
近日,FATE發布了2020年的第一個版本更新——FATE v1.3。在這一版本中,FATE首次增加了聯邦推薦算法模塊FederatedRec,該模塊包含了6大推薦場景中常用的算法,包括5種縱向聯邦算法和1種橫向聯邦算法,可用于解決聯邦學習場景下的推薦問題,如評分預測,物品排序等。此外,與VMware中國研發開放創新中心云原生實驗室的團隊聯合發布的KubeFATE也在這一版本中迎來了大更新,整體進行了重構,并引入了對最新版本的FATE-Serving支持,使得用戶可以進行在線推理。最后,針對FederatedML等多個模塊,新版本也進行了更新及優化。新版本將為開發者帶來一個體驗絕佳的FATE。
該項目現已發布在GitHub:https://ai.webankcdn.net/scvm/html/1579237932478.html
FederatedREC:提升算法預測效果,優化產品分發效率
在FATE1.3版本中,FATE新增了聯邦推薦算法模塊FederatedRec,使得聯邦推薦模塊更加明確化。這一算法模塊包含了6大推薦場景的常用算法,主要有:
縱向聯邦算法 Hetero FM(Factorization Machine)
橫向聯邦算法 Homo FM(Factorization Machine)
縱向聯邦算法 Hetero MF(Matrix Factorization)
縱向聯邦算法 Hetero SVD
縱向聯邦算法 Hetero SVD++
縱向聯邦算法 Hetero GMF(Generalized Matrix Factorization)
在這6類算法中,Hetero FM和Homo FM分別是縱向聯邦和橫向聯邦兩種場景下的FM(因式分解機)算法,該算法能夠實現聯合不同數據方的數據進行聯合建模,對不同數據方直接進行顯式的特征交叉和聯合打分。而對于推薦場景下的算法,Hetero MF, Hetero SVD, Hetero SVD++和Hetero GMF也提供了豐富的聯邦建模下的協同過濾算法包。基于FATE v1.3提供的算法工具,能夠實現不同數據方之間的user-item,user-user和item-item的矩陣分解。對開發者而言,通過聯邦推薦這一模塊,可以顯著提升自己算法的預測效果及產品的分發效率。
KubeFATE:支持FATE-Serving實現在線聯邦推理,完全重構Kubernetes安裝更便捷
這一版本中,亞洲服務器,KubeFATE也同步更新至1.3,引入了對最新版本的FATE-Serving支持,使得用戶可以進行在線推理,機器學習的常見功能進一步完善。
此外,對于KubeFATE本身,這一版本也進行了徹底的重構,主要有:
支持完整的FATE集群生命周期管理,包括查詢現在已部署的FATE集群列表,查看每個FATE集群的具體配置,對FATE集群配置進行更新,刪除FATE集群等功能;
實現FATE集群管理的任務框架,開發者可以細致追蹤每個任務的子任務,方便定位基礎設施層面的問題;
分離KubeFATE的程序與FATE集群配置的關系,后續FATE更新版本后,開發者不需要每次都重新下載安裝KubeFATE從而進行升級。理想網絡狀況下,KubeFATE可以自動下載 FATE集群的配置,開發者直接使用即可。如使用環境無網絡支持,也可從KubeFATE的Release中下載tgz包,使用KubeFATE命令行直接上傳到服務中,就可以實現部署發布新的集群支持。
加強FATE模塊化安裝部署,這一版本中,KubeFATE可以把Exchange或某幾個模塊單獨部署為一個集群,通過Kubernetes聯通起來。這一功能將有助于復雜IT環境的企業進行部署。
最后,在新版本中,KubeFATE也會以服務的方式對外提供RESTful API,對開發者而言,后續KubeFATE將以服務形式常駐對集群進行管理,命令行工具也可以在外網甚至FATE集群管理員的筆記本上運行。對外有RESTful API接口的功能如下圖所示,都可以方便接入企業已有的云管系統。
FederatedML:訓練稀疏數據效率提升,內存消耗再優化
除聯邦推薦及KubeFATE的重點更新外,新版本針對FederatedML也做了進一步提升,在1.3中,縱向聯邦廣義線性模型(Hetero-LR、Hetero-LinR、Hetero-PoissonR)開始支持稀疏數據訓練,開發者在訓練稀疏數據時,能明顯感到效率提升,內存消耗減少。解決分箱中32M限制,也使得特征分箱支持更高維度和更多樣本的數據。縱向SecureBoost 梯度直方圖32M限制的解決,讓FATE可以支持更高維度特征進行secureboost的訓練。