2016年12月宣布的騰訊高性能分布式計算平臺Angel1.0于今日正式開源。
據了解,Angel是騰訊第三代的計算平臺,使用Java和Scala語言開發,面向機器學習的高性能分布式計算框架,美國服務器租用 美國站群服務器,由騰訊與香港科技大學、北京大學聯合研發。它采用參數服務器架構,解決了上一代框架的擴展性問題,支持數據并行及模型并行的計算模式,能支持十億級別維度的模型訓練。
Angel還采用了SSP(Stale synchronous Parallel)、異步分布式SGD、多線程參數共享模式HogWild、網絡帶寬流量調度算法、計算和網絡請求流水化、參數更新索引和訓練數據預處理方案等新技術。這些技術使Angel性能大幅提高,達到常見開源系統Spark的數倍到數十倍,能在千萬到十億級的特征維度條件下運行。
騰訊數據平臺部總經理蔣杰曾表示,面對快速增長的數據挖掘需求,開發一個面向機器學習、能應對超大規模數據集的、高性能的計算框架,并且對用戶足夠友好,具有很低的使用門檻,Angel平臺應運而生.
2014年騰訊已走上開源的征途,臺灣主機 臺灣伺服器,第一代核心平臺TDW-Hive。另外,在第三代的計算框架上對比第二代可以支持10億級維度的算法訓練,由以前的數據并行,到可以支持模型并行。同時,第三代的平臺,在系統的易用性上還支持GPU深度學習,支持文本、語音、圖像等非結構化的數據。
Angel自去年初在騰訊內部上線以來,已應用于騰訊視頻、騰訊社交廣告及用戶畫像挖掘等精準推薦業務。并且騰訊大數據平臺榮獲2016年的Sort benchmark全球排序競賽冠軍,98.8秒完成了100T數據排序,刷新了四項世界紀錄。2015年的這項排序時間還高達329秒。
騰訊開源平臺Angel鼓勵了業界工程師、學者和技術人員大規模學習使用,激發機器學習領域的更多創新應用與良好生態發展。