開源SQLFlow,反哺業界,同時小小秀出AI肌肉。
這就是螞蟻金服近日開源首個將SQL應用于AI引擎項目SQLFlow后,業界給出的反應。
SQLFlow,把艱深的AI與簡單的SQL結合起來,大大簡化了數據工程師使用AI技術的門檻。
而研發出SQLFlow的,正是螞蟻金服計算存儲首席架構師何昌華帶領下的AI Infra團隊。
何昌華斯坦福博士畢業,先在Google總部工作7年,贏得過公司最高技術獎項,其后又在獨角獸Airbnb工作2年,負責后臺系統的應用架構。
2017年5月,他正式加盟螞蟻金服,擔任計算存儲首席架構師,并在2018年入選了第14批國家“千人計劃”專家。
在螞蟻金服,何昌華的工作是開發新一代計算引擎,搭建金融型數據智能平臺。
而SQLFlow,就是計算引擎主線上的結晶之一。
不過對何昌華來說,世界正在巨變,他還要帶隊探索一些沒人做成的事情。
未來技術基石
大數據的概念,最早來自于搜索引擎行業,因為搜索引擎面對的是人類在互聯網上留下的爆炸性增長的龐大數據。
2010年底,谷歌宣布新一代搜索引擎“咖啡因”正式上線,這項技術的革命性在于,任何時刻,世界上的任何網頁發生了變化,都可以實時地添加到索引中,用戶也可以實時地搜索到,解決了傳統搜索引擎的延時問題。
何昌華當時正是咖啡因開發團隊的核心技術負責人之一。
他解釋,“咖啡因所實現的最核心的功能,就是實時。”
而現在何昌華在螞蟻金服工作的目標,同樣是搭建一個“完全實時”的大數據處理系統,或稱之為大數據智能平臺。由于線下生活場景的多樣性和復雜性,這是個比構建實時搜索更有挑戰性的任務。
他認為,這將成為未來技術的基石。
對于計算機來說,實時就是在發出請求到返回響應之間的延遲盡量小,對于大數據處理系統來說,這還意味著從數據生產到消費的延遲盡可能低,所有這些都意味著計算速度和能力的提升。
此前常用的大數據計算模型MapReduce,對數據的處理是“分片式”的,數據的片與片之間有邊界的概念,這種批處理的模式不可避免地會帶來延時問題。
以搜索的場景為例,假如以天為時間單位對數據進行批處理,那就意味著今天更新的網頁,用戶明天才能搜索到,調高處理的頻率可以部分解決問題,一天兩次、一天四次、兩小時一次……
雖然能逐步接近“準實時”,但成本也會急劇上升。
要實現真正的實時,就必須打破這種批處理的邊界,讓數據處理的過程像水流一樣,隨來隨算,隨時反饋。
這也催生了后來流式計算引擎的蓬勃發展。
而在何昌華看來,除了快,“實時系統”還有兩層重要含義。
第一是OLTP(聯機事務處理)和OLAP(聯機分析處理)的融合。
在以往的觀念里,OLTP對實時性的要求高,OLAP對時效性的要求不那么高。
舉例而言,用支付寶進行一筆交易,需要即時查詢和增刪記錄,就是由OLTP來處理的。而對用戶行為特征的數據分析,則由OLAP來處理。
但現在隨著業務場景需求的不斷變化,OLAP的時效性要求也越來越高。
例如互聯網金融中的風控場景,就需要在完成一筆交易的極短時間中,通過分析用戶的特征數據判斷風險,這要求OLAP也要能實時反饋,且反饋結果馬上就能夠在線訪問。
第二是智能和數據系統的融合。
人工智能和機器學習是大數據應用最熱門的領域,而現在絕大多數公司的做法,站群服務器,是將數倉和機器學習平臺分開,從數倉取一批數據,放到機器學習平臺上去訓練模型。
隨著業務場景的復雜化和多樣化,這種模式逐漸顯露問題,因為模型能否實時更新,能否能用更實時的數據來訓練模型,直接影響了應對復雜場景的能力。
“數據實時流入、實時訓練模型,模型實時上線決策并反饋數據——這一條線如果能完全打通,對于業務將產生不可估量的價值”, 何昌華說。
數據、計算、智能,所有這一切構成了何昌華設想中的“高效率的大數據底盤”,也就是一個融合的實時數據智能平臺,或者叫“Big Data Base”,就像曾經數據庫成為無數場景的數據底盤一樣。
如今,不僅是螞蟻金服或者阿里巴巴集團,在各行各業中,數據驅動的業務都越來越多。
但大數據開發的門檻很高,如果每一項業務都從數據開發的底層做起,將會非常耗時耗力。
如何才能讓做業務的人有更多精力專注于業務?
何昌華認為這就是“Big Data Base”的使命,同樣也是“基石”的含義: