在人工智能時代,企業(yè)既想通過大數(shù)據(jù)分析、挖掘技術(shù)提升效率,又被大數(shù)據(jù)量分析、機器學習挖掘等相關(guān)技術(shù)門檻阻擾,需要一款數(shù)據(jù)分析挖掘產(chǎn)品跨越這個鴻溝。Jarvis在這個背景下應運而生。Jarvis是支撐大數(shù)據(jù)分析挖掘應用開發(fā)的工具和平臺,定位在企業(yè)開發(fā)者和大數(shù)據(jù)分析挖掘技術(shù)之間,提供可視化交互方面的支持,使得大數(shù)據(jù)分析、挖掘技術(shù)能快速轉(zhuǎn)化為滿足企業(yè)應用場景的具體產(chǎn)品。
據(jù)了解,Jarvis技術(shù)實施棧縱向分層、橫向分級確保可全流程解決數(shù)據(jù)分析挖掘過程中的數(shù)據(jù)處理、計算資源、算子算法支持、環(huán)境部署等各環(huán)節(jié)問題,同時針對用戶進行功能分級、并最大限度保持可擴展,為真正成為一款造福數(shù)據(jù)科學家、業(yè)務開發(fā)者、數(shù)據(jù)分析師、產(chǎn)品經(jīng)理、決策分析者等各類開發(fā)用戶的產(chǎn)品而努力。
可視化管理數(shù)據(jù)科學全流程
一個經(jīng)典的數(shù)據(jù)挖掘分析應用過程包括,數(shù)據(jù)獲取、數(shù)據(jù)預期處理、特征提取、建模開發(fā)、預測部署、投入應用。Jarvis充分調(diào)研分析開發(fā)實施人員在各環(huán)節(jié)面臨的處理場景、可能的高效、方便的工作方式,進行了抽象設計實現(xiàn):
數(shù)據(jù)連接,支持結(jié)構(gòu)化、非結(jié)構(gòu)化多類型數(shù)據(jù)接入,支持私有數(shù)據(jù)接入、支持云Bos、分布式HDFS、關(guān)系型數(shù)據(jù)庫等等多類型數(shù)據(jù)源讀取及靈活掛載。
數(shù)據(jù)準備,提供支持文本、圖像類型的交互式的數(shù)據(jù)清洗、預處理工具,方便進行數(shù)據(jù)高效準備。
數(shù)據(jù)分析,支持PB級別的SQL交互式查詢分析、Spark處理;同時提供豐富的可視化數(shù)據(jù)探查工具,方便開發(fā)者獲取高價值有效樣本。
挖掘建模,內(nèi)置了豐富的基礎算子算法供開發(fā)者高效進行建模開發(fā);同時預置了經(jīng)典的垂類行業(yè)解決方案,可以低成本在匹配場景進行高效實施。
模型部署,生成模型可直接發(fā)布、部署,亞洲服務器租用 歐洲服務器,并支持動態(tài)熱加載。提供了常用模型評價指標的效果監(jiān)控功能供一鍵選擇監(jiān)控、支持自由擴展。
流程監(jiān)控,開發(fā)者進行的全工作流實現(xiàn)自動Track,新數(shù)據(jù)可自動觸發(fā)重跑全流程。
云原生服務
在數(shù)據(jù)分析挖掘全流程及服務過程中,不同的場景、不同的數(shù)據(jù)、不同的處理階段、不同的開發(fā)者對于環(huán)境的需求、對于資源的需求多種多樣,這就需要數(shù)據(jù)分析挖掘平臺的資源(包含開發(fā)環(huán)境資源)管理要能靈活接入、彈性拉伸、擴展方便,確保穩(wěn)定及資源利用高效。Jarvis采用了云原生服務架構(gòu)的方式實現(xiàn)。
自動機器學習AutoML
策略模型研發(fā)人員大量的時間花費在選取不同的特征數(shù)據(jù)、進行不同的算法選擇嘗試、參數(shù)調(diào)優(yōu)中,最終獲得一個高效的模型。AutoML理論上可通過設置自動嘗試多數(shù)據(jù)特征、多算法、測試完全不同的模型架構(gòu),然后與目標相匹配,給出最終解決問題的方案。
行業(yè)解決方案
同行業(yè)的不同企業(yè)往往存在共性的數(shù)據(jù)分析挖掘場景,例如:電力行業(yè),用電量預測;工業(yè)物理網(wǎng)類,設備故障檢測、故障預測等。這些同類場景要解決的問題類似、要分析的數(shù)據(jù)類似,因此可以抽象通用的行業(yè)解決方案在同類場景下復用、快速投入應用。對于深層次的數(shù)據(jù)挖掘開發(fā)者,同樣有大量通用的算法、算子庫可以相互復用,提升開發(fā)效率。Jarvis從基礎算法、通用模型、垂類解決方案分層內(nèi)置能力并不斷擴展集成,為不同場景需求的開發(fā)者用戶提供了高效復用能力。
百度開發(fā)者大會期間,VPS租用 國內(nèi)服務器,Jarvis通過點石-大數(shù)據(jù)眾智平臺(dianshi.baidu.com, DataLab板塊)邀測了第一批用戶進行增強版基礎開發(fā)環(huán)境的使用(內(nèi)置了豐富的算子算法庫及百度AI開放接口),受到用戶的一致好評。