7月2日,2019可信云大會(huì)在北京國(guó)際會(huì)議中心隆重開(kāi)幕。2019可信云大會(huì)以“智能云網(wǎng)邊,可信創(chuàng)未來(lái)”為主題,由中國(guó)信息通信研究院主辦。
下午13:30大會(huì)特設(shè)的智能云論壇活動(dòng)正式開(kāi)始,騰訊云AI平臺(tái)專(zhuān)家產(chǎn)品經(jīng)理余祖坤做了《AI建模平臺(tái)的設(shè)計(jì)實(shí)踐》的精彩演講。
騰訊云AI平臺(tái)專(zhuān)家產(chǎn)品經(jīng)理余祖坤
謝謝大家!很榮幸跟大家一起分享一下騰訊AI建模平臺(tái)的設(shè)計(jì)實(shí)踐。
AI建模平臺(tái)有很多,想分享一下騰訊在這個(gè)領(lǐng)域是如何思考的和整個(gè)產(chǎn)品的思路。
當(dāng)數(shù)據(jù)量越來(lái)越大時(shí),單機(jī)跑不到,需要分布式算力或一個(gè)工具,我們理解建模有點(diǎn)像電飯煲,把數(shù)據(jù)塞進(jìn)去,怎么做成你想要的菜,最終輸出的是模型,AI建模吃的是數(shù)據(jù),輸出的是模型。
建模這件事情一定離不開(kāi)兩件事情:算法工程師,現(xiàn)在市場(chǎng)上傳言很多,一般說(shuō)薪資很高,沒(méi)有頭發(fā)等等。也有人會(huì)說(shuō)算法工程師主要工作其實(shí)有點(diǎn)像煉丹師,因?yàn)闆](méi)有辦法保證煉丹師一定能煉出想要的東西,客戶(hù)說(shuō)這個(gè)能達(dá)到多少性能指標(biāo)嗎?算法工程師沒(méi)有辦法說(shuō)一定達(dá)到。
一般一個(gè)算法工程師首先會(huì)從數(shù)據(jù)開(kāi)始,要輸入一定數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,比如異常值處理,另外要找一些特征,對(duì)原始數(shù)據(jù)和數(shù)據(jù)列的信息進(jìn)行加工,取得一些特征之后,塞到他想要的模型里去,然后進(jìn)行訓(xùn)練,訓(xùn)練時(shí)涉及到需要很大的計(jì)算集群,需要一些算力。得到一些模型之后,他要做這個(gè)模型的評(píng)估。評(píng)估好了之后才會(huì)把這個(gè)模型上線發(fā)布服務(wù),在線預(yù)測(cè),或者發(fā)布成這個(gè)服務(wù)之后,怎么樣把這個(gè)模型發(fā)布成服務(wù)?原來(lái)可能會(huì)想把這個(gè)模型跑完了之后出一個(gè)圖,但在模型應(yīng)用的時(shí)代,非常關(guān)心怎么把這個(gè)模型發(fā)布成一個(gè)服務(wù)。
觀察了煉丹師一般工作之后,我們認(rèn)為有這些核心的環(huán)節(jié),提煉之后,有數(shù)據(jù)、算法、算力、模型評(píng)估、模型怎么樣部署服務(wù)、進(jìn)行在線預(yù)測(cè)等。有了這些訴求之后,怎樣去設(shè)計(jì)一個(gè)產(chǎn)品?究竟現(xiàn)在要不要這個(gè)東西?市場(chǎng)上有那么多框架,就要比較一下為什么我們需要一個(gè)一站式建模的平臺(tái)。建模這件事情有一系列從下往上可關(guān)注的點(diǎn),比如需要有計(jì)算資源,CPU、GPU,現(xiàn)在計(jì)算機(jī)體系結(jié)構(gòu)迎來(lái)了第二春,從x86時(shí)代以來(lái),云主機(jī),計(jì)算機(jī)體系結(jié)構(gòu)很長(zhǎng)一段時(shí)間沒(méi)有變化,現(xiàn)在這個(gè)時(shí)候底層計(jì)算機(jī)架構(gòu)越來(lái)越多,計(jì)算資源越來(lái)越多,數(shù)據(jù)量越來(lái)越大時(shí)要選哪種,如果要自己解決成本很高。
現(xiàn)在計(jì)算框架非常多,沒(méi)有達(dá)到統(tǒng)一階段,在當(dāng)下來(lái)看,框架維護(hù)還是很煩瑣的,這也是一個(gè)痛點(diǎn)。算法,傳統(tǒng)機(jī)器學(xué)習(xí)分很多算法,要去處理需要很多手工活。如果更多時(shí)間去處理工程性的活,經(jīng)常會(huì)出現(xiàn)招人時(shí)用飛機(jī)大炮,進(jìn)來(lái)時(shí)用小米加步槍。怎么解決企業(yè)這些困難呢?這里就存在平臺(tái)可以做的一些價(jià)值。
模型怎么樣調(diào)優(yōu)是很需要水平和時(shí)間的,如果自己用一些框架去調(diào),每種模型也可以調(diào)特點(diǎn),每次都用手工去調(diào),如果你的同事用另外一個(gè)框架,可能沒(méi)有辦法跟你交流。
模型如何發(fā)布?以前比較土的辦法是把模型服務(wù)打包成一個(gè)任務(wù),當(dāng)量上去時(shí),有很多痛點(diǎn)和不穩(wěn)定性,沒(méi)有辦法達(dá)到企業(yè)級(jí)應(yīng)用的需求,核心點(diǎn)是希望跟當(dāng)下最流行的結(jié)構(gòu)集群應(yīng)用技術(shù)結(jié)合起來(lái),是一個(gè)解決的方法。所以在此基礎(chǔ)上,希望能做一些什么樣的平臺(tái),能解決剛才我們談到的折價(jià)問(wèn)題,底層資源有一些管理、有一些優(yōu)化,有些客戶(hù)有跨地區(qū)的機(jī)房,跨地區(qū)機(jī)房怎么樣搭建,是我們要考慮的問(wèn)題,這是產(chǎn)品要解決的問(wèn)題。
要集成這些主流的框架,不同框架在變化,怎么樣吸收進(jìn)來(lái),它升級(jí)了,我們?cè)趺礃影阉?jí),集成到我們上面做的這些應(yīng)用業(yè)務(wù)中來(lái),這是工具型產(chǎn)品需要解決的問(wèn)題。
算法,這個(gè)產(chǎn)品要解決什么樣的東西?更多要解決的是沉淀。有些算子,比較大的模型提前做了預(yù)訓(xùn)練,預(yù)訓(xùn)練的算力對(duì)你來(lái)說(shuō)是省了。
發(fā)布不同的模型可能會(huì)更新,它的更新要怎么樣考量,后面會(huì)說(shuō)一下這個(gè)產(chǎn)品我們關(guān)心的一些點(diǎn)。
所有框架是我們天然的競(jìng)品,我們得出這幾個(gè)價(jià)值主張。
AI建模平臺(tái)用戶(hù)分析。
建模平臺(tái)如果僅僅是為很專(zhuān)業(yè)的算法提供服務(wù)的話,這個(gè)平臺(tái)用戶(hù)會(huì)很少,而且現(xiàn)在我們也觀察到了整個(gè)AI算法的應(yīng)用不再是少數(shù)人的游戲,是整個(gè)行業(yè)都有訴求的點(diǎn),我們把用戶(hù)定義為三類(lèi),有可能是很資深的算法,以前就是一直在調(diào)參的專(zhuān)家,也有可能是剛開(kāi)始入手,想了解清楚怎么樣去建模。還有不是算法人員,但大家多在說(shuō),他也想去用一用。這三類(lèi)用戶(hù)有不同的訴求。