大家好,我是王元卓。開始正式分享之前給大家分享一點我進門之后的心情,我剛進到這個房間里面來的時候,我們的CEO正在做非常精彩的演講,我坐在嘉賓席上的時候越聽心里越沉,我發現今天大會的定位、大會的風格好像跟我之前來的時候,和我準備的演講不太一致,我非常擔心我會成為今天最另類的一個講者,因為我講得太學術了,真的是心里面一直在打鼓,怎么辦?可是當我聽完前面兩位專家在講宇宙空間、講天體科學之后我的心情馬上就好了很多,大家知道為什么嗎?因為我之前被主辦方邀請來是跟他們一樣的,是要講宇宙空間的,講天體科學的。大家要知道我的心情,可能是由于年初的時候我給女兒畫過幾幅《流浪地球》的手繪圖,很多人都誤以為中科院的王元卓是搞天體物理研究的,這是一個很大的誤會,我本人是做信息科學,大數據和智能計算相關的研究工作,大家可以想象我的心情,如果我在兩位大專家之后去講天體科學,那我無異在印證一句古老的成語——班門弄斧,所以我現在心情好了很多,我馬上要開始我本專業的分享,大數據驅動的智能計算或者開放知識計算下面的一些研究工作。
首先要提一下大數據,近些年,應該說從2012年開始,大數據被很多人、很多業界、很多學者所熟知,并且在助力推動,我作為中科院計算所的科研人員,我很自豪地講,我們中國科學院計算技術研究所是大數據的發起者和主要推動者之一,我作為其中一員也擔任了很多的工作。
目前大數據要產生大的價值是業界很多人驅動的動力,但是我國雖然擁有很大量的數據,大數據主要有兩類,一類是來自物理空間、物理社會,我們的這樣一些可以通過感知、采集所獲得的,還有一類來自于我們的社交,來自于我們人,我國是地大物博、人口眾多,大數據無論從哪個方面我們都是具有全球最大量數據的國家。但是由于技術的限制,由于各方面行業應用的限制,目前我國大數據的利用率僅僅不到0.4%,應該說還有大量的工作可以做。
要想讓大數據真正能夠產生價值,計算是一個很重要的途徑。這里面我們舉一個典型的案例:我們每天都會經歷的大數據,比如說網絡上的大數據,我們每天都會刷微信,現在還有人看抖音、刷微博等等,我們說網絡大數據紛繁復雜,要想讓它得到這樣的價值,很關鍵就通過兩個方法、兩個階段、兩個步驟,一個是對這些數據進行統一的表示,讓機器能夠了解它,就是建模的過程。還有計算,怎么通過算法的方式能夠產生這樣的價值。我們還是用網絡大數據來做例子,要想研究好網絡大數據,把它當中的有效價值能夠提煉出來,我們要做什么樣的工作?我們要找到研究對象,我們說網絡當中有幾類非常重要的信息,一類信息是內容信息,我們要發各種郵件,我們可能會發微博,我們會發朋友圈,里面有很多很多的內容信息,有的是長文本,有的是短文本,還有結構信息,誰跟我是好友,我關注了誰,我跟某個機構的隸屬關系是什么樣的,我們有很多結構信息,同時這些結構信息又在發生著各種各樣的變化,根據時間的變化,它在發生各種推移。還有一類信息是目前大家都擔心的,說你們搞大數據的就是竊取我們的隱私來變現作為商業價值,很多隱私信息聚集在一起也是目前大數據重點關注的方向。
我們對大數據的研究,從這三個方面來講是非常關注的,三個研究領域,一個是做開放知識的計算,怎么把內容當中的信息提取出來,第二方面是做演化的計算,怎么能夠把我們的這種社交的關系,并且能夠關注到這些關系發展變化的情況,今天我們兩個是好友,明天我們兩個反目了,第三個方面就是我們怎么能夠通過數據的分析,能夠更好地保護我們的隱私,防止我們的隱私泄露。在這個方面其實我本人也是有一個工作,在中國中文的期刊論文,目前是我國大數據領域下載量最高的一篇文章,應該有七萬多次下載,如果大家感興趣的話可以去了解。
我今天要講的內容其實主要就是針對開放知識的計算,我們說大數據當中有很多開放的知識,我們都知道網絡上面有大量的知識,我們怎么通過檢索,通過搜索引擎找到這些開放的知識,把它變成以實際為中心的知識可以去共享、可以去分享的這樣一個形式,并且把這些知識整體化、系統化之后能夠給我們一些我們想要的知識經過整理之后的答案。我們說一個很重要的方法就是構建知識庫,我們現在說的知識庫可能跟80年代時候講的知識庫有那么一點點不同,什么不同呢?