計算機在解決各種智能問題上的進步幅度并不大,但是十幾年量的積累,最終促成了質變。
這個時代屬于大數據
簡單地講,當時無論是做語音識別、機器翻譯、圖像識別,還是自然語言理解的學者,分成了界限很明確的兩派,一派堅持采用傳統的人工智能方法解決問題,簡單來講就是模仿人,另一派在倡導數據驅動方法。這兩派在不同的領域力量不一樣,在語音識別和自然語言理解領域,提倡數據驅動的派比較快地占了上風;而在圖像識別和機器翻譯方面,在較長時間里,數據驅動這一派處于下風。
這里面主要的原因是,在圖像識別和機器翻譯領域,過去的數據量非常少,而這種數據的積累非常困難。圖像識別就不用講了,在互聯網出現之前,沒有一個實驗室有上百萬張圖片。在機器翻譯領域,所需要的數據除了一般的文本數據,還需要大量的雙語(甚至是多語種)對照的數據,而在互聯網出現之前,除了《圣經》和少量聯合國文件,再也找不到類似的數據了。
在 20 世紀 90 年代互聯網興起之后,數據的獲取變得非常容易。從 1994 年到 2004 年的 10 年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中 20% 左右的貢獻來自方法的改進,80% 則來自數據量的提升。雖然在每一年,計算機在解決各種智能問題上的進步幅度并不大,但是十幾年量的積累,最終促成了質變。
數據驅動方法從 20 世紀 70 年代開始起步,在八九十年代得到緩慢但穩步的發展。進入 21 世紀后,由于互聯網的出現,使得可用的數據量劇增,數據驅動方法的優勢越來越明顯,最終完成了從量變到質變的飛躍。如今很多需要類似人類智能才能做的事情,計算機已經可以勝任了,這得益于數據量的增加。
全世界各個領域數據不斷向外擴展,漸漸形成了另外一個特點,那就是很多數據開始出現交叉,各個維度的數據從點和線漸漸連成了網,或者說,數據之間的關聯性極大地增強,在這樣的背景下,就出現了大數據。
智能手機和互聯網將繼續改變世界
大數據的時效性其實不是必需的,但是有了時效性可以做到很多過去做不到的事情,城市的智能交通管理便是一個例子。在智能手機和智能汽車(特斯拉等)出現之前,世界上的很多大城市雖然都有交通管理(或者控制)中心,但是它們能夠得到的交通路況信息最快也有 20 分鐘滯后。如果沒有能夠跟蹤足夠多的人出行情況的實時信息的工具,一個城市即使部署再多的采樣觀察點,再頻繁地報告各種交通事故和擁堵的情況,整體交通路況信息的實時性也不會比 2007 年有多大改進。
但是,在能夠定位的智能手機出現后,這種情況得到了根本的改變。由于智能手機足夠普及并且大部分用戶開放了他們的實時位置信息(符合大數據的完備性),德國機房主機 波蘭服務器,使得做地圖服務的公司,比如 Google 或者百度,有可能實時地得到任何一個人口密度較大的城市的人員流動信息,并且根據其流動的速度和所在的位置,很容易區分步行的人群和行進的汽車。
由于收集信息的公司和提供地圖服務的公司是一家,因此從數據采集、數據處理,到信息發布中間的延時微乎其微,所提供的交通路況信息要及時得多。使用過 Google 地圖服務或者百度地圖服務的人,對比六七年前,都很明顯地感到了其中的差別。當然,更及時的信息可以通過分析歷史數據來預測。一些科研小組和公司的研發部門,已經開始利用一個城市交通狀況的歷史數據,結合實時數據,預測一段時間以內(比如一個小時)該城市各條道路可能出現的交通狀況,并且幫助出行者規劃最好的出行路線。
仔細推敲英語中 bigdata 這種說法,我們不得不承認這個提法非常準確,它最重要的是傳遞了一種信息——大數據是一種思維方式的改變。現在的數據量相比過去大了很多,量變帶來了質變,思維方式、做事情的方法就應該和以往有所不同。這其實是幫助我們理解大數據概念的一把鑰匙。在有大數據之前,計算機并不擅長解決需要人類智能來解決的問題,但是今天這些問題換個思路就可以解決了,其核心就是變智能問題為數據問題。由此,全世界開始了新的一輪技術革命——智能革命。