聽說過“睡夢羅漢拳”么?
電影《武狀元蘇乞兒》中,周星馳在夢中得到老乞丐心法傳授,學會了睡夢羅漢拳。
只是睡了一覺,醒來就武功天下第一。
邊睡邊學習,可能不少同學都YY過……真正做到能有幾人?
沒想到,現在AI已經學會了。
剛剛,兩位人工智能界的大牛:Google Brain團隊的David Ha(從高盛董事總經理任上轉投AI研究),瑞士AI實驗室的Jürgen Schmidhuber(被譽為LSTM之父),共同發布了最新的研究成果:World Models(世界模型)。
簡而言之,他們教會了AI在夢里“修煉”。
AI智能體不僅僅能在它自己幻想出來的夢境中學習,還能把學到的技能用到實際應用中。
一眾人工智能界同仁紛紛發來賀電。
還有人說他們倆搞的是現實版《盜夢空間》,并且P了一張電影海報圖:把Ha和Schmidhuber頭像換了上去……
這種神奇能力是怎么回事?
量子位結合兩位大牛的論文,嘗試解釋一下。
在夢里開車
在夢境中學,在現實中用,可以說是高階技能了,我們先看一個比較基礎的:
在現實里學,到夢境中用。
David Ha和Schmidhuber讓一個AI在真正的模擬環境中學會了開車,然后,把它放到了“夢境”里,我們來看看這個學習過程:
先在真實的模擬環境中學開車:
當然,上圖是人類視角。在這個學習過程中,AI所看到的世界是這樣的:
把訓練好的AI智能體放到AI的夢境中,它還是一樣在開車:
這個夢境是怎么來的?要講清楚這個問題,量子位還得先簡單介紹一下這項研究的方法。他們所構建的智能體分為三部分,觀察周圍世界的視覺模型、預測未來狀態的記憶模型和負責行動的控制器。
負責做夢的主要力量,就是其中的記憶模型。他們所用的記憶模型是MDN-RNN,正這個神經網絡,讓Google Brain的SketchRNN,能預測出你還沒畫完的簡筆畫究竟是一只貓還是一朵花。
在開車過程中,記憶模型負責“幻想”出自己在開車的場景,根據當前狀態生成出下一時間的概率分布,也就是環境的下一個狀態,視覺模型負責將這個狀態解碼成圖像。他們結合在一起生成的,就是我們開頭所說的“世界模型”。
然后,模型中的控制器就可以在記憶模型生成出來的虛假環境中開車了。
在夢里學打Doom
做夢開車很簡單,但兩位大牛的研究顯然不止于此。既然AI幻想出來的環境很接近真實,那理論上講,他們這項研究的終極目的也是可以實現的:讓AI做著夢學技能,再用到現實中。
這一次,他們用了VizDoom,一個專門供AI練習打Doom的平臺。
“做夢”的主力,又是我們前面提到過的記憶模型。和賽車稍有不同的是,它現在不僅需要預測環境的下一狀態,為了讓這個虛擬環境盡量真實,同時還要預測AI智能體的下一狀態是死是活。
這樣,強化學習訓練所需的信息就齊全了,夢境中的訓練,GO!