在8月12日,埃隆·馬斯克旗下旨在研究通用人工智能解決方案的公司OpenAI,所訓練的一款人工智能算法在著名的電子競技游戲Dota2國際邀請賽The International中,參與了1V1比賽環(huán)節(jié),并壓倒性的擊敗了頂級電子競技選手Dendi。
在alphago擊敗了柯潔以后,Deepmind多次公開表達了希望準備要去嘗試挑戰(zhàn)星際爭霸等電子競技項目,目前Deepmind確實也聯(lián)合暴雪公司在開展這項嘗試。因為相比圍棋這種完全信息靜態(tài)博弈游戲(即雙方都能獲得局面的所有信息,下棋異步),電子競技游戲具備非完全信息屬性(雙方只掌握視野里的部分信息),而且競技過程是實時動態(tài)進行的。其規(guī)則和特征復雜度遠超圍棋,因此對人工智能的局面評估、決策能力要求顯著更高。另外,相比圍棋這種高度抽象的游戲(只有落子一個動作),電子競技游戲性質(zhì)上更類似人類現(xiàn)實世界對抗/戰(zhàn)爭的簡化模擬,涉及了大量資源調(diào)配、部隊構(gòu)成選擇、擴張策略、攻防對抗等復雜但具有現(xiàn)實意義的博弈,如能在電子競技對抗中取得劃時代的里程碑,則代表了人工智能邁向通用化又進了一大步。
這就是為何Deepmind、OpenAI等頂尖人工智能公司都不約而同希望挑戰(zhàn)電子競技的根本原因,但大家沒想到的是,人工智能這么快就在電子競技界取得了成功。
由于目前OpenAI尚未公布其Dota2人工智能的設計細節(jié),接下來我們通過分析和推測,力圖揭秘其背后的奧秘所在。
背景知識:Dota 2游戲規(guī)則
Dota 2是一款類似于大眾熟知的王者榮耀式的5V5競技游戲,每邊分別由5位玩家選擇一名英雄角色,目標以為守護己方遠古遺跡并摧毀敵方遠古遺跡,通過提升等級、賺取金錢、購買裝備和擊殺對方英雄等諸多競技手段。
這次OpenAI選擇了挑戰(zhàn)較為簡單的1V1挑戰(zhàn),即OpenAI僅控制1名英雄,和頂級電子競技選手Dendi操縱的1名英雄進行對抗。
比賽中,采取dota 2“一塔兩殺”的規(guī)則,即雙方玩家只允許出現(xiàn)在中路,香港主機租用 香港高防服務器,任意一方摧毀對方中路首個防御塔,或者擊殺對方英雄兩次則取得勝利。游戲中,每隔30秒雙方會獲得一波電腦控制的較弱部隊進入前線互相攻擊,玩家殺死這些小兵可以獲得金幣,金幣用于購買裝備物品以強化英雄能力,同時消滅對方部隊可獲取到經(jīng)驗,經(jīng)驗獲取到一定程度則可提升英雄等級,使得英雄能力更強,并獲得技能點升級新的技能。同時雙方各自還有一個初期威力強大的防御塔在身后,因此雙方一般的對抗策略是盡量控制兵線在靠近己方防御塔的地方,同時努力殺死對方小兵(正補)并防止對手這樣做(反補),獲取經(jīng)驗和金幣后升級技能,并試圖通過攻擊和技能擊殺對方或摧毀對方防御塔。
OpenAI的決策空間
上述是dota 2 1v1競技的簡單介紹,以供不了解dota 2的讀者有個初步印象,接下來我們來分析一下在dota 2 1v1競技中的決策空間及決策連續(xù)性這兩個問題,這是與alphago完全不一樣的存在,也是人工智能+電子競技有趣的地方。
決策空間
相比圍棋只有一個落子動作(選擇一個空位下子),dota 2 1v1中的決策空間相對非常復雜,玩家每分每秒需要在以下的動作中做出決策:
當然,上述只是列舉出了比較重要的戰(zhàn)術(shù)動作,在實際競技過程中還有大量的如取消攻擊后搖、放風箏、控符、技能組合等高級動作。
決策連續(xù)性
圍棋是一個典型的異步競技游戲,選手在做出每一個決策前具有充分的決策時間,是典型的馬爾科夫過程,但dota 2是一款實時競技游戲,選手需要動態(tài)做出實時決策,這點是dota 2和圍棋的另外一個不同。
那么OpenAI是怎么解決連續(xù)決策問題的?目前OpenAI尚未公布他們dota人工智能的細節(jié)。在這個問題上,OpenAI很有可能是通過考慮人類選手的決策效率,將決策過程離散化。Dota 2頂級選手的APM(action per minute,每分鐘做出的動作)可達到200以上,眾所周知人來大腦的反應速度是有極限的,一般頂級電競選手在反應速度上都有異于常人的天賦,如果按比賽中觀測到的APM來算,人類的極限可能在1秒鐘做出4到5個動作決策,因此OpenAI如果每隔0.2秒做出一個動作決策的話,就能有超越人類的表現(xiàn)。
因此我這部分的猜測是,OpenAI很可能選擇了200ms以內(nèi)的某個值,在決策效率(更快的反應速度)和決策深度中取得了平衡,將dota 2 1v1比賽轉(zhuǎn)變?yōu)轭愃茋宓鸟R爾科夫決策過程。
OpenAI算法猜測:先驗知識+增強學習