官术网_书友最值得收藏!

1.2.6 游戲

游戲是一個相對簡單和可控的實驗環境,因此經常用于AI研究。在游戲領域,AI已超過人類。

1.國際象棋

20世紀50年代,一些計算機科學家預測,到1967年,計算機將擊敗人類象棋冠軍。但直到1997年,IBM的“深藍”系統才擊敗當時的國際象棋冠軍蓋瑞·卡斯帕羅夫(Gary Kasparov)。如今,在智能手機上運行的國際象棋程序可以表現出大師級的水平。

2.圍棋

2016年3月,谷歌DeepMind團隊開發的AlphaGo系統擊敗了圍棋冠軍。DeepMind后來發布了AlphaGo Master,并在2017年3月擊敗了排名世界第一的柯潔。2017年10月,DeepMind發表在Nature上的論文詳細介紹了AlphaGo的另一個新版本—AlphaGo Zero,它以100︰0擊敗了最初的AlphaGo系統。

AlphaGo成功的背后是結合了深度學習、強化學習(Reinforcement Learning)與搜索樹算法(Tree Search)三大技術。簡單來說,當時的AlphaGo有兩個核心:策略網絡(Policy Network)和評價網絡(Value Network),這兩個核心都是由卷積神經網絡(Convolutional Neural Networks,CNN)所構成的。具體而言,首先在“策略網絡”中輸入大量棋譜,機器會進行監督式學習,然后使用部分樣本訓練出一個基礎版的策略網絡,并使用完整樣本訓練出“進階版”的策略網絡,讓這兩個網絡對弈,機器通過不斷新增的環境數據調整策略,也就是所謂的強化學習。而“策略網絡”的作用是選擇落子的位置,再由“評價網絡”來判斷盤面,分析每個步數的權重,預測游戲的輸贏結果。當這兩個網絡把落子的可能性縮小到一個范圍內時,機器計算需要龐大運算資源的負擔減少了,再利用蒙特卡洛搜索樹于有限的組合中算出最佳解。而AlphaGo Zero與AlphaGo不同,它沒有被輸入任何棋譜,而是從一個不知道圍棋游戲規則的神經網絡開始,僅通過全新的強化學習算法,讓程序自我對弈,自己成為自己的老師,在這個過程中,神經網絡不斷被更新和調整。

中國工程院院士“高文”總結了什么樣的AI系統不需要外部數據就可以戰勝人,實際上需要滿足以下三個條件:

(1)集合是封閉的。無論是狀態集還是其他集,集合都是封閉的,我們知道圍棋集合是封閉的。

(2)規則是完備的。也就是說,下棋時什么地方能下,什么地方不能下,這個規則是完全完備的,不能隨便更改。

(3)約束是有限的。也就是說,在約束條件下,不可以繼續遞歸,因為允許繼續遞歸之后,往下推演就停不下來,而約束為有限的就能停下來。

滿足這三個條件,不需要外部數據,系統自己產生數據就夠了。所以可以預見,今后有很多情況,我們可以判斷這個人和機器最后誰能贏,滿足這三個條件機器一定能贏,無論是德州撲克還是圍棋,類似的情況很多。

主站蜘蛛池模板: 宝兴县| 呼图壁县| 汝南县| 廉江市| 仁寿县| 光山县| 伊金霍洛旗| 怀仁县| 吉木萨尔县| 新干县| 桑植县| 遂平县| 北流市| 南平市| 汝城县| 营口市| 光山县| 万安县| 六安市| 博湖县| 财经| 嘉兴市| 广元市| 武定县| 库车县| 大新县| 山西省| 阿合奇县| 古交市| 高阳县| 泰安市| 疏附县| 渑池县| 涿鹿县| 红河县| 台中市| 南雄市| 扶余县| 黑山县| 化隆| 安塞县|