- 人工智能技術入門
- 楊正洪
- 977字
- 2021-12-09 11:45:34
1.2.6 游戲
游戲是一個相對簡單和可控的實驗環境,因此經常用于AI研究。在游戲領域,AI已超過人類。
1.國際象棋
20世紀50年代,一些計算機科學家預測,到1967年,計算機將擊敗人類象棋冠軍。但直到1997年,IBM的“深藍”系統才擊敗當時的國際象棋冠軍蓋瑞·卡斯帕羅夫(Gary Kasparov)。如今,在智能手機上運行的國際象棋程序可以表現出大師級的水平。
2.圍棋
2016年3月,谷歌DeepMind團隊開發的AlphaGo系統擊敗了圍棋冠軍。DeepMind后來發布了AlphaGo Master,并在2017年3月擊敗了排名世界第一的柯潔。2017年10月,DeepMind發表在Nature上的論文詳細介紹了AlphaGo的另一個新版本—AlphaGo Zero,它以100︰0擊敗了最初的AlphaGo系統。
AlphaGo成功的背后是結合了深度學習、強化學習(Reinforcement Learning)與搜索樹算法(Tree Search)三大技術。簡單來說,當時的AlphaGo有兩個核心:策略網絡(Policy Network)和評價網絡(Value Network),這兩個核心都是由卷積神經網絡(Convolutional Neural Networks,CNN)所構成的。具體而言,首先在“策略網絡”中輸入大量棋譜,機器會進行監督式學習,然后使用部分樣本訓練出一個基礎版的策略網絡,并使用完整樣本訓練出“進階版”的策略網絡,讓這兩個網絡對弈,機器通過不斷新增的環境數據調整策略,也就是所謂的強化學習。而“策略網絡”的作用是選擇落子的位置,再由“評價網絡”來判斷盤面,分析每個步數的權重,預測游戲的輸贏結果。當這兩個網絡把落子的可能性縮小到一個范圍內時,機器計算需要龐大運算資源的負擔減少了,再利用蒙特卡洛搜索樹于有限的組合中算出最佳解。而AlphaGo Zero與AlphaGo不同,它沒有被輸入任何棋譜,而是從一個不知道圍棋游戲規則的神經網絡開始,僅通過全新的強化學習算法,讓程序自我對弈,自己成為自己的老師,在這個過程中,神經網絡不斷被更新和調整。
中國工程院院士“高文”總結了什么樣的AI系統不需要外部數據就可以戰勝人,實際上需要滿足以下三個條件:
(1)集合是封閉的。無論是狀態集還是其他集,集合都是封閉的,我們知道圍棋集合是封閉的。
(2)規則是完備的。也就是說,下棋時什么地方能下,什么地方不能下,這個規則是完全完備的,不能隨便更改。
(3)約束是有限的。也就是說,在約束條件下,不可以繼續遞歸,因為允許繼續遞歸之后,往下推演就停不下來,而約束為有限的就能停下來。
滿足這三個條件,不需要外部數據,系統自己產生數據就夠了。所以可以預見,今后有很多情況,我們可以判斷這個人和機器最后誰能贏,滿足這三個條件機器一定能贏,無論是德州撲克還是圍棋,類似的情況很多。
- 面向STEM的mBlock智能機器人創新課程
- Managing Mission:Critical Domains and DNS
- Dreamweaver CS3網頁制作融會貫通
- 80x86/Pentium微型計算機原理及應用
- 大數據平臺異常檢測分析系統的若干關鍵技術研究
- 數據通信與計算機網絡
- 高維聚類知識發現關鍵技術研究及應用
- Visual Basic.NET程序設計
- Mastering Game Development with Unreal Engine 4(Second Edition)
- Chef:Powerful Infrastructure Automation
- PowerMill 2020五軸數控加工編程應用實例
- 貫通開源Web圖形與報表技術全集
- 電氣控制及Micro800 PLC程序設計
- 計算機組裝與維修實訓
- 特征工程入門與實踐