不朽情缘在什么平台

書名：人工智能技術入門
作者名：楊正洪
本章字數： 977字
更新時間： 2021-12-09 11:45:34

1.2.6　游戲

游戲是一個相對簡單和可控的實驗環境，因此經常用于AI研究。在游戲領域，AI已超過人類。

1．國際象棋

20世紀50年代，一些計算機科學家預測，到1967年，計算機將擊敗人類象棋冠軍。但直到1997年，IBM的“深藍”系統才擊敗當時的國際象棋冠軍蓋瑞·卡斯帕羅夫（Gary Kasparov）。如今，在智能手機上運行的國際象棋程序可以表現出大師級的水平。

2．圍棋

2016年3月，谷歌DeepMind團隊開發的AlphaGo系統擊敗了圍棋冠軍。DeepMind后來發布了AlphaGo Master，并在2017年3月擊敗了排名世界第一的柯潔。2017年10月，DeepMind發表在Nature上的論文詳細介紹了AlphaGo的另一個新版本—AlphaGo Zero，它以100︰0擊敗了最初的AlphaGo系統。

AlphaGo成功的背后是結合了深度學習、強化學習（Reinforcement Learning）與搜索樹算法（Tree Search）三大技術。簡單來說，當時的AlphaGo有兩個核心：策略網絡（Policy Network）和評價網絡（Value Network），這兩個核心都是由卷積神經網絡（Convolutional Neural Networks,CNN）所構成的。具體而言，首先在“策略網絡”中輸入大量棋譜，機器會進行監督式學習，然后使用部分樣本訓練出一個基礎版的策略網絡，并使用完整樣本訓練出“進階版”的策略網絡，讓這兩個網絡對弈，機器通過不斷新增的環境數據調整策略，也就是所謂的強化學習。而“策略網絡”的作用是選擇落子的位置，再由“評價網絡”來判斷盤面，分析每個步數的權重，預測游戲的輸贏結果。當這兩個網絡把落子的可能性縮小到一個范圍內時，機器計算需要龐大運算資源的負擔減少了，再利用蒙特卡洛搜索樹于有限的組合中算出最佳解。而AlphaGo Zero與AlphaGo不同，它沒有被輸入任何棋譜，而是從一個不知道圍棋游戲規則的神經網絡開始，僅通過全新的強化學習算法，讓程序自我對弈，自己成為自己的老師，在這個過程中，神經網絡不斷被更新和調整。

中國工程院院士“高文”總結了什么樣的AI系統不需要外部數據就可以戰勝人，實際上需要滿足以下三個條件：

（1）集合是封閉的。無論是狀態集還是其他集，集合都是封閉的，我們知道圍棋集合是封閉的。

（2）規則是完備的。也就是說，下棋時什么地方能下，什么地方不能下，這個規則是完全完備的，不能隨便更改。

（3）約束是有限的。也就是說，在約束條件下，不可以繼續遞歸，因為允許繼續遞歸之后，往下推演就停不下來，而約束為有限的就能停下來。

滿足這三個條件，不需要外部數據，系統自己產生數據就夠了。所以可以預見，今后有很多情況，我們可以判斷這個人和機器最后誰能贏，滿足這三個條件機器一定能贏，無論是德州撲克還是圍棋，類似的情況很多。

官术网_书友最值得收藏!

人工智能技術入門

1.2.6 游戲

1．國際象棋

2．圍棋

1.2.6　游戲