書名：當核能遇見智能
作者名：張恒編著
本章字數： 2098字
更新時間： 2024-08-19 17:38:02

第一章　人工智能浪潮

圍棋，規則簡潔而優雅，但玩法卻千變萬化，欲精通其內涵需要大量的練習與鉆研。與此同時，圍棋被認為是最復雜的棋盤游戲之一，據估計，圍棋的決策點大概有10的170次方之多，其復雜度已于1978年被Robertson與Munro證明為PSPACE-hard（一類復雜性集合）。

1933年，19歲的吳清源五段已經戰績輝煌，在讀賣新聞社主辦的“日本棋院選手權戰”[1]中獲得優勝，取得與本因坊秀哉名人[2]的對弈資格，轟動日本。圍棋運算量極大，對于棋手的算力要求極高，同時，由于當時并未采用封棋制，名人可以視情況暫停，這場籠罩著“中日對抗”色彩的世紀棋局整整下了3個月才結束！最終本因坊秀哉名人取勝，但是其取勝過程引人懷疑，很多人懷疑勝負手非本因坊秀哉個人智慧所得。很多人認為，正是這盤棋開啟了人類現代圍棋理論的“啟蒙運動”。

幾千年來，無數偉大的棋手在方寸乾坤中展示出自己的勇氣與真意，可是，無論是本因坊秀哉名人，還是吳清源都不會想到，在他們的“世紀對弈”將近一個世紀后的2016年，與當世最優秀棋手對弈的竟然是一臺機器，更不會想到，人類1比4不敵AlphaGo。2016年12月，神秘棋手Master登錄中國弈城圍棋網，以每天10盤的速度接連擊敗中外各大頂尖棋手，取得了空前絕后的60連勝。人們耳熟能詳的職業棋手如古力、常昊等紛紛落敗，柯潔也不幸成為AlphaGo的手下敗將。2017年1月4日，AlphaGo團隊公布，Master背后正是升級版AlphaGo的這一事實。猛然間，人們意識到，新一輪人工智能（AI）浪潮已經洶涌而至。

AlphaGo是于2014年由英國倫敦Google DeepMind公司開發的人工智能圍棋程序。一直以來，相比起國際象棋，計算機在圍棋方面勝過人類的難度更大，因為圍棋有著更大的分支因子（Branching Factor），使得使用傳統的AI方法（如Alpha-Beta修剪、樹遍歷和啟發式搜索）變得非常困難。1997年，IBM公司的計算機程序Deep Blue在比賽中擊敗了國際象棋世界冠軍Garry Kasparov。在此后的近20年時間里，使用人工智能技術最強大的Go程序僅僅達到了業余5段圍棋選手的級別，且在無讓子的情況下仍然無法擊敗專業的圍棋棋手。

從技術的角度來說，AlphaGo的做法是使用了兩個深度神經網絡與蒙特卡洛樹搜索相結合的方法，其中一個以估值網絡來評估大量的選點，而以走棋網絡來選擇落子。在這種設計下，計算機既可以結合樹狀圖的長遠推斷，又可以像人類的大腦一樣自發學習進行直覺訓練，以提高其下棋實力。從更深層的算法層面來說，AlphaGo的算法設計了兩個深度學習網絡：價值網絡（Value Network）和策略網絡（Policy Network），二者的作用分別是預測游戲的勝利者和選擇下一步行動，而神經網絡的輸入是經過預處理的圍棋面板的描述（Description of Go Board）。此外，AlphaGo還使用了蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS），并使用了大量的人類和計算機的對弈來進行模型訓練。

繼圍棋之后，DeepMind又瞄準了暴雪公司的代表作之一——《星際爭霸》。當AlphaGo下圍棋時，可能的下法有10的170次方種，雖然這個數字比整個宇宙中的原子數量10的80次方多了幾十個量級，而這對于《星際爭霸》來說簡直是小兒科。《星際爭霸》作為一款經典的即時戰略（Real-Time Strategy，RTS）游戲，玩家必須在宏觀管理和微觀個體的控制之間保持謹慎的平衡，因此，《星際爭霸》在每一瞬間都有10的26次方種可能的操作——幾乎無法計算。同時，在這款游戲中不存在最優策略，人工智能程序需要不斷地探索和拓展更新戰略知識，且操作空間巨大，需要同時操作上百個不同的單位，所以可能的組合空間非常大。DeepMind團隊在《自然》上撰文表示，“《星際爭霸》已成為人工智能研究的一項重要挑戰，這要歸功于它天生的復雜性和多智能體挑戰，成就了它在專業電競中的持久地位，并且它與現實世界具有很強的相關性。”無獨有偶，紐芬蘭紀念大學計算機科學教授David Churchill曾說，“《星際爭霸》太復雜了，能適用于《星際爭霸》的系統，也能解決現實生活中的其他問題。”

DeepMind團隊針對這樣的游戲“神作”開發了專用的AI系統AlphaStar，正是這一套AI系統，在《星際爭霸2》中戰勝99.8％人類，登頂“宗師”段位。眾所周知，在RTS游戲中對于選手有一項關鍵評價參數，即Actions Per Minute（APM）[3]。實際上，AlphaStar的平均APM只有277，而職業玩家的APM則可以達到559。那么，是什么原因促使APM水平并不頂尖的AlphaStar可以戰勝一眾職業選手？

從游戲的角度來看，是策略；從計算機的角度來看，是模型。完美的策略來源于精心優化的模型，而正是這一點的足夠強大，使AlphaStar可以不拼“手速”也能輕松獲勝。

是什么使得AlphaStar的策略，或者說模型會被如此精妙地優化呢？

算力與算例。

這兩個發音相同的詞語的含義完全不同，二者實質上可以囊括本輪人工智能浪潮的兩大主要動因。我們回到AlphaStar的例子來解釋這兩個詞語。先看算力，AlphaStar的硬件基礎是10億億次浮點運算的液冷張量處理單元（Tensor Processing Unit，TPU），TPU正是專門為神經網絡機器學習而開發的專用集成電路（ASIC）。而算例，則是用于訓練和優化模型的數據。AlphaStar最初的訓練數據僅僅是暴雪公司發布的匿名人類游戲，以此為起點開始訓練模型；接下來，使用“Alpha League”循環比賽方法，先對比從人類數據中訓練出來的神經網絡，然后逐次迭代，不同的AI實例開始相互對戰，成功實例的分支被采用，并作為新選手重新引入“Alpha League”，使其不斷發展壯大；最后，在“Alpha League”中選擇最不容易被利用的AI程序去挑戰人類，這個被選中的“天之驕子”稱為“The Nash of League”。也正是這位“The Nash of League”戰勝了《星際爭霸》人類選手，最終登頂“宗師”段位。

官术网_书友最值得收藏!

當核能遇見智能

第一章 人工智能浪潮

第一章　人工智能浪潮