官术网_书友最值得收藏!

  • 當核能遇見智能
  • 張恒編著
  • 2098字
  • 2024-08-19 17:38:02

第一章 人工智能浪潮

圍棋,規則簡潔而優雅,但玩法卻千變萬化,欲精通其內涵需要大量的練習與鉆研。與此同時,圍棋被認為是最復雜的棋盤游戲之一,據估計,圍棋的決策點大概有10的170次方之多,其復雜度已于1978年被Robertson與Munro證明為PSPACE-hard(一類復雜性集合)。

1933年,19歲的吳清源五段已經戰績輝煌,在讀賣新聞社主辦的“日本棋院選手權戰”[1]中獲得優勝,取得與本因坊秀哉名人[2]的對弈資格,轟動日本。圍棋運算量極大,對于棋手的算力要求極高,同時,由于當時并未采用封棋制,名人可以視情況暫停,這場籠罩著“中日對抗”色彩的世紀棋局整整下了3個月才結束!最終本因坊秀哉名人取勝,但是其取勝過程引人懷疑,很多人懷疑勝負手非本因坊秀哉個人智慧所得。很多人認為,正是這盤棋開啟了人類現代圍棋理論的“啟蒙運動”。

幾千年來,無數偉大的棋手在方寸乾坤中展示出自己的勇氣與真意,可是,無論是本因坊秀哉名人,還是吳清源都不會想到,在他們的“世紀對弈”將近一個世紀后的2016年,與當世最優秀棋手對弈的竟然是一臺機器,更不會想到,人類1比4不敵AlphaGo。2016年12月,神秘棋手Master登錄中國弈城圍棋網,以每天10盤的速度接連擊敗中外各大頂尖棋手,取得了空前絕后的60連勝。人們耳熟能詳的職業棋手如古力、常昊等紛紛落敗,柯潔也不幸成為AlphaGo的手下敗將。2017年1月4日,AlphaGo團隊公布,Master背后正是升級版AlphaGo的這一事實。猛然間,人們意識到,新一輪人工智能(AI)浪潮已經洶涌而至。

AlphaGo是于2014年由英國倫敦Google DeepMind公司開發的人工智能圍棋程序。一直以來,相比起國際象棋,計算機在圍棋方面勝過人類的難度更大,因為圍棋有著更大的分支因子(Branching Factor),使得使用傳統的AI方法(如Alpha-Beta修剪、樹遍歷和啟發式搜索)變得非常困難。1997年,IBM公司的計算機程序Deep Blue在比賽中擊敗了國際象棋世界冠軍Garry Kasparov。在此后的近20年時間里,使用人工智能技術最強大的Go程序僅僅達到了業余5段圍棋選手的級別,且在無讓子的情況下仍然無法擊敗專業的圍棋棋手。

從技術的角度來說,AlphaGo的做法是使用了兩個深度神經網絡與蒙特卡洛樹搜索相結合的方法,其中一個以估值網絡來評估大量的選點,而以走棋網絡來選擇落子。在這種設計下,計算機既可以結合樹狀圖的長遠推斷,又可以像人類的大腦一樣自發學習進行直覺訓練,以提高其下棋實力。從更深層的算法層面來說,AlphaGo的算法設計了兩個深度學習網絡:價值網絡(Value Network)和策略網絡(Policy Network),二者的作用分別是預測游戲的勝利者和選擇下一步行動,而神經網絡的輸入是經過預處理的圍棋面板的描述(Description of Go Board)。此外,AlphaGo還使用了蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS),并使用了大量的人類和計算機的對弈來進行模型訓練。

繼圍棋之后,DeepMind又瞄準了暴雪公司的代表作之一——《星際爭霸》。當AlphaGo下圍棋時,可能的下法有10的170次方種,雖然這個數字比整個宇宙中的原子數量10的80次方多了幾十個量級,而這對于《星際爭霸》來說簡直是小兒科。《星際爭霸》作為一款經典的即時戰略(Real-Time Strategy,RTS)游戲,玩家必須在宏觀管理和微觀個體的控制之間保持謹慎的平衡,因此,《星際爭霸》在每一瞬間都有10的26次方種可能的操作——幾乎無法計算。同時,在這款游戲中不存在最優策略,人工智能程序需要不斷地探索和拓展更新戰略知識,且操作空間巨大,需要同時操作上百個不同的單位,所以可能的組合空間非常大。DeepMind團隊在《自然》上撰文表示,“《星際爭霸》已成為人工智能研究的一項重要挑戰,這要歸功于它天生的復雜性和多智能體挑戰,成就了它在專業電競中的持久地位,并且它與現實世界具有很強的相關性。”無獨有偶,紐芬蘭紀念大學計算機科學教授David Churchill曾說,“《星際爭霸》太復雜了,能適用于《星際爭霸》的系統,也能解決現實生活中的其他問題。”

DeepMind團隊針對這樣的游戲“神作”開發了專用的AI系統AlphaStar,正是這一套AI系統,在《星際爭霸2》中戰勝99.8%人類,登頂“宗師”段位。眾所周知,在RTS游戲中對于選手有一項關鍵評價參數,即Actions Per Minute(APM)[3]。實際上,AlphaStar的平均APM只有277,而職業玩家的APM則可以達到559。那么,是什么原因促使APM水平并不頂尖的AlphaStar可以戰勝一眾職業選手?

從游戲的角度來看,是策略;從計算機的角度來看,是模型。完美的策略來源于精心優化的模型,而正是這一點的足夠強大,使AlphaStar可以不拼“手速”也能輕松獲勝。

是什么使得AlphaStar的策略,或者說模型會被如此精妙地優化呢?

算力與算例。

這兩個發音相同的詞語的含義完全不同,二者實質上可以囊括本輪人工智能浪潮的兩大主要動因。我們回到AlphaStar的例子來解釋這兩個詞語。先看算力,AlphaStar的硬件基礎是10億億次浮點運算的液冷張量處理單元(Tensor Processing Unit,TPU),TPU正是專門為神經網絡機器學習而開發的專用集成電路(ASIC)。而算例,則是用于訓練和優化模型的數據。AlphaStar最初的訓練數據僅僅是暴雪公司發布的匿名人類游戲,以此為起點開始訓練模型;接下來,使用“Alpha League”循環比賽方法,先對比從人類數據中訓練出來的神經網絡,然后逐次迭代,不同的AI實例開始相互對戰,成功實例的分支被采用,并作為新選手重新引入“Alpha League”,使其不斷發展壯大;最后,在“Alpha League”中選擇最不容易被利用的AI程序去挑戰人類,這個被選中的“天之驕子”稱為“The Nash of League”。也正是這位“The Nash of League”戰勝了《星際爭霸》人類選手,最終登頂“宗師”段位。

主站蜘蛛池模板: 当阳市| 宁化县| 兴隆县| 资阳市| 百色市| 任丘市| 若羌县| 庆云县| 清徐县| 望谟县| 浦江县| 开阳县| 淮北市| 晋城| 自治县| 海安县| 榆社县| 建瓯市| 永兴县| 建昌县| 祁东县| 临武县| 南安市| 丰原市| 四川省| 永济市| 济宁市| 富阳市| 凉山| 伊宁县| 临西县| 舟山市| 施甸县| 额济纳旗| 旌德县| 闽侯县| 简阳市| 隆昌县| 金沙县| 海阳市| 长治县|