jdb财神捕鱼财神厅

書名：天才與算法：人腦與AI的數學思維
作者名： (英)馬庫斯·杜·索托伊
本章字數： 3056字
更新時間： 2020-04-08 19:33:18

人類的反擊

第三局比賽在3月12日星期六舉行，李世石有一天的時間可以用來休息、恢復狀態。第一局比賽進行了三個多小時，第二局進行了四個多小時。在這方面，人與機器畢竟不同，人需要休息，而機器是不需要的。連續的兩場敗局無疑給李世石帶來了很大的精神壓力和挫敗感。

然而，李世石并沒有躺下來睡大覺，而是與一群職業棋手分析和探討此前兩場比賽中失利的原因，這場討論一直持續到次日清晨6點。AlphaGo有弱點可以利用嗎？李世石認為不只機器可以學習和進化，人也可以從失敗中學到一些東西。

第三局比賽開局時，李世石非常強勢，并取得了不錯的戰果。在他凌厲的棋勢下，AlphaGo只能被驅趕，被壓迫在一小片區域內。這種一邊倒的局面使得評論員都開始興奮了起來，有人直接表示李世石已經發現了AlphaGo的弱點。但在后來，局勢出人意料地急轉直下，一位評論員回憶道：“形勢急轉直下，眼睜睜地看著所發生的一切，讓我深感不適……”當李世石把AlphaGo逼到絕境，AlphaGo的巨大潛力似乎被激發出來了。隨著比賽的進行，AlphaGo開始采用被評論員稱為怠惰走法（lazy moves）的策略。通過分析，AlphaGo確信自己最終可以獲勝，正因為如此，它選擇了這種安全的策略。它并不關心能贏多少目，重要的是它最終一定會贏。這種耍賴一樣的怠惰走法可能對李世石來說有些冒犯，但AlphaGo這種做法并沒有任何挾私報復的性質。它這樣做只是單純地為了贏棋。李世石不想就此認輸，他在棋盤上堅持應對著，覺得也許在這些怠惰走法中還有可乘之機。

但在第176手后，李世石還是投子認輸了，AlphaGo以3：0戰勝了人類。不過在后臺，DeepMind團隊的成員卻產生了異樣的情緒：雖說他們已經贏得了比賽，但他們看到的AlphaGo對李世石造成的巨大影響使他們很難高興起來。百萬獎金很顯然已是他們的囊中之物，在比賽之前DeepMind團隊就已經達成共識，如果能贏得這筆獎金，就將它捐贈給致力于推廣圍棋和科學研究的項目以及聯合國兒童基金會等慈善機構，但人類的思維和邏輯讓他們對李世石的痛苦產生了同情。

AlphaGo獲勝后沒有任何情緒反應，不會產生任何小小的電流波動，更不會顯示出一段代碼或是大叫一聲“爽！”。機器的這種“鎮定”給人帶來希望的同時，也讓我們為將來感到憂心。帶來希望，是因為正是人類的這種情緒反應激勵著我們去探索未知、開創未來，畢竟還是人類給AlphaGo編寫了制勝的代碼。感到憂心，是因為機器太過“冷漠”，它根本就不關心事情發展的最終結局是不是程序編寫者所期望的。

李世石被三連敗的事實打擊得有些恍惚，他在新聞發布會上道歉說：

不知該如何開口，也不知道今天要說些什么，我必須為辜負了大家的期望表達歉意。我應該在比賽中表現得更好，我盡力了，但我還是體會到了深深的無力感。

同時，他也呼吁大家繼續關注后續的兩場比賽，他現在的目標是至少為人類扳回一局。

連輸三局，整個比賽的勝負已定。李世石在第四局時似乎卸下了沉重的思想包袱，放松了許多，這樣反而使他能夠更專注于比賽本身。在第四局中，與第三局慎之又慎的行棋風格形成鮮明對比的是，李世石采用了一種更為激進、極端的“先撈后洗”（amashi）的策略。一位評論員將這種冒險的行為比作：一位金融家，不想通過日積月累的小收益來積累財富，而是激進地將整個銀行作為賭注押了出去。

李世石和他的團隊在星期六晚上通宵達旦，試圖通過逆向工程的方法掌握AlphaGo的下棋思路。他們發現AlphaGo似乎遵循著逐步增加獲勝概率并去調整落子的原則，而不是押注于復雜的單一走法。在第三局中，李世石就親身體驗了AlphaGo的怠惰走法。他們針對這個特點制定了應對策略，通過一著險棋來擾亂AlphaGo的策略：“勝負手”（all-or-nothing）策略可能會讓AlphaGo更難輕易得分。

AlphaGo似乎對這種策略毫不在意。比賽進行到第70手時，評論員開始覺察到AlphaGo再次占據了上風——當AlphaGo的棋路開始變得保守，頻頻使用怠惰走法時，就標志著AlphaGo已經確認自己領先了。李世石必須要做點什么了，否則很難扭轉乾坤。

如果說第二局對弈的第37手是AlphaGo的神來一筆，那么第四局的第78手就是李世石的逆襲大招。當他盯著棋盤審時度勢了30分鐘后，突然在看似不尋常的一處落下白子，剛好在AlphaGo的兩個黑子之間。當時在YouTube上發表評論的邁克爾·雷德蒙德（Michael Redmond）說道：“這一步讓我感到意外，我相信大多數人，包括AlphaGo，都會覺得措手不及。”

AlphaGo確實有些無措，下了一步莫名其妙的棋作為回應。又經過了幾手棋，AlphaGo就發現自己敗局已定。緊盯著電腦屏幕的DeepMind團隊發覺他們的程序在第78手時就開始失控了。之后，AlphaGo已經徹底崩潰，所以下了一連串的昏招。這顯然是圍棋程序的另一特點：當它意識到自己失敗后，會做出一些令人費解的瘋狂行為。

西爾弗看到AlphaGo的表現后說道：“我覺得大家看到這一幕會感到很搞笑！”果不其然，韓國的評論員們開始嘲笑AlphaGo的混亂狀態。很顯然，AlphaGo的行為沒有通過圖靈測試，因為任何一個具有戰略眼光的人都不會做出那樣的決策。當下到第180手時，AlphaGo在電腦屏幕上表示投子認輸。新聞演播室里爆發出雷鳴的掌聲。

人類終于扳回一局，3：1！當晚的新聞發布會上，李世石的笑容說明了一切：“這場勝利是如此的珍貴，世界上的任何東西都無法替代。”伴隨著媒體的歡呼，他高聲說道：“我能取得這局對弈的勝利是因為你們所有人給我的歡呼和鼓勵。”

當時，在中國評論這次比賽的古力稱贊道：“李世石的第78手實乃‘上帝之手’。”那一步棋打破了傳統棋路，是為整局比賽帶來深遠影響的關鍵所在。這是真正的人類創造力的體現，也是博登變革性創造力的一個極好的典范。不破不立，當你突破原有系統的束縛時，你的創意就會層出不窮。

哈薩比斯和西爾弗在新聞發布會上表示無法解釋AlphaGo失利的原因，他們需要回去好好分析——為什么它在應對李世石第78手時會走出如此糟糕的一系列昏招。事實上，AlphaGo與人類對弈的歷史經驗讓它完全摒棄了某些思考。根據它的評估，那種下法只有萬分之一的可能性會出現。它似乎沒有認真考慮去學習如何應對那種下法，所以就不自覺地優先考慮了應對其他下法的可能性。

如果李世石有足夠長的時間深入了解對手，那么他在比賽中戰勝AlphaGo的可能性或許會增大。他能在第五局比賽中保持獲勝的勢頭嗎？同樣是輸掉比賽，3：2還是4：1的結果大不相同。最后一局意義非凡，如果李世石能拿下第五局的勝利，那么他將在人們的心中播下對“AlphaGo絕對優勢”懷疑的種子。

經此一役，AlphaGo也收獲頗豐。現在就算李世石在第10000手下出違反常規的怪招，它也不會再想著僥幸過關了。這就是算法的強大之處：從錯誤中吸取教訓，進而反敗為勝。

但這并不意味著AlphaGo不會再犯新的錯誤。隨著第五局棋的進行，AlphaGo似乎放棄了一套針對特定布局的標準下法。正如哈薩比斯在后臺所講到的：AlphaGo在開局之初犯了一個錯誤（因為它并不知道圍棋中有一個著名的“手筋” 圍棋術語，指“靈感之下的妙手”。——譯者注），但現在它正在努力地改正，亡羊補牢。

開局時李世石處于主動，之后AlphaGo漸漸地挽回了頹勢。比賽非常激烈，直到比賽結束之前，DeepMind團隊也還不清楚AlphaGo是否獲勝了。歷時5個小時的人機大戰，在第281手棋時分出了勝負，李世石中盤認輸。這一次后臺一片歡呼，DeepMind團隊擊掌相慶，哈薩比斯激動地握緊拳頭揮向空中以慶祝勝利。李世石在第四局的獲勝重新激起了他們的斗志，對他們來說贏得最后一局尤為重要。

回顧此次人機對弈，很多人都意識到了它非凡的意義。一些人立即發表了評論：“這是人工智能的重要轉折點！”從表面上看，AlphaGo所能做的僅僅是下圍棋，但實際上，它的學習和適應能力才是最值得人類關注的一種全新的東西。哈薩比斯在贏得首局勝利后就曾發表Twitter消息：“AlphaGo贏了！我們成功地把它降落在了月球表面。”這是一個很好的比喻，登月并沒有產生關于宇宙的非凡的新突破，但卻意味著我們為實現這一壯舉而開發的技術產生了非凡的新突破。賽后，韓國圍棋協會授予AlphaGo榮譽九段稱號，這是圍棋選手所能獲得的最高榮譽。

官术网_书友最值得收藏!

天才與算法：人腦與AI的數學思維

人類的反擊