1:3,人機大戰(zhàn)李世石扳回一城,這場牽動了中韓兩國數(shù)千萬網(wǎng)友的“找BUG”大賽也出現(xiàn)了逆轉(zhuǎn)態(tài)勢。
昨天結(jié)婚紀念日輸?shù)舯荣惖氖澜鐕骞谲娎钍朗?,在今天的比賽中先抑后揚,執(zhí)白的他在面對劣勢時,78手下出“神之一手”最終贏下比賽。其實本場比賽開始階段,李世石布局非常保守,被多名專業(yè)棋手認為信心不夠,即使在前半盤也一直處于劣勢,搜狐科技直播間內(nèi)很多網(wǎng)友也紛紛惋惜的表示李世石有可能再次失敗。
但在下午2點半左右劇情發(fā)生大逆轉(zhuǎn),在李世石還剩不到15分鐘就進入讀秒時,李世石在第78手下出“神之一手”,而AlphaGo的應(yīng)對方式也堪稱詭異,連續(xù)下出判斷自己勝率極低的昏招,麥克雷蒙九段甚至認為AlphaGo累了,最終在“犯了人類棋手不會犯的(很多)錯誤”之后,AlphaGo在接近自己讀秒時宣布認輸。
在賽后的新聞發(fā)布會上,DeepMind團隊的負責(zé)人表示“我們非常開心,AlphaGo一開始是自己跟自己比賽,這就意味著它在算法上會存在缺陷。我們來到這里就是為了測試它的極限,并找到弱點來不斷地提高AlphaGo。我們回到英國之后會找出失敗的原因,并找出改變的方法”。
他們還表示,AlphaGo仍處于原型階段,并沒有進化到Beta階段。但參與比賽的機器人版本是分布式版本的第17個版本,計算能力要強于單機版本的AlphaGo。在它判斷出自己的勝率低于一定數(shù)值時,就會主動認輸。
而李世石談到本場比賽勝利時很謙虛,認為“神之一手”對于自己來講只是當(dāng)時唯一能想到的一步棋。但他表示AlphaGo是有弱點的,只是自己還沒發(fā)現(xiàn),可能在它執(zhí)黑先行的時候會有一些缺陷,掙扎的部分也更多。
對于信息不平等的問題,李世石表示如果能更多了解機器人的信息,可能會容易一些,但這并不是成敗與否的關(guān)鍵。DeepMind的負責(zé)人也表示并沒有針對李世石對AlphaGo進行培訓(xùn),他們做的只是針對廣泛人群的圍棋培訓(xùn)。即使要針對李世石進行培訓(xùn),也需要幾百萬甚至上億場比賽數(shù)據(jù),這基本是做不到的。
不要被人機世紀大戰(zhàn)的噱頭沖昏頭
科大訊飛董事長劉慶峰曾表示,雖然圍棋需要的計算量非常大,但本次人機大戰(zhàn)對于人工智能帶來的影響力,并不比IBM深藍電腦與人類進行象棋大戰(zhàn)、以及Watson電腦參加脫口秀節(jié)目大。本次AlphaGo與李世石的大戰(zhàn)之所以引發(fā)廣泛關(guān)注,媒體傳播的成熟是主要原因。
DeepMind團隊負責(zé)人也表示,這僅僅是一步步測試的過程,他們從英國起步,到橫掃歐洲,再到韓國本土,甚至下一步挑戰(zhàn)中國棋手,都是谷歌逐步測試自家機器人的過程。
所以在AlphaGo贏下第一盤之后,我們就應(yīng)該相信,人工智能已經(jīng)可以在圍棋領(lǐng)域戰(zhàn)勝人類了。此后的幾番大戰(zhàn),輸贏都已經(jīng)不太重要,尋找AlphaGo機器人算法弱點的意義反而更大一些。
而李世石“神之一手”之的出現(xiàn),也恰恰說明了AlphaGo還存在著弱點:策略神經(jīng)網(wǎng)絡(luò)在產(chǎn)生可能的落子點時,并沒有看到這一點,在這里存在誤區(qū)和弱點。簡單說就是算法的誤區(qū)給了李世石下出“神之一手”的機會。
而此前很多人工智能專家都表示,連環(huán)劫很可能是蒙特卡洛算法的致命弱點,甚至兩個劫都有可能對機器人的計算造成極大障礙。這也是在昨日對戰(zhàn)中,眾多人工智能專家和職業(yè)棋手都期待AlphaGo能夠打劫的原因。
重新認識深度學(xué)習(xí)技術(shù)的價值
AlphaGo的戰(zhàn)績已經(jīng)引起了谷歌公司的高度重視,作為谷歌聯(lián)合創(chuàng)始人的謝爾蓋昨天也專門跑到韓國現(xiàn)場“督戰(zhàn)”,并在取得勝利后興奮異常。小米科技CEO雷軍昨晚在微信上表示,盡管自己站在AlphaGo這邊,但AI贏得如此利落還是遠超過自己想象。
人工智能在短暫火爆后曾因為遇到瓶頸而進入低谷期,而隨著近幾年深度學(xué)習(xí)技術(shù)的成熟,人工智能也重新贏來了高關(guān)注度。
中國人工智能學(xué)會常務(wù)理事劉成林教授在接受媒體采訪時表示,AlphaGo的研發(fā)團隊采用了最先進的深度學(xué)習(xí)技術(shù),利用深度神經(jīng)網(wǎng)絡(luò)對棋盤的局勢進行了預(yù)測,并且在前期搜集了大量圍棋對弈的歷史數(shù)據(jù),其中包括很多圍棋名人的棋譜。它已經(jīng)具備了從大規(guī)模數(shù)據(jù)中學(xué)習(xí)的能力,所以幾個月內(nèi)就實現(xiàn)了人類若干年才能夠達到的學(xué)習(xí)效果,這是驚人的學(xué)習(xí)能力。
而在深度學(xué)習(xí)技術(shù)出現(xiàn)之前,過去采取的方法就是人類耗費巨大的精力編寫程序,輸入機器及其然后執(zhí)行預(yù)定的功能。而現(xiàn)在人類只需要編寫讓機器人深度學(xué)習(xí)的程序,機器就能夠?qū)崿F(xiàn)在龐大的數(shù)據(jù)積累過程中通過學(xué)習(xí)來實現(xiàn)智能化操作,并且其水平可以在數(shù)據(jù)增加的過程中不斷得到提升
華盛頓大學(xué)電子工程博士,臉書機器學(xué)習(xí)深度學(xué)習(xí)研究員談釗表示,程序應(yīng)該不會有嚴重bug,只會有一些邊角情況可能沒有被考慮到。如果發(fā)現(xiàn)了這種邊角情況,可以產(chǎn)生一些相關(guān)數(shù)據(jù),扔給AlphaGo訓(xùn)練一小段時間就行了。(微信號 志明說 文/崔鵬)