人機圍棋大戰首局落定:李世石投子認輸!

圖文直播全程(cheng)回顧
新浪科技訊 北(bei)京時間3月9日下(xia)午(wu)消(xiao)息,今天下(xia)午(wu)谷歌人(ren)工智(zhi)能AlphaGo與韓國棋手李(li)(li)世(shi)石(shi)的第一(yi)場比(bi)(bi)賽(sai)結(jie)束,AlphaGo獲(huo)得今日比(bi)(bi)賽(sai)的勝利。雙方(fang)在(zai)較量3個半小時后,李(li)(li)世(shi)石(shi)宣布認(ren)輸(shu)。今日比(bi)(bi)賽(sai)結(jie)束后,雙方(fang)還將分別在(zai)3月10日(周四)、12日(周六)、13日(周日)、15日 (周二)的北(bei)京時間(jian)中午(wu)12點進(jin)行剩余4場比(bi)(bi)賽(sai)。
本次(ci)比(bi)賽用(yong)時每方2小時,1分(fen)鐘讀秒三次(ci)。比(bi)賽采(cai)用(yong)中(zhong)(zhong)國規則,黑(hei)貼3又3/4子(黑(hei)貼7目半(ban))。采(cai)用(yong)中(zhong)(zhong)國規則是(shi)因Alpha GO以中(zhong)(zhong)國規則為基礎開(kai)發。
比賽(sai)采用5局3勝(sheng)(sheng)制,最終比賽(sai)獲(huo)勝(sheng)(sheng)方將獲(huo)得獎金(jin)100萬美元。如果(guo)AlphaGo獲(huo)勝(sheng)(sheng),獎金(jin)將捐贈(zeng)給聯合國兒童基金(jin)會(UNICEF),STEM教育,以及圍棋慈善機(ji)構(gou)(Go Charity)。
AlphaGo開發者DeepMind公司(si)在今年1月(yue)的(de)學術雜志《Nature》刊(kan)登封面(mian)文(wen)章(zhang),展示(shi)了圍棋人工智能領域(yu)突破性進展的(de)詳細情(qing)況。這(zhe)次對(dui)(dui)弈(yi)中(zhong),坐在李世石(shi)對(dui)(dui)面(mian)正是(shi)《Nature》封面(mian)文(wen)章(zhang)作者之一(yi)黃(huang)士杰(Aja Huang),他本人來(lai)代(dai)替AlphaGo在棋盤(pan)上落子。AlphaGo一(yi)方的(de)旗(qi)幟是(shi)英國國旗(qi),因為這(zhe)次參賽的(de)谷(gu)歌圍棋程序AlphaGo來(lai)自英國人工智能公司(si)DeepMind。
谷歌AlphaGo在第(di)一次與世界優(you)質圍棋手的(de)較量中取得(de)勝利,這是人工智能發(fa)展史上(shang)重要的(de)里(li)程碑,代表人工智能已經能在諸如圍棋等高度復雜(za)的(de)項(xiang)目中發(fa)揮出超過人類的(de)作用。

一(yi)般(ban)來說,現在的職業圍棋高(gao)手(shou)喜歡下白棋,但李(li)世石(shi)有些出(chu)(chu)人意料(liao)地(di)第(di)一(yi)盤選(xuan)擇(ze)了執黑先行。很快李(li)世石(shi)給出(chu)(chu)了理由,黑棋布(bu)局(ju)(ju)走出(chu)(chu)了一(yi)個新型,阿爾法的應對不(bu)佳,有些虧損。李(li)世石(shi)顯然研究(jiu)了電腦(nao)圍棋的理論(lun),得(de)出(chu)(chu)了電腦(nao)在布(bu)局(ju)(ju)階段不(bu)太(tai)擅(shan)長應對新型的推論(lun),棋局(ju)(ju)的進行證明了這一(yi)點,李(li)世石(shi)有備而(er)來。
不過圍棋(qi)決定勝負的(de)往往是中盤階段,阿爾法似乎也“意(yi)識”到了自(zi)己(ji)形勢不佳(jia),之后的(de)下法選擇得(de)非(fei)常強硬,雙方(fang)早早就(jiu)展開了接觸(chu)戰(zhan)。電腦的(de)下法令觀戰(zhan)的(de)職業棋(qi)手(shou)目瞪口(kou)呆,幾(ji)乎招(zhao)招(zhao)都是最佳(jia)應對。好在戰(zhan)斗也是李世石的(de)強項,雙方(fang)就(jiu)像武林高手(shou),猛(meng)對幾(ji)掌,然后各自(zi)退了好幾(ji)步(bu)。
不過在(zai)第一個戰役(yi)結(jie)束之后(hou)(hou),電(dian)腦(nao)的選擇(ze)令人(ren)(ren)費解。正常高手,對掌之后(hou)(hou),總要運氣緩一下(xia),然后(hou)(hou)再打,電(dian)腦(nao)的下(xia)法則是直接又撲(pu)上(shang)來了。過剛易折,這處的戰役(yi),李世石(shi)抓(zhua)住機會,圍住一塊大(da)空。人(ren)(ren)族(zu)代表心(xin)里有底了,電(dian)腦(nao)雖然在(zai)局部戰斗表現出色,但在(zai)大(da)局上(shang)似乎不如(ru)人(ren)(ren)類(lei)高瞻(zhan)遠(yuan)矚。
不(bu)過作為人類最大弱點是(shi)會受情(qing)緒波動的(de)(de)(de)影響,取得優勢后(hou),李(li)世石(shi)的(de)(de)(de)心態似(si)乎發生了變化,右下(xia)角(jiao)黑(hei)棋(qi)下(xia)得太(tai)過保守,白(bai)棋(qi)左右逢(feng)源(yuan),角(jiao)部做(zuo)活,大龍也(ye)及時補(bu)棋(qi),黑(hei)棋(qi)一無所得,此前(qian)的(de)(de)(de)優勢消失殆盡。各路講(jiang)解的(de)(de)(de)職業棋(qi)手(shou)判斷也(ye)出現了分歧,不(bu)過隨(sui)著棋(qi)局(ju)進入官子階段,大家發現李(li)世石(shi)其(qi)實敗局(ju)已定(ding)。
最終李世石投(tou)子認(ren)負,表情(qing)上(shang)看上(shang)去不是很痛苦(ku),不知(zhi)是不是找(zhao)到了(le)電腦的弱點(dian)?
谷歌(ge)為何要(yao)做人工智能圍棋程序(xu)AlphaGo
谷(gu)歌并不只(zhi)是(shi)想(xiang)做一個(ge)(ge)棋類程序,而是(shi)想(xiang)做一個(ge)(ge)通用的(de)智(zhi)能(neng)(neng)計(ji)算系統。如(ru)果(guo)解決了(le)圍(wei)棋問(wen)題,谷(gu)歌希望能(neng)(neng)把這套人(ren)工智(zhi)能(neng)(neng)算法用于(yu)災害預測、風險控制、醫療(liao)健康和(he)機(ji)器人(ren)等復雜(za)領域。也就是(shi)說(shuo)谷(gu)歌的(de)目的(de)還是(shi)為(wei)了(le)更(geng)好的(de)服務人(ren)類,沒有任何惡意。DeepMind(AlphaGo的(de)研究公(gong)(gong)司)創始(shi)人(ren)哈薩比斯說(shuo):公(gong)(gong)眾對人(ren)工智(zhi)能(neng)(neng)的(de)警示掩(yan)蓋了(le)人(ren)工智(zhi)能(neng)(neng)帶來的(de)幫助。距離人(ren)腦水平的(de)人(ren)工智(zhi)能(neng)(neng)仍(reng)然相當遙遠,可能(neng)(neng)還需要幾十(shi)年。
在(zai)昨天的(de)賽前發布(bu)會上,谷(gu)歌董(dong)事長施密(mi)特表(biao)示,輸(shu)贏都是人(ren)類的(de)勝利(li)。因為正(zheng)是人(ren)類的(de)努力才讓人(ren)工智能有了現在(zai)的(de)突破。
但并不是所有人都(dou)會(hui)對人工智能持樂觀態(tai)度。諸(zhu)如特(te)斯拉CEO馬斯(si)克、理論物(wu)理學家霍金(jin)等科技界的名人就對(dui)此產生(sheng)了擔憂。
圍(wei)棋復雜(za)度超過宇宙原(yuan)子總(zong)數
圍(wei)棋棋盤橫豎各有(you)19條線,共有(you)361個(ge)落(luo)(luo)子(zi)點,雙(shuang)方交替落(luo)(luo)子(zi),這意味著圍(wei)棋總共可能(neng)(neng)(neng)(neng)有(you)10^171(1后面有(you)171個(ge)零(ling))種(zhong)可能(neng)(neng)(neng)(neng)性。這個(ge)數(shu)字到(dao)底有(you)多大,你可能(neng)(neng)(neng)(neng)沒有(you)感覺。我們可以告訴(su)你,宇宙中的(de)(de)原子(zi)總數(shu)是10^80(1后面80個(ge)零(ling)),即使窮盡整個(ge)宇宙的(de)(de)物質(zhi)也不(bu)能(neng)(neng)(neng)(neng)存(cun)下圍(wei)棋的(de)(de)所(suo)有(you)可能(neng)(neng)(neng)(neng)性。
19年前,IBM公司的(de)“深藍”計(ji)算機(ji)戰勝了國(guo)際象棋(qi)世(shi)界冠軍卡斯(si)帕(pa)羅夫,引起了巨大(da)轟動(dong)。但是因圍棋(qi)的(de)復雜度,直到近期,人(ren)類(lei)才在(zai)圍棋(qi)人(ren)工智能項目(mu)上取得重大(da)突(tu)破。
由于(yu)圍棋的可能性如(ru)此(ci)之多,根本就沒有什么套路可言。下贏圍棋的唯一的辦(ban)法就是讓(rang)電腦也學會“學習”,而不是死記硬背。為了(le)在(zai)圍棋上戰勝人類,硅谷的兩家科技公(gong)司(si)——Facebook和谷(gu)歌開始(shi)研究,希望有朝一(yi)日能(neng)讓計算(suan)機戰勝(sheng)人類(lei)圍棋冠軍。
李(li)世石簡介

李(li)世(shi)石(shi)(shi)是李(li)昌鎬之(zhi)后,韓國最具(ju)代表性的(de)棋手,他在(zai)2003年(nian)獲第16屆(jie)富(fu)士(shi)通杯冠軍(jun)后升(sheng)為九段(duan)棋手。自2002年(nian)加(jia)冕富(fu)士(shi)通杯以(yi)來(lai),十年(nian)時間(jian)里他共獲18個世(shi)界冠軍(jun)。李(li)世(shi)石(shi)(shi)屬于典型的(de)力戰型棋風,善于敏銳地抓(zhua)住對手的(de)弱處主動出擊(ji),以(yi)強(qiang)大(da)的(de)力量擊(ji)垮對手,他的(de)攻擊(ji)可(ke)以(yi)用“穩,準(zhun),狠(hen)”來(lai)形容,經常能(neng)在(zai)劣勢下完成逆(ni)轉。
AlphaGo去(qu)年10月(yue)擊(ji)敗(bai)歐洲冠軍
谷(gu)歌曾(ceng)于2014年(nian)(nian)(nian)以(yi)4億歐元收(shou)購人工智能公司DeepMind。由DeepMind研發的AlphaGo項目已有兩年(nian)(nian)(nian)歷史,AlphaGo曾(ceng)在(zai)去年(nian)(nian)(nian)戰勝了歐洲圍棋冠(guan)軍(jun)樊麾(職業(ye)二段)。
去年10月5日-10月9日,谷歌AlphaGo在比賽(sai)中以5:0的(de)(de)比分完勝(sheng)了(le)歐洲冠軍。除了(le)戰勝(sheng)人類(lei)外,AlphaGo還與其(qi)他的(de)(de)圍棋程(cheng)序對(dui)戰,獲得了(le)500場勝(sheng)利(li)。
AlphaGo原(yuan)理簡介
其中一(yi)(yi)個(ge)(ge)(ge)神(shen)經網(wang)(wang)(wang)絡(luo)“決策網(wang)(wang)(wang)絡(luo)”(policy network)負責選擇下一(yi)(yi)步走法,另一(yi)(yi)個(ge)(ge)(ge)神(shen)經網(wang)(wang)(wang)絡(luo)“值網(wang)(wang)(wang)絡(luo)”(“value network)則預測比賽勝利方(fang)。谷歌(ge)方(fang)面用(yong)人類圍(wei)(wei)棋高手的三千萬步圍(wei)(wei)棋走法訓練神(shen)經網(wang)(wang)(wang)絡(luo),與此(ci)同時,AlphaGo也自(zi)行(xing)(xing)研究新戰(zhan)略,在它的神(shen)經網(wang)(wang)(wang)絡(luo)之(zhi)間運(yun)行(xing)(xing)了數千局圍(wei)(wei)棋,利用(yong)反(fan)復試驗(yan)調(diao)整連接點(dian),這個(ge)(ge)(ge)流程也稱為鞏(gong)固學習(reinforcement learning),通過廣泛使用(yong)Google云平臺(tai),完(wan)成(cheng)了大量研究工作。傳統的人工(gong)智能(neng)方法是(shi)將所有可能(neng)的走法構建成一(yi)棵搜(sou)索(suo)樹(shu) ,但這種(zhong)方法對(dui)圍棋并不(bu)適用。此次谷歌推出的AlphaGo,將高級搜(sou)索(suo)樹(shu)與深度神經(jing)網絡(luo)結合在一(yi)起。這些神經(jing)網絡(luo)通過(guo)12個(ge)(ge)處理(li)層傳遞對(dui)棋盤的描(miao)述,處理(li)層則包(bao)含(han)數百萬個(ge)(ge)類似于神經(jing)的連接點。
AlphaGo在(zai)與人(ren)的(de)對弈中用(yong)了“兩個(ge)(ge)大腦”來解(jie)決問題:“決策網(wang)絡”和“值網(wang)絡”。通俗來說就是,一個(ge)(ge)大腦用(yong)來決策當前應該如(ru)何落(luo)子(zi),另(ling)一個(ge)(ge)大腦來預測比賽最終(zhong)的(de)勝利方。
值得一(yi)提的是(shi),李(li)世(shi)石也是(shi)第一(yi)次與機器對戰,所以他無法像和人類對戰那(nei)樣,先研(yan)究(jiu)對方的棋(qi)譜和下(xia)棋(qi)風格。李(li)世(shi)石所能做的就是(shi)和自己對弈。谷歌AlphaGo也是(shi)通過(guo)這(zhe)種(zhong)方式鍛煉(lian)自己,真正(zheng)做到了(le)“人工智能”。
