免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 行業(yè)

揭秘谷歌棋類AI項(xiàng)目AlphaZero 它到底厲害在哪兒

2019/01/02 17:00      騰訊科技 審校/金鹿 [No.L001]


4427750500.jpg

  (圖片來源:云圖視覺)

  1月2日消息,據(jù)外媒報(bào)道,幾周前,谷歌人工智能(AI)子公司DeepMind的研究人員在《科學(xué)》(Science)雜志上發(fā)表論文,描述了AI在游戲中的應(yīng)用潛力。雖然他們的AI系統(tǒng)是通用的,可以用于許多雙人游戲,但研究人員將其專門用于圍棋、國(guó)際象棋和日本象棋。除了每種游戲的規(guī)則之外,它沒有被輸入其他任何知識(shí)。

  最初的時(shí)候,這種AI系統(tǒng)只是隨機(jī)下子。隨后,它開始通過自我游戲來學(xué)習(xí)棋路。在九個(gè)小時(shí)的訓(xùn)練過程中,該程序的國(guó)際象棋版本在大量專門的谷歌硬件上與自己進(jìn)行了4400萬場(chǎng)比賽。兩個(gè)小時(shí)后,它的表現(xiàn)開始好于人類選手;四小時(shí)后,它擊敗了世界上最好的國(guó)際象棋引擎。

  這個(gè)項(xiàng)目名為AlphaZero,它是從AlphaGo基礎(chǔ)上發(fā)展而來的。AlphaGo也是一種AI,因在2016年3月?lián)魯×耸澜缟献詈玫膰暹x手李世石(Lee Sedol)而聞名于世。今年早些時(shí)候在Netflix上播放的紀(jì)錄片《AlphaGo》中,制片人跟蹤了開發(fā)這款A(yù)I的團(tuán)隊(duì)及其人類陪練,他們將畢生精力都投入到了這款游戲中。

  我們看著這些人經(jīng)歷了一種新的悲傷。起初,他們不認(rèn)為人類會(huì)輸給機(jī)器,李世石在在與AlphaGo進(jìn)行五場(chǎng)比賽的前一天說:“我認(rèn)為,人類的直覺仍然非常有用,AI無法趕超。”可是當(dāng)機(jī)器開始獲勝的時(shí)候,一種恐慌感油然而生。在一個(gè)特別令人痛心的時(shí)刻,李世石在輸?shù)舻谝粓?chǎng)比賽后承受了巨大壓力,他從棋盤后面站了起來,不顧比賽時(shí)間限制,走到外面去抽煙。他站在首爾高樓的屋頂上往外看。

  與此同時(shí),AlphaGo不知道它的對(duì)手已經(jīng)去了其他地方,依然走出了評(píng)論員所謂的“創(chuàng)造性、令人驚訝的棋路”。最后,李世石以1:4的比分輸?shù)袅吮荣�,這讓他感覺非常沮喪。在一次新聞發(fā)布會(huì)上說,李世石承認(rèn):“我想為我的無能道歉。”最終,李世石和圍棋社區(qū)的其他成員開始欣賞這臺(tái)機(jī)器。他說:“我認(rèn)為這將帶來一種新的范式改變。”歐洲圍棋冠軍范輝對(duì)此表示贊同,他指出:“也許AlphaGo可以向人類展示一些我們從未發(fā)現(xiàn)過的東西。也許它很美!”

  對(duì)于AlphaGo的開發(fā)者來說,這的確是一場(chǎng)勝利,但仍然不令人滿意,因?yàn)锳lphaGo在很大程度上依賴于人類的圍棋專業(yè)知識(shí)。在某種程度上,AI通過模仿世界級(jí)旗手的棋路來積累經(jīng)驗(yàn)。它還使用了手工編碼的啟發(fā)式方法,以避免AI在游戲中思考未來棋路時(shí)出現(xiàn)最嚴(yán)重的錯(cuò)誤。對(duì)于開發(fā)AlphaGo的研究人員來說,這些知識(shí)就像是一根“拐杖”。為此,他們開始建造新版本的AI,它可以自學(xué),并獨(dú)創(chuàng)出自己的棋路。

  2017年10月,DeepMind研究人員發(fā)表論文中詳細(xì)介紹了這一成果,之所以稱新的AI系統(tǒng)為“AlphaGo Zero”,是因?yàn)樗鼘?duì)除了圍棋規(guī)則外一無所知。這個(gè)新項(xiàng)目的知名度要低得多,但從某種意義上說,這是一項(xiàng)更了不起的成就,盡管這一成就與圍棋沒有多大關(guān)系。事實(shí)上,不到兩個(gè)月后,DeepMind發(fā)表了第三篇論文的預(yù)印本,表明AlphaGo Zero背后的算法可以推廣到任何兩人、零和的完美信息游戲(即不存在隱藏元素的游戲)中。

  DeepMind去掉了AlphaGo名字中的“Go”,并給它的新系統(tǒng)命名為AlphaZero。它的核心是一種強(qiáng)大的算法,你可以給它提供被人類研究得最透徹、經(jīng)驗(yàn)最豐富的游戲規(guī)則,然后那天晚些時(shí)候,它將成為有史以來最好的玩家。也許更令人驚訝的是,這個(gè)系統(tǒng)的迭代也是迄今為止最簡(jiǎn)單的。

  典型的國(guó)際象棋引擎堪稱是個(gè)大雜燴,需要經(jīng)過幾十年基于嘗試和錯(cuò)誤進(jìn)行調(diào)整。世界上最好的國(guó)際象棋引擎Stockfish是開源的,它通過被稱為“達(dá)爾文式選擇”變得越來越好:即有人提出一個(gè)想法,成千上萬的游戲來驗(yàn)證這個(gè)想法,最好的版本最終會(huì)勝出。因此,它可能不是特別優(yōu)雅的程序,而且程序員可能很難理解。

  程序員對(duì)Stockfish所做的許多改變最好是從國(guó)際象棋而不是計(jì)算機(jī)科學(xué)的角度來表述,他們更多關(guān)注如何在棋盤上評(píng)估給定的情況:騎士應(yīng)該值2.1分還是2.2分?如果它是在第三等級(jí),而對(duì)手有個(gè)相反顏色的主教呢?為了說明這一點(diǎn),DeepMind的研究主管大衛(wèi)·西爾弗(David Silver)曾在Stockfish中列出了移動(dòng)策略。

  它們有五十多個(gè)步驟,每種都需要大量編碼,每一個(gè)都是來之不易的國(guó)際象棋奧秘:反移動(dòng)啟發(fā)式(Counter Move Heuristic)、已知結(jié)束游戲數(shù)據(jù)庫、疊兵(Doubled Pawns)和抽將(Trapped Pieces)等評(píng)估模塊、搜索可能移動(dòng)旗子的策略等。

  相比之下,AlphaZero只有兩個(gè)部分:一個(gè)神經(jīng)網(wǎng)絡(luò)和一個(gè)被稱為Monte Carlo Tree Search(MCTS)的算法。人們常說,MCTS算法背后的理念是,像國(guó)際象棋這樣的棋類游戲?qū)嶋H上是一棵充滿了各種可能性的樹。如果我把車移到d8位置,你可以抓住它,或者隨它去,這時(shí)我可以移動(dòng)兵、移動(dòng)主教或者保護(hù)我的王后……

  問題是,這棵樹變得難以置信的大,難以置信的快。任何計(jì)算能力都不足以徹底地搜索它。專業(yè)的人類玩家之所以是專家,正是因?yàn)樗拇竽X能自動(dòng)識(shí)別出樹的基本部分,并將注意力集中在其上。而計(jì)算機(jī)想要競(jìng)爭(zhēng),必須以某種方式做同樣的事情。

  這就是神經(jīng)網(wǎng)絡(luò)的作用所在。AlphaZero的神經(jīng)網(wǎng)絡(luò)作為輸入,接收游戲最后幾步的棋盤布局。作為輸出,它估計(jì)了當(dāng)前玩家獲勝的可能性,并預(yù)測(cè)了當(dāng)前可用的哪些棋路可能效果最好。MCTS算法使用這些預(yù)測(cè)來確定樹上的重點(diǎn)位置。例如,如果網(wǎng)絡(luò)猜測(cè)“騎士干掉主教”可能是一步好棋,那么MCTS將投入更多時(shí)間來探索這步棋的后果。

  起初,指導(dǎo)搜索的神經(jīng)網(wǎng)絡(luò)顯得相當(dāng)笨,它或多或少地隨機(jī)做出預(yù)測(cè)。結(jié)果,MCTS在集中于樹的重要部分方面做得非常糟糕。但AlphaZero的天賦在于它的學(xué)習(xí)方式。它需要兩個(gè)部分的工作,并使它們彼此磨練。即使一個(gè)愚蠢的神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)哪些動(dòng)作會(huì)起作用方面做得不好,在博弈樹中向前看仍然很有用。例如,在游戲結(jié)束時(shí),MCTS仍然可以學(xué)習(xí)哪些位置實(shí)際上會(huì)促使勝利,至少在某些時(shí)候是這樣的。

7.jpg

  (圖片來源:云圖視覺)

  這些知識(shí)可以用來改進(jìn)神經(jīng)網(wǎng)絡(luò)。當(dāng)游戲結(jié)束時(shí),你知道結(jié)果,你看神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)位置的預(yù)測(cè),并將其與實(shí)際發(fā)生的情況進(jìn)行比較。然后,你可以通過調(diào)整神經(jīng)網(wǎng)絡(luò)的突觸連接來“校正”神經(jīng)網(wǎng)絡(luò),直到它找到獲勝幾率更大的棋路。本質(zhì)上,MCTS的所有搜索都被提煉成神經(jīng)網(wǎng)絡(luò)的新權(quán)值。當(dāng)然,有了個(gè)稍微好點(diǎn)兒的網(wǎng)絡(luò),搜索就不那么容易被誤導(dǎo)了,這使它能夠更好地搜索,從而為訓(xùn)練網(wǎng)絡(luò)提取更好的信息。就這樣,在一個(gè)反饋回路中,它的能力會(huì)不斷提高。

  當(dāng)AlphaGoZero和AlphaZero的論文發(fā)表時(shí),有些棋類愛好者開始在博客文章和YouTube視頻中描述該系統(tǒng),并構(gòu)建他們自己的模仿版。這項(xiàng)工作的大部分都是解釋性的,它源于業(yè)余愛好者對(duì)學(xué)習(xí)和分享的渴望,這種沖動(dòng)最初導(dǎo)致了網(wǎng)絡(luò)的出現(xiàn)。但是,為了大規(guī)模地復(fù)制這項(xiàng)工作,還需要其他努力。畢竟,DeepMind的論文只描述了世界上最偉大的圍棋和國(guó)際象棋程序,它們沒有包含源代碼,該公司也沒有向玩家提供這些程序。在宣布勝利后,它的工程師們已經(jīng)離開了戰(zhàn)場(chǎng)。

  曾在Mozilla公司工作的計(jì)算機(jī)程序員吉安-卡洛·帕斯卡托(Gian-Carlo Pascutto),在構(gòu)建有競(jìng)爭(zhēng)性游戲引擎方面有著良好的記錄,首先是國(guó)際象棋,然后是圍棋。他跟蹤最新的研究。隨著將MCTS和神經(jīng)網(wǎng)絡(luò)相結(jié)合成為圍棋AI領(lǐng)域的最新技術(shù),帕斯卡托創(chuàng)建了世界上最成功的開源圍棋引擎,首先是Leela,然后是LeelaZero,這也反映了DeepMind的進(jìn)步。

  問題在于,DeepMind可以訪問谷歌龐大的云計(jì)算平臺(tái),但帕斯卡托卻沒有。為了訓(xùn)練自己的圍棋引擎,DeepMind使用了5000個(gè)谷歌的“張量處理單元”(TPU)13天,它們是專門為神經(jīng)網(wǎng)絡(luò)計(jì)算設(shè)計(jì)的芯片。而為了在桌面系統(tǒng)上做同樣的工作,帕斯卡托必須運(yùn)行自己的程序1700年才能取得同樣的效果。

  為了彌補(bǔ)計(jì)算能力的不足,帕斯卡托分發(fā)了這項(xiàng)工作。LeelaZero是個(gè)分布式系統(tǒng),即任何想要參與的人都可以下載最新版本,將他擁有的任何計(jì)算能力貢獻(xiàn)出來,并上傳自己生成的數(shù)據(jù),這樣系統(tǒng)就可以稍加改進(jìn)。分布式的LeelaZero社區(qū)已經(jīng)讓他們的系統(tǒng)與自己玩了1000多萬場(chǎng)游戲,比AlphaGo Zero略多一點(diǎn)兒。它現(xiàn)在是現(xiàn)有的最強(qiáng)大的圍棋引擎之一。

  沒過多久,這個(gè)想法就擴(kuò)展到國(guó)際象棋上。2017年12月,當(dāng)AlphaZero預(yù)印本出版時(shí),加里·林斯科特(Gary Linscott)說:“它就像一顆炸彈擊中了社區(qū)。”林斯科特是從事Stockfish研究的計(jì)算機(jī)科學(xué)家,他使用了現(xiàn)有的LeelaZero代碼庫,以及AlphaZero論文中的新思想,創(chuàng)建了LeelaChessZero。

  關(guān)于DeepMind團(tuán)隊(duì)在他們的論文中遺漏的細(xì)節(jié),有些問題需要解決,也有些經(jīng)驗(yàn)猜測(cè),但在幾個(gè)月內(nèi),這個(gè)神經(jīng)網(wǎng)絡(luò)就開始改進(jìn)了。國(guó)際象棋界已經(jīng)癡迷于AlphaZero:Chess.com上的帖子慶祝了這款引擎的誕生,評(píng)論員和特級(jí)大師仔細(xì)研究了DeepMind在論文中發(fā)布的幾款A(yù)lphaZero游戲,宣稱“國(guó)際象棋就應(yīng)該這么玩”。

  很快,就像Leela Chess Zero的名字一樣,Lc0吸引了數(shù)以百計(jì)的志愿者。由于他們貢獻(xiàn)了他們的計(jì)算機(jī)能力和改進(jìn)的源代碼,引擎變得更好用。如今,一位核心撰稿人懷疑,距離趕超Stockfish只有幾個(gè)月的時(shí)間了。不久之后,它可能會(huì)變得比AlphaZero本身更好。

  當(dāng)我們?cè)陔娫捴薪徽剷r(shí),讓林斯科特感到驚奇的是,像他推出的項(xiàng)目,曾經(jīng)需要才華橫溢的博士生幾年的時(shí)間,現(xiàn)在卻可以由一個(gè)感興趣的業(yè)余人員在幾個(gè)月內(nèi)完成。神經(jīng)網(wǎng)絡(luò)的軟件庫只需要幾十行代碼就可以復(fù)制一個(gè)世界一流的設(shè)計(jì),在一組志愿者之間分發(fā)計(jì)算的工具已經(jīng)存在,而英偉達(dá)等芯片制造商已經(jīng)將價(jià)格低廉、功能強(qiáng)大的GPU(圖形處理芯片)完美地用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),并將其投入到數(shù)百萬普通計(jì)算機(jī)用戶的手中。像MCTS這樣的算法非常簡(jiǎn)單,可以在一兩個(gè)下午內(nèi)實(shí)現(xiàn),你甚至不需要是這方面的專家。在創(chuàng)建LeelaZero的時(shí)候,帕斯卡托已經(jīng)有20年沒玩圍棋了。

  DeepMind的研究主管大衛(wèi)·西爾弗(David Silver)指出,他的公司最近在游戲方面的工作核心似乎存在一個(gè)悖論:程序越簡(jiǎn)單(從AlphaGo到AlphaGo Zero再到AlphaZero),它們的表現(xiàn)就越好。他在2017年12月的一次演講中說:“也許我們追求的原則之一是,通過少做些事情,消除算法的復(fù)雜性,使我們的技術(shù)變得更加通用。”通過去掉圍棋引擎中的圍棋知識(shí),他們開發(fā)出更好的圍棋引擎。同時(shí),它也是可以玩日本象棋和國(guó)際象棋的引擎。

  我們從未想過,事情會(huì)變成這樣。1953年,幫助創(chuàng)造現(xiàn)代計(jì)算機(jī)的艾倫·圖靈(Alan Turing)寫了一篇題為《數(shù)字計(jì)算機(jī)應(yīng)用于游戲》的短文。在論文中,他開發(fā)了一個(gè)國(guó)際象棋程序,“基于對(duì)我玩棋時(shí)思維過程的內(nèi)省分析”。這個(gè)程序很簡(jiǎn)單,但在它的例子中,簡(jiǎn)單并不是一種美德:就像圖靈一樣,他不是個(gè)有天賦的棋手,它錯(cuò)過了游戲的很多深度思考,而且玩得不太好。

  盡管如此,圖靈猜測(cè),“人不能設(shè)計(jì)出比自己玩得更好的游戲機(jī)器”,這個(gè)想法是個(gè)“相當(dāng)荒謬的觀點(diǎn)”。雖然說“任何動(dòng)物都不能吞下比自己更重的動(dòng)物”這句話聽起來是對(duì)的,但事實(shí)上很多動(dòng)物都能做到。類似地,圖靈提出,糟糕的棋手開發(fā)出色的國(guó)際象棋程序,可能也不會(huì)有矛盾。要做到這一點(diǎn),一個(gè)誘人的方法就是讓這個(gè)程序自己去學(xué)習(xí)。

  AlphaZero的成功似乎證明了這一點(diǎn)。它有個(gè)簡(jiǎn)單的結(jié)構(gòu),但能夠?qū)W習(xí)游戲中最令人驚訝的特征。在AlphaGo Zero的文章中,DeepMind團(tuán)隊(duì)展示了他們的AI在經(jīng)過訓(xùn)練數(shù)周后,可以找到熟練玩家所熟知的策略,但只在幾個(gè)周期后就拋棄了它們�?吹饺祟愖詈玫南敕ㄔ谕ㄍ玫牡缆飞吓腔沧屓烁杏X有點(diǎn)兒怪異,也讓人感到不安:它以一種讓人眼睜睜看著物理機(jī)器超越我們的方式?jīng)_擊著我們。

  在《科學(xué)》雜志最近的社論中,1997年曾輸給IBM“深藍(lán)”計(jì)算機(jī)的前國(guó)際象棋冠軍加里·卡斯帕羅夫(Garry Kasparov)表示,AlphaZero的下棋方式并沒有反映出系統(tǒng)性的“程序員優(yōu)先事項(xiàng)和偏見”;相反,盡管它每一步搜索的位置要比傳統(tǒng)引擎少得多,但它以開放、積極的方式發(fā)揮作用,似乎從戰(zhàn)略而不是戰(zhàn)術(shù)的角度考慮問題,就像一個(gè)有著不可思議遠(yuǎn)見的人一樣�?ㄋ古亮_夫?qū)懙溃?ldquo;通過AlphaZero的程序本身,我想說它的風(fēng)格反映了事實(shí)。”

  當(dāng)然,像人一樣下棋和像人一樣思考象棋,或者像人一樣學(xué)習(xí),并不是一回事。有一句老話說,玩游戲就是AI的果蠅,這就像果蠅之于生物學(xué)家、圍棋和國(guó)際象棋等游戲之于研究智能機(jī)制的計(jì)算機(jī)科學(xué)家,它們都同樣重要。這是個(gè)令人回味無窮的類比。然而,下棋的任務(wù)一旦轉(zhuǎn)化為在一棵博弈樹中每秒搜索數(shù)萬個(gè)節(jié)點(diǎn)的任務(wù),所使用的智能可能與我們最關(guān)心的截然不同。

  以這種方式下國(guó)際象棋可能比我們想象的更像地球運(yùn)動(dòng):這種活動(dòng)最終不是我們的強(qiáng)項(xiàng),因此不應(yīng)該對(duì)我們的靈魂那么珍貴。要學(xué)習(xí),AlphaZero需要比人類多玩幾百萬個(gè)游戲。但當(dāng)它完成時(shí),它就可以像天才那樣去玩。它依靠的攪動(dòng)速度比人通過深層搜索樹所能做到的更快,然后使用神經(jīng)網(wǎng)絡(luò)將它發(fā)現(xiàn)的東西處理成類似直覺的東西。

  當(dāng)然,這個(gè)項(xiàng)目教會(huì)了我們更多關(guān)于智力的新東西。但它的成功也突顯出,世界上最優(yōu)秀的人類玩家可以通過一種非常不同的方式看到更多東西,即除了親身體驗(yàn)外,我們還可以基于閱讀、交談和感覺等方式加以理解。也許最令人驚訝的是,我們?nèi)祟愒谀切┧坪跏菫闄C(jī)器設(shè)計(jì)的游戲中表現(xiàn)得同樣好。

  榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報(bào)生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞

色哺乳xxxxhd牛奶电影| 多人换着伦高h艳妇诱春| 亚洲欧美三级在线| 特级毛片www| 国产精品久久影视| 成人av一区二区三区| 欧美 日韩 国产 激情| 无遮挡无遮挡无遮挡| 特别黄的免费视频大片| 欧美日韩在线视频首页| 超极品超白嫩超漂亮女神视频| 国产精品999在线观看| 免费看欧美黑人毛片| www.欧美亚洲| 黄蓉双乳胀奶水小说| 亚洲一区色图| 麻豆激情电影| 草莓黄色app| 超碰在线香蕉| 古风男男(h )肉| 久久久久久久a| bb日韩美女预防毛片视频| sm俱乐部调教师调教h视频| 稚嫩的双乳慢慢张开小说| 亚洲精品影视在线观看| 美妇岳的肉体全文阅读| 欧美人妖xxxx| 色婷婷久久一区二区三区麻豆| 农村老头大粗鳮吧在线观看| 日本一码二码视频| 男女午夜羞羞视频| 全彩调教侵犯h本子全彩网站mj| 国产精品美女久久久久久久久久久| 高h道具机器调教性玩具小说| 激情综合色图| 仁科百华av解禁在线播放| japanesefree暴力侵犯| 银月公主共享公主| av每日更新在线观看| 激情床吻大尺度| 漂亮的女邻居4伦理|