網(wǎng)站首頁(yè)百科全書 >正文
1、阿爾法狗vs柯潔(阿爾法狗)
2、大家好,關(guān)于阿爾法狗vs柯潔,很多人還不知道阿爾法狗?,F(xiàn)在讓我們來(lái)看看!
3、阿爾法狗是什么意思?圍棋實(shí)際上是一個(gè)圍棋人工智能程序,由谷歌DeepMind的大衛(wèi)西爾弗(David Silver)、艾皇嘉(Ai Huangjia)和達(dá)米絲哈薩比斯(Damis Hassabis)及其團(tuán)隊(duì)開發(fā)。這個(gè)程序用“價(jià)值網(wǎng)絡(luò)”來(lái)計(jì)算形勢(shì),用“策略網(wǎng)絡(luò)”來(lái)選擇下一步行動(dòng)。
4、“深度學(xué)習(xí)”是指多層人工神經(jīng)網(wǎng)絡(luò)和訓(xùn)練它的方法。一層神經(jīng)網(wǎng)絡(luò)以大量矩陣數(shù)作為輸入,用非線性激活方法加權(quán),然后生成另一個(gè)數(shù)據(jù)集作為輸出。就像生物神經(jīng)大腦的工作機(jī)制一樣。通過適當(dāng)數(shù)量的矩陣,將多層組織鏈接在一起,形成一個(gè)神經(jīng)網(wǎng)絡(luò)“大腦”,進(jìn)行精確復(fù)雜的處理,就像人識(shí)別物體和標(biāo)記圖片一樣。
5、雖然神經(jīng)網(wǎng)絡(luò)幾十年前就存在了,但直到最近情況才變得清晰。這是因?yàn)樗麄冃枰罅康摹坝?xùn)練”才能找到矩陣中的值。對(duì)于早期的研究人員來(lái)說,獲得良好結(jié)果的最小訓(xùn)練量遠(yuǎn)遠(yuǎn)超過了計(jì)算能力和可以提供的數(shù)據(jù)量。然而,近年來(lái),一些擁有海量資源的團(tuán)隊(duì)重新開始挖掘神經(jīng)網(wǎng)絡(luò),即通過“大數(shù)據(jù)”技術(shù)進(jìn)行高效訓(xùn)練。
6、兩個(gè)大腦
7、AlphaGo就是通過兩個(gè)不同的神經(jīng)網(wǎng)絡(luò)“大腦”的合作來(lái)提高下棋水平。這些大腦是多層神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)與谷歌的圖像搜索引擎識(shí)別的大腦相似。他們從多層啟發(fā)式二維過濾器入手,處理圍棋棋盤的定位,就像圖像分類器網(wǎng)絡(luò)處理圖像一樣。過濾后,13個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)層對(duì)他們看到的做出判斷。這些層可以被分類和邏輯推理。
8、這些網(wǎng)絡(luò)通過反復(fù)訓(xùn)練來(lái)檢查結(jié)果,然后校對(duì)調(diào)整參數(shù),使接下來(lái)的執(zhí)行更好。這個(gè)處理器有許多隨機(jī)元件。我們無(wú)法確切知道網(wǎng)絡(luò)是如何“思考”的,但更多的訓(xùn)練可以讓它進(jìn)化到更好。
9、第一大腦3360移動(dòng)拾音器。
10、AlphaGo的第一個(gè)神經(jīng)網(wǎng)絡(luò)大腦是一個(gè)“監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)”,觀察棋盤的布局,并試圖找到最佳的下一步。事實(shí)上,它預(yù)測(cè)了每一個(gè)合法的下一步的最佳概率,所以第一個(gè)猜測(cè)是概率最高的一個(gè)。你可以理解為“遲到的考生”。
11、(移動(dòng)選擇器如何看到棋盤?數(shù)字表明最強(qiáng)的人類玩家可能會(huì)在哪里登陸。)
12、團(tuán)隊(duì)通過玩上百萬(wàn)的游戲來(lái)訓(xùn)練大腦,KGS(戰(zhàn)斗平臺(tái))中最強(qiáng)的人類對(duì)手。這是AlphaGo最像人類的部分。目標(biāo)是學(xué)習(xí)那些頂級(jí)玩家精彩的卡牌技巧。不是為了贏,而是像人類大師一樣尋找下一步棋。AlphaGo國(guó)際象棋選擇器可以正確匹配57%的人類大師。(不符合不代表錯(cuò)誤,而是人類自己犯的錯(cuò)誤。)
13、更強(qiáng)的前進(jìn)選擇器
14、AlphaGo系統(tǒng)實(shí)際上需要兩個(gè)額外的位選擇器大腦。一個(gè)是“加強(qiáng)學(xué)習(xí)的政策網(wǎng)絡(luò)”,由百萬(wàn)附加模擬局完成。你可以稱之為更強(qiáng)。與基礎(chǔ)訓(xùn)練相比,它只教會(huì)網(wǎng)絡(luò)模仿單個(gè)人類的動(dòng)作。高級(jí)訓(xùn)練會(huì)把每一局模擬棋都玩到底,并教會(huì)網(wǎng)絡(luò)下一局最有可能贏的棋。Sliver的團(tuán)隊(duì)通過更強(qiáng)的走法選擇器總結(jié)出了一個(gè)百萬(wàn)級(jí)的訓(xùn)練棋類游戲,比他們之前的版本迭代性強(qiáng)很多。
15、光是用這個(gè)選位器就已經(jīng)是強(qiáng)大的對(duì)手了,可以達(dá)到業(yè)余棋手的水平,或者堪比之前最強(qiáng)的圍棋AI。這里的要點(diǎn)是這個(gè)下拉選擇器不會(huì)“讀取”。它只是檢查單個(gè)棋盤的位置,然后提出從該位置分析的移動(dòng)。它不會(huì)模擬任何未來(lái)的動(dòng)作。這證明了簡(jiǎn)單深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的力量。
16、快速移動(dòng)選擇器
17、當(dāng)然,團(tuán)隊(duì)并沒有就此止步。下面我會(huì)解釋如何賦予AI閱讀能力。要做到這一點(diǎn),他們需要一個(gè)更快版本的晚期選擇器大腦。版本越強(qiáng),耗時(shí)越長(zhǎng)?!徊胶闷遄叩脡蚩欤伴喿x結(jié)構(gòu)”需要檢查成千上萬(wàn)種可能性后再做決定。
18、Silver團(tuán)隊(duì)設(shè)置了一個(gè)簡(jiǎn)單的選擇器來(lái)制作“快速閱讀rdqu”
19、第二個(gè)大腦:位置評(píng)估者
20、AlphaGo的第二個(gè)大腦是相對(duì)于后面的選擇器來(lái)回答另一個(gè)問題。它不是猜測(cè)具體的下一步,而是在給定棋子位置的情況下,預(yù)測(cè)每個(gè)棋手贏棋的可能性。這個(gè)“形勢(shì)評(píng)估者”就是文中提到的“價(jià)值網(wǎng)”,通過對(duì)全局的判斷來(lái)輔助后選人。這個(gè)判斷只是大概,但是對(duì)提高閱讀速度很有幫助。通過對(duì)“好”和“壞”的潛在未來(lái)情況進(jìn)行分類,AlphaGo可以決定是否通過特殊的變體進(jìn)行深度閱讀。如果情況評(píng)估者說這個(gè)特殊的變體不好,那么AI將跳過閱讀這條線上的任何更多移動(dòng)。
21、(態(tài)勢(shì)評(píng)估員怎么看這個(gè)棋盤?深藍(lán)色表示下一步有利贏棋的位置。)
22、局勢(shì)評(píng)估員也是通過數(shù)百萬(wàn)次國(guó)際象棋比賽訓(xùn)練出來(lái)的。Silver團(tuán)隊(duì)通過復(fù)制兩個(gè)AlphaGo的最強(qiáng)選擇器,精心選擇隨機(jī)樣本,創(chuàng)造了這些情況。在這里,AI drop selector在高效創(chuàng)建大規(guī)模數(shù)據(jù)集以訓(xùn)練情況評(píng)估器方面非常有價(jià)值。這種走法選擇器讓每個(gè)人模擬多種下法的可能性,從任意給定的棋盤局面中猜測(cè)雙方大概的勝算概率。但是人類的棋局不夠多,這種訓(xùn)練恐怕很難完成。
23、增加閱讀量
24、以下是秋天的三個(gè)版本。
(蒙特卡洛樹搜索算法)
如果擁有無(wú)限的計(jì)算能力,MCTS可以理論上去計(jì)算最佳落子通過探索每一局的可能步驟。但未來(lái)走法的搜索空間對(duì)于圍棋來(lái)說太大了(大到比我們認(rèn)知宇宙里的粒子還多),實(shí)際上AI沒有辦法探索每一個(gè)可能的變種。MCTS做法比其他AI有多好的原因是在識(shí)別有利的變種,這樣可以跳過一些不利的。
Silver團(tuán)隊(duì)讓AlphaGo裝上MCTS系統(tǒng)的模塊,這種框架讓設(shè)計(jì)者去嵌入不同的功能去評(píng)估變種。最后馬力全開的AlphaGo系統(tǒng)按如下方式使用了所有這些大腦。
1. 從當(dāng)前的棋盤布局,選擇哪些下一步的可能性。他們用基礎(chǔ)的落子選擇器大腦(他們嘗試使用更強(qiáng)的版本,但事實(shí)上讓AlphaGo更弱,因?yàn)檫@沒有讓MCTS提供更廣闊的選擇空間)。它集中在“明顯最好”的落子而不是閱讀很多,而不是再去選擇也許對(duì)后來(lái)有利的下法。
2. 對(duì)于每一個(gè)可能的落子,評(píng)估質(zhì)量有兩種方式:要么用棋盤上局面評(píng)估器在落子后,要么運(yùn)行更深入蒙特卡羅模擬器(滾動(dòng))去思考未來(lái)的落子,使用快速閱讀的落子選擇器去提高搜索速度。AlphaGo使用簡(jiǎn)單參數(shù),“混合相關(guān)系數(shù)”,將每一個(gè)猜測(cè)取權(quán)重。最大馬力的AlphaGo使用 50/50的混合比,使用局面評(píng)估器和模擬化滾動(dòng)去做平衡判斷。
隨著他們使用插件的不同,AlphaGo的能力變化和上述步驟的模擬。僅使用獨(dú)立大腦,AlphaGo跟最好的計(jì)算機(jī)圍棋AI差不多強(qiáng),但當(dāng)使用這些綜合手段,就可能到達(dá)職業(yè)人類選手水平。
(AlphaGo的能力變化與MCTS的插件是否使用有關(guān)。)
工程優(yōu)化:分布式計(jì)算,網(wǎng)絡(luò)計(jì)算機(jī)去提升MCTS速度,但這些都沒有改變基礎(chǔ)算法。這些算法部中分精確,部分近似。在特別情況下,AlphaGo通過更強(qiáng)的計(jì)算能力變的更強(qiáng),但計(jì)算單元的提升率隨著性能變強(qiáng)而減緩。
優(yōu)勢(shì)和劣勢(shì)
我認(rèn)為AlphaGo在小規(guī)模戰(zhàn)術(shù)上會(huì)非常厲害。它知道通過很多位置和類型找到人類最好的下法,所以不會(huì)在給定小范圍的戰(zhàn)術(shù)條件下犯明顯錯(cuò)誤。
但是,AlphaGo有個(gè)弱點(diǎn)在全局判斷上。它看到棋盤式通過5*5金字塔似的過濾,這樣對(duì)于集成戰(zhàn)術(shù)小塊變成戰(zhàn)略整體上帶來(lái)麻煩,同樣道理,圖片分類神經(jīng)網(wǎng)絡(luò)往往對(duì)包含一個(gè)東西和另一個(gè)的搞不清。比如說圍棋在角落上一個(gè)定式造成一個(gè)墻或者引征,這會(huì)劇烈改變另一個(gè)角上的位置估值。
就像其他的基于MCTS的AI, AlphaGo對(duì)于需要很深入閱讀才能解決的大勢(shì)判斷上,還是麻煩重重的,比如說大龍生死劫。AlphaGo 對(duì)一些故意看起來(lái)正常的局也會(huì)失去判斷,天元開盤或者少見的定式,因?yàn)楹芏嘤?xùn)練是基于人類的棋局庫(kù)。
我還是很期待看到AlphaGo和李世石9段的對(duì)決!我預(yù)測(cè)是:如果李使用定式,就像跟其他職業(yè)棋手的對(duì)決,他可能會(huì)輸,但如果他讓AlphaGo陷入到不熟悉情形下,他可能就贏。
38、本文講解完畢,希望對(duì)大家有所幫助。
本文到此結(jié)束,希望對(duì)大家有所幫助。
版權(quán)說明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!
猜你喜歡:
- 2022-06-21小米手機(jī)實(shí)況模式怎么設(shè)置(小米手機(jī)有沒有實(shí)況模式)
- 2022-06-21插卡的ipad都有哪些版本(可以插卡的ipad是幾代)
- 2022-06-21小米云桌面?zhèn)浞萦惺裁从茫ㄐ∶鬃烂嬖苽浞萦杏脝幔?/a>
- 2022-06-21淘寶精選頁(yè)面在哪里點(diǎn)擊(淘寶精選頁(yè)面在哪)
- 2022-06-21空開c20能用多少千瓦(空開c20是什么意思)
- 2022-06-21充電器5v 20000ma什么意思(充電器5v500ma是什么意思)
- 2022-06-21c20空氣開關(guān)對(duì)應(yīng)多少瓦(空氣開關(guān)c20是多少瓦)
最新文章:
- 2022-06-21小米手機(jī)實(shí)況模式怎么設(shè)置(小米手機(jī)有沒有實(shí)況模式)
- 2022-06-21插卡的ipad都有哪些版本(可以插卡的ipad是幾代)
- 2022-06-21小米云桌面?zhèn)浞萦惺裁从茫ㄐ∶鬃烂嬖苽浞萦杏脝幔?/a>
- 2022-06-21淘寶精選頁(yè)面在哪里點(diǎn)擊(淘寶精選頁(yè)面在哪)
- 2022-06-21空開c20能用多少千瓦(空開c20是什么意思)
- 2022-06-21充電器5v 20000ma什么意思(充電器5v500ma是什么意思)
- 2022-06-21c20空氣開關(guān)對(duì)應(yīng)多少瓦(空氣開關(guān)c20是多少瓦)
- 2022-06-21筆記本電腦通電不開機(jī)是什么原因(筆記本電腦不通電開不了機(jī)是什么原因)
- 2022-06-21華為dig-tl10多少錢(digtl10華為是什么型號(hào))
- 2022-06-21校園網(wǎng)是一種局域網(wǎng)是正確的嗎(校園網(wǎng)就是一個(gè)局域網(wǎng)嗎)
- 2022-06-21商品房沒有房產(chǎn)證允許買賣嗎(商品房沒有房產(chǎn)證可以賣嗎)
- 2022-06-21拿房產(chǎn)證要交錢嗎(請(qǐng)問拿房產(chǎn)證要交錢嗎)
- 2022-06-21筆記本電腦開機(jī)藍(lán)屏出現(xiàn)一堆英文(筆記本電腦開機(jī)藍(lán)屏出現(xiàn)一堆英文怎么解決)
- 2022-06-21驍龍855 plus和驍龍855有什么區(qū)別(驍龍855和驍龍855plus有什么區(qū)別)
- 2022-06-21住房公積金能轉(zhuǎn)移到異地嗎(住房公積金可以異地轉(zhuǎn)移嗎)
- 熱點(diǎn)推薦
- 熱評(píng)文章
- 隨機(jī)文章
- 網(wǎng)易云關(guān)注的歌手在哪能找到(網(wǎng)易云關(guān)注的歌手在哪)
- 電車男是什么意思(日本殺人狂被判死刑卻茍活12年)
- ipad3電池容量(ipad3電池多大)
- 被拋棄的個(gè)性簽名(真心被拋棄的傷感簽名句子)
- 可口可樂福娃圖片(2020可口可樂福娃高清圖片)
- 氣血不足的癥狀有哪些表現(xiàn)女人(女人氣血不足有7表現(xiàn))
- 360手機(jī)助手怎么用(360手機(jī)助手APP功能使用說明介紹一覽)
- 半截蠟燭教學(xué)反思(80后夫妻教師放棄深圳高薪工作)
- 風(fēng)云際會(huì)造句(風(fēng)云際會(huì)造句有哪些句子)
- 雙皮奶爆炸(雙皮奶加熱后爆炸)