谷歌研發(fā)的神經(jīng)網(wǎng)絡(luò)圍棋AI，戰(zhàn)勝人類職業(yè)選手

2023-10-15 網(wǎng)絡(luò)整理麒麟商城1710

核心提示：而今年1月份有個爆炸性新聞：谷歌開發(fā)的人工智能圍棋程序以5：0的壓倒性優(yōu)勢擊敗了歐洲圍棋冠軍、專業(yè)二段棋手。谷歌宣布他們研發(fā)的神經(jīng)網(wǎng)絡(luò)圍棋AI，，戰(zhàn)勝了人類職業(yè)選手。僅使用獨(dú)立大腦，跟最好的計算機(jī)圍棋AI差不多強(qiáng)，但當(dāng)使用這些綜合手段，就可能到達(dá)職業(yè)人類選手水平。

在國際象棋和國際象棋中，計算機(jī)軟件的功能非常強(qiáng)大。只有圍棋是唯一“計算機(jī)打不過人類”的游戲。今年1月份曾有爆料：谷歌開發(fā)的人工智能圍棋程序以5：0的壓倒性優(yōu)勢擊敗了歐洲圍棋冠軍、職業(yè)二級選手。然后在三月，我將對陣韓國九段、世界冠軍李世石。如果這場戰(zhàn)斗獲勝，這意味著人工智能真正具有里程碑意義的勝利。

谷歌人工智能李世石_谷歌人工智能技術(shù)_谷歌人工智能戰(zhàn)勝李世石

這也引起了筆者的好奇心。春節(jié)期間，我和田元東（背景無可挑剔，卡內(nèi)基梅隆大學(xué)機(jī)器人系博士，X自動駕駛汽車核心團(tuán)隊(duì)研究員，人工智能組研究員）進(jìn)行了交流。他還做電腦。 Go AI - 黑暗森林（熟悉三體的朋友就知道是怎么回事了）。今年1月，他的文章被機(jī)器學(xué)習(xí)頂級會議ICLR 2016接收。（表達(dá)學(xué)習(xí)在國際上也被稱為深度學(xué)習(xí)或特征學(xué)習(xí)，在機(jī)器學(xué)習(xí)中得到了廣泛的應(yīng)用。學(xué)習(xí)社區(qū)已經(jīng)開辟了自己的一席之地，成為學(xué)術(shù)界的新寵。）

聊天中，他提到，谷歌收購后，在人工智能項(xiàng)目上投入了大量資源，無非就是想向世界證明谷歌智能的強(qiáng)大。在頂級期刊《》上發(fā)表論文的作者僅有20人。看得出來，花了很多錢。前兩位都是計算機(jī)圍棋領(lǐng)域的巨頭。一個是計算機(jī)圍棋和強(qiáng)化學(xué)習(xí)方面的頂級專家，整個博士論文都是靠它寫的。去; 第二部作品 Aja 編寫 Go 軟件多年，我處于 ??AGA 6D 的水平。

廢話不多說，下面是CTO對其工作原理的解讀。原文見參考文獻(xiàn)

－－－－－－－－－－－－－－－－－

谷歌宣布他們開發(fā)的神經(jīng)網(wǎng)絡(luò)圍棋AI擊敗了人類職業(yè)棋手。本文由等人完成。內(nèi)部技術(shù)出人意料地簡單但功能強(qiáng)大。為了方便不熟悉技術(shù)的新手理解，這里我對系統(tǒng)的工作原理進(jìn)行解讀。

深度學(xué)習(xí)

“深度學(xué)習(xí)”是指多層人工神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練方法。一層神經(jīng)網(wǎng)絡(luò)以大量矩陣數(shù)作為輸入，通過非線性激活方法選擇權(quán)重，然后產(chǎn)生另一個數(shù)據(jù)集作為輸出。這就像生物神經(jīng)腦的工作機(jī)制一樣。通過適當(dāng)數(shù)量的矩陣，將多層組織連接在一起，形成神經(jīng)網(wǎng)絡(luò)“大腦”，進(jìn)行精確而復(fù)雜的處理，就像人們識別物體和注釋圖片一樣。

谷歌人工智能技術(shù)_谷歌人工智能戰(zhàn)勝李世石_谷歌人工智能李世石

盡管神經(jīng)網(wǎng)絡(luò)已經(jīng)存在了幾十年，但情況直到最近才變得更加清晰。這是因?yàn)樗鼈冃枰罅康摹坝?xùn)練”才能發(fā)現(xiàn)矩陣中的數(shù)值。對于早期的研究人員來說，獲得良好結(jié)果所需的最低訓(xùn)練量遠(yuǎn)遠(yuǎn)超過了計算能力和可用數(shù)據(jù)的大小。然而，近年來，一些擁有海量資源的團(tuán)隊(duì)重新挖掘神經(jīng)網(wǎng)絡(luò)，利用“大數(shù)據(jù)”技術(shù)對其進(jìn)行高效訓(xùn)練。

兩個大腦

它是兩個不同的神經(jīng)網(wǎng)絡(luò)“大腦”的合作來提高國際象棋水平。這些大腦是多層神經(jīng)網(wǎng)絡(luò)，其結(jié)構(gòu)類似于圖像搜索引擎用于識別圖像的神經(jīng)網(wǎng)絡(luò)。他們從多層啟發(fā)式 2D 過濾器開始處理圍棋棋盤的定位，就像圖片分類器網(wǎng)絡(luò)處理圖像一樣。經(jīng)過過濾后，13 個完全連接的神經(jīng)網(wǎng)絡(luò)層會對它們看到的位置做出判斷。這些層能夠進(jìn)行分類和邏輯推理。

谷歌人工智能技術(shù)_谷歌人工智能李世石_谷歌人工智能戰(zhàn)勝李世石

這些網(wǎng)絡(luò)通過反復(fù)訓(xùn)練來檢查結(jié)果，然后校對和調(diào)整參數(shù)，使下一次執(zhí)行得更好。這個處理器具有很大的隨機(jī)性，所以不可能準(zhǔn)確地知道網(wǎng)絡(luò)是如何“思考”的，但更多的訓(xùn)練可以讓它進(jìn)化得更好。

第一腦：移動選擇器（Move）

第一個神經(jīng)網(wǎng)絡(luò)大腦是“監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)（）”，它觀察棋盤的布局，試圖找到最好的下一步行動。事實(shí)上，它預(yù)測每個合法下一步的最佳概率，因此第一個猜測是概率最高的。您可以將其視為“移動選擇器”。

谷歌人工智能技術(shù)_谷歌人工智能戰(zhàn)勝李世石_谷歌人工智能李世石

走棋選擇器如何看待棋盤？這些數(shù)字表明最強(qiáng)的人類玩家可能會在哪里下注。

該團(tuán)隊(duì)通過在 KGS（在線圍棋對戰(zhàn)平臺）上與最強(qiáng)大的人類對手下數(shù)百萬步棋來訓(xùn)練大腦。這是最有人情味的地方。目標(biāo)是學(xué)習(xí)頂級玩家的技巧。這并不是為了獲勝，而是為了找到與人類高手相同的下一步行動。招式選擇器正確匹配了 57% 的人類大師。（不一致并不意味著錯誤，可能是人類自己犯的錯誤）

更強(qiáng)的移動選擇器

該系統(tǒng)實(shí)際上需要兩個額外的移動選擇器大腦。一種是“強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)（）”，它是通過數(shù)百萬輪額外的模擬來完成的。你可以稱之為更強(qiáng)。與僅教網(wǎng)絡(luò)模仿單個人的動作的基本訓(xùn)練相比，高級訓(xùn)練將每場模擬國際象棋比賽玩到底，教網(wǎng)絡(luò)最有可能獲勝的動作。該團(tuán)隊(duì)通過更強(qiáng)大的走棋選擇器總結(jié)了數(shù)百萬個訓(xùn)練棋局，這比他們之前的版本迭代程度更高。

僅僅使用這個走法選擇器就已經(jīng)是一個強(qiáng)大的對手了，達(dá)到了業(yè)余棋手的水平，或者可以與之前最強(qiáng)的圍棋AI相媲美。這里重要的是這種移動選擇器不會“讀取”。它只是查看單個棋盤位置并提出從該位置分析的移動建議。它不模擬任何未來的動作。這證明了簡單深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的力量。

更快的移動選擇器

當(dāng)然，團(tuán)隊(duì)并沒有就此止步。下面我將講解如何賦予AI閱讀能力。為了做到這一點(diǎn)，他們需要一個更快版本的移動選擇器大腦。更強(qiáng)的版本需要更長的時間 - 足夠快以做出良好的動作，但“閱讀結(jié)構(gòu)”需要在做出決定之前檢查數(shù)千種可能的動作。

該團(tuán)隊(duì)構(gòu)建了一個簡單的移動選擇器來制作“快速閱讀”版本，他們稱之為“滾動網(wǎng)絡(luò)”。簡單版本不會看整個19*19的棋盤，而是會考慮對手之前的棋子和新的棋子來觀察更小的窗口。去掉部分招式選擇器大腦會失去一些力量，但輕量級版本可以比以前快1000倍，這使得“閱讀結(jié)構(gòu)”成為可能。

第二大腦：國際象棋游戲評估器 ( )

與走棋選擇器相關(guān)的第二個大腦是回答另一個問題。它不是猜測具體的下一步行動，而是在給定棋子的位置的情況下預(yù)測每個玩家獲勝的概率。這個“態(tài)勢評估器”就是文中提到的“價值網(wǎng)絡(luò)（·）”，它通過全局判斷來輔助走棋選擇者。這個判斷只是大概的，但是對于提高閱讀速度很有幫助。通過將未來潛在的情況分類為“好”或“壞”，可以決定是否進(jìn)一步閱讀特定的變體。如果位置評估器說這個特定的變體是不可能的，那么人工智能就會跳過讀取沿著這條線的任何進(jìn)一步的移動。

谷歌人工智能李世石_谷歌人工智能戰(zhàn)勝李世石_谷歌人工智能技術(shù)

職位評估員如何看待董事會。深藍(lán)色表示有利于獲勝的下一步棋。

位置估計器還接受了數(shù)百萬場國際象棋比賽的訓(xùn)練。該團(tuán)隊(duì)通過復(fù)制兩個最強(qiáng)的走棋選擇器來仔細(xì)選擇隨機(jī)樣本來創(chuàng)建這些位置。這里，AI 走法選擇器在高效創(chuàng)建大規(guī)模數(shù)據(jù)集來訓(xùn)練位置評估器方面非常有價值。這種走棋選擇器可以讓大家模擬多種繼續(xù)下棋的可能性，從任意給定的棋盤情況猜測雙方大概獲勝的概率。然而，目前還沒有足夠的人類棋局來完成這種訓(xùn)練。

增加閱讀量

這里有三個版本的走法選擇大腦，加上態(tài)勢評估大腦，可以有效讀取未來的走法和步驟。與大多數(shù)圍棋人工智能一樣，閱讀是通過蒙特卡羅樹搜索（MCTS）算法完成的。但它比其他人工智能更聰明，可以更智能地猜測要檢測哪種變體以及需要檢測的深度。

谷歌人工智能技術(shù)_谷歌人工智能李世石_谷歌人工智能戰(zhàn)勝李世石

蒙特卡羅樹搜索算法

憑借無限的計算能力，MCTS理論上可以通過探索每場比賽中可能的走法來計算出最佳走法。但對于圍棋來說，未來走法的搜索空間太大（大到我們的認(rèn)知宇宙中存在更多的粒子），而且事實(shí)上人工智能沒有辦法探索每一種可能的變體。 MCTS 比其他人工智能做得更好的原因在于識別有益的變異，從而可以跳過一些負(fù)面的變異。

該團(tuán)隊(duì)安裝了 MCTS 系統(tǒng)的模塊，該框架允許設(shè)計人員嵌入不同的功能來評估變體。最終的全速系統(tǒng)使用所有這些大腦，如下所示。

1. 從當(dāng)前的棋盤布局中，選擇下一步可能采取的行動。他們使用了基本的移動選擇器大腦（他們試圖使用更強(qiáng)的版本，但實(shí)際上使它變得更弱，因?yàn)樗辉试SMCTS提供更廣泛的選擇空間）。它專注于“明顯最好”的動作，而不是大量閱讀，而不是選擇以后可能有益的動作。

2. 對于每個可能的移動，有兩種方法來評估質(zhì)量：要么在移動后使用板載位置評估器，要么運(yùn)行更深入的蒙特卡羅模擬器（滾動）來考慮未來的移動，使用快速讀取移動選擇器以提高搜索速度。每個猜測都使用一個簡單的參數(shù)“混合相關(guān)系數(shù)”進(jìn)行加權(quán)。最大馬力采用50/50的混合，利用態(tài)勢評估器和模擬滾動來做出平衡判斷。

本文包含對功能變化和上述步驟的模擬，因?yàn)樗鼈冸S所使用的插件而變化。僅使用獨(dú)立的大腦大約與最好的計算機(jī)圍棋人工智能一樣強(qiáng)，但當(dāng)使用這些綜合方法時，有可能達(dá)到職業(yè)人類棋手的水平。

谷歌人工智能戰(zhàn)勝李世石_谷歌人工智能技術(shù)_谷歌人工智能李世石

能力變化與是否使用MCTS插件有關(guān)。

本文還詳細(xì)談到了一些工程優(yōu)化：分布式計算、網(wǎng)絡(luò)計算機(jī)來提高M(jìn)CTS的速度，但這些并沒有改變基本算法。這些算法中有些是精確的，有些是近似的。在特殊情況下，通過更強(qiáng)的計算能力來變得更強(qiáng)，但計算單元的提升速度隨著性能的變強(qiáng)而變慢。

的優(yōu)點(diǎn)和缺點(diǎn)

我認(rèn)為它在小規(guī)模戰(zhàn)術(shù)中會非常強(qiáng)大。它知道如何在多種位置和類型中找到最佳的人類動作，因此在小范圍的戰(zhàn)術(shù)條件下它不會犯明顯的錯誤。

但整體判斷上存在弱點(diǎn)。它看到了一個通過 5x5 金字塔過濾的棋盤，這給將戰(zhàn)術(shù)部分整合到戰(zhàn)略整體中帶來了麻煩，就像圖像分類神經(jīng)網(wǎng)絡(luò)往往會混淆什么包含一件事和另一件事一樣。例如，在圍棋中，角上的設(shè)定位置會創(chuàng)建一堵墻或鉛，這將極大地改變另一個角的位置估計。

就像其他基于MCTS的AI一樣，判斷大體情況還是比較麻煩，需要深入閱讀才能解決，比如龍的生死。你也會對一些刻意看起來正常的游戲失去判斷力，比如天元開局或者稀有的套路谷歌人工智能李世石，因?yàn)楹芏嘤?xùn)練都是基于人類的棋局庫。

我還是很期待和李世石的九段對決！我的預(yù)測是：如果李使用直（）風(fēng)格，就像與其他職業(yè)棋手對決一樣，他可能會輸，但如果將他置于不熟悉的戰(zhàn)略情境中，他可能會贏。

－－－－－－－－－－－－－－－－－－

分割線結(jié)束于原文的末尾。下面是董老師的抒情詠嘆調(diào)：）

說到這里我又想起了另一個人，中國最強(qiáng)大腦選手包偉。我看著他走出蜂窩迷宮，被他超強(qiáng)的空間記憶力和想象力深深震撼了。他的職業(yè)是圍棋棋手，他是盲棋。他能完成1到5盲圍棋谷歌人工智能李世石，確實(shí)令人難以置信。在圍棋圈子里，幾乎沒有棋手能夠完成盲棋，因?yàn)槊て鍖?shí)在是太難了。筆者也詢問了他對此事的看法。他說歐洲冠軍沒能理解這個程序，但從國際象棋的角度來看，我很難贏谷歌程序，而且我確實(shí)下得不錯。盡管圍棋社區(qū)一致看好李世石，但我不確定谷歌的計劃在三月份會進(jìn)展到什么程度。

說起田博士，與谷歌超豪華團(tuán)隊(duì)長期投入不同，他這個項(xiàng)目從立項(xiàng)到實(shí)現(xiàn)已經(jīng)有半年多的時間了。直到最近，一名實(shí)習(xí)生加入來幫助他。這背后是他的辛苦付出。為了搶時間，他在圣誕節(jié)開始了項(xiàng)目，新年都是加班。據(jù)他介紹，他每天工作 10 多個小時，自己搭建機(jī)器、編寫代碼、調(diào)整參數(shù)，一手完成成果。

在談到與谷歌團(tuán)隊(duì)的競爭時，田博士說：“這是一場必敗之戰(zhàn)”，但我還是很佩服他。讓我想起了三國時代的趙子龍，單槍匹馬對抗曹軍，威力一絕！因?yàn)樗且粋€真正的戰(zhàn)士。正是因?yàn)檫@些勇敢無畏的科學(xué)家一次次打破規(guī)則、挑戰(zhàn)極限，才讓我們知道了人類的巨大潛力。短短幾年的發(fā)展，從大數(shù)據(jù)、深度學(xué)習(xí)人工智能到虛擬現(xiàn)實(shí)，從類地行星的發(fā)現(xiàn)到引力波的確認(rèn)，從無人駕駛到量子計算，這些令人著迷的技術(shù)讓我們了解了世界。意識上升到新的高度。面對這個激動人心的時代，我想說，天空是我們的極限，宇宙是我們的極限，未來是我們的極限！

最后請?jiān)试S我以田博士的話作為結(jié)束。

有時我會問自己：“我放棄了我的夢想嗎？” 我想除了我自己沒有人能給我答案，任何評論都是無效的。記得有人問，如果一個夢從一開始就無意識地向現(xiàn)實(shí)妥協(xié)，那個夢還是原來的夢嗎？其實(shí)，面對這樣的問題，沒有什么好糾結(jié)的，因?yàn)槭澜鐝膩砭筒皇嵌摹?夢想與現(xiàn)實(shí)就像日月高懸。日月之間，有一條灰色的路，在你的腳下蜿蜒，繞過各種險阻，繼續(xù)前行。

“而我能做的就是在跑步時不斷提醒自己，記住‘夢想’這個詞的含義?！?/p>

參考

如何

紙：

閱讀有關(guān)論文的筆記

關(guān)于圍棋人工智能的新想法

186信息網(wǎng)原創(chuàng)文章，轉(zhuǎn)載請注明本文來自：www.yjdjwpb.cn

圍棋大腦局面神經(jīng) 評估谷歌夢想多層深度

點(diǎn)贊 0舉報收藏 0打賞 0評論 0

更多>同類資訊

推薦圖文

推薦資訊

魯ICP備10202933號-11

魯公網(wǎng)安備 37082902000369號

?

本網(wǎng)內(nèi)容由用戶上傳，我們不承擔(dān)作品侵權(quán)的直接責(zé)任及連帶責(zé)任。如有侵權(quán)違規(guī)請?jiān)陧撁嫦路搅粞园辶粞?，或者加QQ:1940638858 或者郵箱留言：1940638858@qq.com、我們負(fù)責(zé)刪除。麒麟商城免費(fèi)b2b信息發(fā)布平臺，免費(fèi)信息發(fā)布網(wǎng)站，推廣平臺、企業(yè)電商發(fā)布信息網(wǎng)站，主要匯集石雕、山東嘉祥石牌坊廠家、河北曲陽雕塑廠家以及福建眾多雕刻公司，我們提供石雕牌坊制作價格、牌樓價格、麒麟、貔貅、寺院雕刻、仿古石雕、玉雕、木雕、核雕、等各種工藝品。專業(yè)提供山東濟(jì)寧和曲陽以及惠安生產(chǎn)廠家價格。168信息網(wǎng)免費(fèi)發(fā)布信息平臺，公司和個人發(fā)布信息的免費(fèi)平臺、廣告信息、求購信息都可以免費(fèi)發(fā)布，免費(fèi)發(fā)帖子請來186信息網(wǎng)。

• 谷歌機(jī)器學(xué)習(xí)獲重大突破圍棋程序?qū)⒋髴?zhàn)李世石	• 王小川：谷歌人工智能將完勝職業(yè)圍棋手李世石完
• 谷歌人工智能機(jī)器人三個半小時贏下韓國圍棋九段	• 谷歌人工智能戰(zhàn)勝韓國棋手李世石獲100萬美元獎
• 谷歌人工智能叫什么？谷歌創(chuàng)始人名叫德米斯	• AI研究人員世界上最頂級的AI實(shí)驗(yàn)室是哪個？
• 供應(yīng)獻(xiàn)縣瑞達(dá)古圍棋象棋盤休閑桌椅組合廠家定制

成人在线免费观看视频_在线中文字幕视频_成人永久免费视频_丁香伊人_亚洲精品国产a_色综合网在线

谷歌研發(fā)的神經(jīng)網(wǎng)絡(luò)圍棋AI，戰(zhàn)勝人類職業(yè)選手