※ 本文轉寄自 ptt.cc, 文章原始頁面
看板C_Chat
標題

[閒聊] 5萬小時訓練AI玩寶可夢紅版 走不出月見山

最新2023-10-26 21:13:00
留言94則留言,69人參與討論
推噓61 ( 61033 )
https://game.udn.com/game/story/122089/7526108 在經歷長達 5 萬小時的訓練與學習後, 一位工程師成功讓一套 AI 模組學會如何遊玩《寶可夢:紅版》, 創造出能夠自行探索遊戲,組成寶可夢隊伍...。 ... 由於機器演算法在本質上並不在乎「全破」一款遊戲, 因此 Whidden 為 AI 演算法設計一套在完成特定目標時能夠獲得獎勵的系統。 為了鼓勵 AI 在《寶可夢:紅版》中進行探索, 只要能夠在地圖上看到一些之前沒有看過的東西,就能夠獲得獎勵點數。 最終 AI 順利從真心鎮出發,穿過常盤森林,來到深灰市挑戰第一道館。 在那之前,AI 還需要更加完善的獎懲系統。 在學會看到新事物能夠獲得獎勵後,雖然 AI 會開始不斷向前邁進, 但完全不在乎收服寶可夢或進行對戰,而是在遇到野生寶可夢時立刻逃走。 因此,Whidden 為獎勵系統加入更多內容, 依照 AI 寶可夢隊伍的等級總和給予獎勵,讓它開始有動力去練等和捕捉寶可夢。 只不過在某一次的演算中,AI 走進寶可夢中心時意外開啟 PC,並在其中存放幾隻寶可夢。 由於 AI 獲得的獎勵點數是依照隊伍等級總和而定,這個行為導致 AI 獲得的分數瞬間驟降。 為了避免重蹈覆轍,AI 在那之後的所有演算中都選擇避開寶可夢中心, 完全不敢進去為寶可夢補血,這讓 Whidden 不得不再次插手調整。 這套 AI 演算法最基本的運作方式,其實就是隨機在《寶可夢:紅版》中走動與遊戲進行互動, 直到發現能夠以最有效率的方式獲得最多獎勵的路徑,並將經驗保留到下一次的演算中。 在挑戰的過程中,AI 都只會使用最基本的攻擊招式撞擊來進行對戰, 直到該招式的 PP 用完後才會使用其他選擇。 某次演算中,AI 終於發現傑泥龜的泡沫攻擊能夠對小剛的寶可夢造成大量的傷害, 最終順利擊敗這位道館館主。 即使 AI 在對於遊戲的理解與邏輯上依然比不上人類,但這場實驗發掘了一些更加深層的細節。 根據 Whidden 的發現, AI 在經歷一段時間的演算後就開始固定以看似不尋常的路徑從真心鎮出發,直到遇到第一隻野生寶可夢。 然而,這一系列的操作其實能夠保證 AI 能夠一球抓到遇見第一隻寶可夢。 也就是說,AI 發現一個 Speedrun 玩家可能要花上好幾年的時間研究才有機會注意到的系統漏洞。 這套 AI 演算法在成功突破第一道館時基本上已經達成了 Whidden 最初設定的目標, 但 Whidden 決定要讓 AI 的《寶可夢:紅版》冒險繼續下去, 看看目前的獎勵機制到底能讓它走多遠。 可惜的是,第一和第二道館之間的月見山對於看到新事物就能加分的 AI 來說 實在是太過於容易分心, 因此一直到 Whidden 決定讓實驗告一段落前都無法順利抵達華藍市。 除此之外,AI 似乎非常喜歡從鯉魚王大叔手中購買鯉魚王, 因為這樣的行為能夠讓 AI 寶可夢隊伍的等級總和立刻多出五等, 因此到實驗結束前,AI 在其中 1 萬次的演算中都跑去買了鯉魚王。 另外值得注意的是,AI 有一次將抓來的小拉達命名為了「AI」,讓人細思極恐。 https://youtu.be/DcYLT37ImBY?si=Yc6mnic1FdBh3zw9
----- 1. 只要能夠在地圖上看到新東西,就能夠獲得獎勵點數 --> ai只會拼命往前衝,完全不打怪不練等 2. 依照 AI 寶可夢隊伍的等級總和給予獎勵 --> 不敢進寶可夢中心 以免把寶可夢存入電腦中、 一萬次演算都跑去買鯉魚王 因為直接加五等XD 3.月見山過多新事物 AI無法專心 中止實驗 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.73.186.109 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1698240304.A.D53.html

94 則留言

Satoman, 1F
耶穌鳥屌打

xsc, 2F
發現一發必中BUG有點恐怖

ianpttptt, 3F
有台灣Yt 疑似未授權的搬運

ryoma1, 4F
一群猴子>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>AI

BattleFries, 5F
好酷

willytp97121, 6F
看來對AI來說寶可夢暫時還太難懂了一點

yys310, 7F
TPP>>>>>>>AI

kinuhata, 8F
鯉魚王大叔或成最大贏家

shampoopoo, 9F
這意思是還不如金魚嗎

shadowblade, 10F
金魚>>>AI

shlee, 11F
滿酷的

andy0481, 12F
結論 多了獎勵導向的硬A怪而已

MrSherlock, 13F
笑死

killerj466v2, 14F
AI:我要皮皮!我要月見石1

ikachann, 15F
寶可夢其實很複雜耶 別看屬性相剋那樣 其實裡面學問超多

NoLimination, 16F
獎勵應該是館主 四天王 冠軍吧

NoLimination, 17F
一般小孩理解的第一遊戲目標

lolicon, 18F
AI取AI的名字XD

spfy, 19F
沒問題啦 12萬支猴子都能TPP破關了 相信AI

yellowd54321, 20F
人類:AI會毀滅世界!!

yellowd54321, 21F
金魚:Hold my beer.

as3366700, 22F
要算也是先算全破SR的玩法吧 寶可夢應該沒啥AI才能做到

as3366700, 23F
的操作

ryoma1, 24F
等AI可以把小拉達變成夢幻再叫我

umapyoisuki, 25F
我小時候也都會去買鯉魚王

rabbithouse, 26F
用無限船票砍樹!

king9122, 27F
鯉魚王真愛

geminitea, 28F
好可愛又好恐怖XDDD

orcazodiac, 29F
以破關為目標可能就變成各種卡BUG了

bestteam, 30F
小時候這裡也走超久的

furret, 31F
金魚腦>AI

jpnldvh, 32F
給夠多時間猴子也能寫出莎士比亞

q0000hcc, 33F
圖奇聊天室>AI

s1129sss, 34F
AI嗚嗚嗚,寶可夢中心把我的寶可夢吃掉了,以後不來了

lucky0417, 35F
AI:我在享受遊戲,為什麼要逼我走出鎮子 AI:靠背 打

lucky0417, 36F
怪會扣血 白痴才打

theone5566, 37F
被存電腦嚇到不敢進去補血也太可愛

nineflower, 38F
過個10年是不是要說AI玩的比你好

shigurew, 39F
AI最大問題就是獎勵機制寫不好,只定一個最終目標沒啥用

StSoSnE, 81F
嘗試修改的思路

willie6501, 82F
作者想的不夠充分或故意想的不充分看會導致什麼策略

willie6501, 83F
行為

timaaa, 84F
有趣

baddad, 85F
我也會買耶xD

baddad, 86F
裡面有提到,他找出不遇敵路線,這還蠻厲害的耶

lifehunter, 87F
玩遊戲主要是樂趣啊~

ak478998, 88F
這人超猛,才幾天觀看次數很高,而且有放開源碼

zack867, 89F
一發必中應該不是bug吧 比較像是遊戲用固定亂數表算機率

zack867, 90F
變因是步數之類的

Violataf, 91F
他裡面有說用租的伺服器算力去跑 可以快1000倍

Violataf, 92F
以跑40次2小時的遊戲來說 只需要6分鐘 他跑了750輪

Violataf, 93F
750*2*40=60000小時 租伺服器去算大概只要62.5小時

Violataf, 94F
伺服器租一天大約是50美金 他整個花了約1000美金

lolic 作者的近期文章

[閒聊] 死侍與金鋼狼導演:觀看前不用做功課
https://reurl.cc/ZeAba3 根據《死侍與金鋼狼》導演薛恩李維的說法, 觀眾們在觀賞這部由萊恩雷諾斯以及休傑克曼主演的電影時, 並不需要知道任何與漫威電影宇宙過往作品的知識,就可以享受其中。 導演在接受《美聯社》網站的訪談
[閒聊] 不開大的小傑能跟半藏打到哪裡
昨天剛好看到台視還哪台在播新獵人 播到獵人最終測驗小傑被半藏屌虐 被承認身體素質不錯 但只是小孩水準 連奇犽都有畫出差距圖 不過小傑之後經過天空競技場 貪婪之島的歷練 如果不變成大傑 有機會反殺半藏嗎 或至少打個五五波沒問題吧 但我忘記半藏
[閒聊]「家暴者康」判決出爐 免坐牢但須受輔導
「家暴者康」判決出爐 免坐牢但須受輔導 https://www.toy-people.com/?p=88887 強納森梅傑斯(Jonathan Majors)家暴案判決出爐。 由於犯下騷擾、襲擊前女友被判有罪成立, 今日稍早,曼哈頓法官判處
更多 lolic 作者的文章...