首頁 > 科技要聞 > 科技> 正文

大模型玩《寶可夢》達人類水平!網(wǎng)友喊話世界冠軍:是時候一較高下了

量子位 整合編輯:黃安莉 發(fā)布于:2024-02-18 16:12

基于大模型的Agent會玩寶可夢了,人類水平的那種!

名為PokéLLMon,現(xiàn)在它正在天梯對戰(zhàn)中與人類玩家一較高下:

PokéLLMon能靈活調(diào)整策略,一旦發(fā)現(xiàn)攻擊無效,立刻改變行動:

PokéLLMon還會運用人類式的消耗戰(zhàn)術(shù),頻繁給對方寶可夢下毒,并一邊恢復自身HP。

不過面對強敵,PokéLLMon也會“慌亂”逃避戰(zhàn)斗,連續(xù)切換寶可夢:

最終對戰(zhàn)結(jié)果是,PokéLLMon在隨機天梯賽中取得49%的勝率與專業(yè)玩家的邀請賽中取得56%的勝率,游戲戰(zhàn)略和決策水平接近人類。

網(wǎng)友看到PokéLLMon的表現(xiàn)也很意外,直呼:

小心被任天堂封禁,這話是認真的。

甚至有網(wǎng)友喊話寶可夢大滿貫選手、世錦賽冠軍Wolfey Glick,來和這個AI一較高下:

這究竟是如何做到的?

PokéLLMon大戰(zhàn)人類

PokéLLMon由佐治亞理工學院研究團隊提出:

具體來說,他們提出了三個關(guān)鍵策略。

一是上下文強化學習(In-Context Reinforcement Learning)

利用從對戰(zhàn)中即時獲得的文字反饋作為一種新的“獎勵”輸入,不需要訓練就可以在線迭代完善和調(diào)整PokéLLMon的決策生成策略。

其中反饋內(nèi)容包括:回合HP變化、攻擊效果、速度優(yōu)先級、招式額外效果等。

比如PokéLLMon反復使用相同的攻擊招式,但由于對方寶可夢具有“干燥皮膚”的能力,對其沒有任何效果。

在第三回合中對戰(zhàn)中,通過即時上下文強化學習,PokéLLMon隨后選擇更換寶可夢。

二是知識增強生成(Knowledge-Augmented Generation)。

通過檢索外部知識源作為額外輸入,融入到狀態(tài)描述中。比如檢索類型關(guān)系、招式數(shù)據(jù),模擬人類查詢寶可夢圖鑒,來減少未知知識導致的“幻覺”問題。

由此一來,PokéLLMon可以準確理解并應(yīng)用招式效果。

比如面對犀牛進化形態(tài)的地面攻擊,PokéLLMon未選擇更換寶可夢,而是施展“電磁飄浮”,該技能在五回合內(nèi)成功抵御地面攻擊,使犀牛的“地震”技能無效。

三是一致性動作生成(Consistent Action Generation)。

研究人員發(fā)現(xiàn),當PokéLLMon面對強大對手時,思維鏈(CoT)的推理方式會導致它因“恐慌”而頻繁更換道具或?qū)毧蓧簟?/p>

PokéLLMon害怕,不斷切換寶可夢

而通過一致性動作生成,可以獨立多次生成行動,投票出最一致的,從而緩解“恐慌”。

值得一提的是,研究人員所用的模型自主和人類作戰(zhàn)的寶可夢對戰(zhàn)環(huán)境,基于Pokemon Showdown和poke-env實現(xiàn),目前已開源。

為了測試PokéLLMon的對戰(zhàn)能力,研究人員用它分別與隨機天梯賽玩家和一名擁有15年經(jīng)驗的專業(yè)玩家對戰(zhàn)。

結(jié)果,PokéLLMon與天梯隨機玩家的勝率為48.57%,與專業(yè)玩家的邀請對戰(zhàn)勝率為56%。

總的來說,PokéLLMon的優(yōu)勢在于:能準確選擇有效招式,統(tǒng)一使用一個寶可夢擊倒全部對手;展現(xiàn)出類人的消耗戰(zhàn)略,使對手中毒后再拖延回血。

不過研究人員也指出了PokéLLMon的不足之處,面對玩家的消耗戰(zhàn)略(拖延回血)很難應(yīng)對:

容易被玩家的迷惑戰(zhàn)術(shù)誤導(迅速切換寶可夢,巧妙使PokéLLMon浪費強化攻擊機會)

團隊簡介

三位作者均為華人學者。

論文一作胡思昊,現(xiàn)為佐治亞理工學院計算機科學博士生,本科畢業(yè)于浙江大學,曾在新加坡國立大學擔任研究助理。

研究興趣包括用于區(qū)塊鏈安全和推薦系統(tǒng)的數(shù)據(jù)挖掘算法及系統(tǒng)。

作者Tiansheng Huang,同為佐治亞理工學院計算機科學博士生,華南理工大學校友。

研究興趣包括分布式機器學習、并行與分布式計算、優(yōu)化算法以及機器學習安全性。

導師劉玲,現(xiàn)為佐治亞理工學院計算機系教授。1982年畢業(yè)于中國人民大學,1993年于荷蘭蒂爾堡大學獲博士學位。

劉教授主導分布式數(shù)據(jù)密集系統(tǒng)實驗室(DiSL)的研究工作,專注于大數(shù)據(jù)系統(tǒng)及其分析的多個方面,如性能、安全和隱私等。

同時她也是IEEE Fellow,2012年獲得IEEE計算機學會技術(shù)成就獎,還曾擔任多個IEEE和ACM大會主席。

參考鏈接:

[1]https://twitter.com/_akhaliq/status/1754337188014100876

[2]https://poke-llm-on.github.io/

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部