一群大模型玩你畫(huà)我猜,人類(lèi)一旁圍觀超起勁兒。 就像下面這張圖展示的,由Grok畫(huà)長(zhǎng)頸鹿,一堆大模型根據(jù)生成內(nèi)容猜答案。參賽選手包括GPT-4o、Claude、Llama、Gemini、Grok等。 其實(shí)這是最近爆火的一種新的測(cè)試基準(zhǔn)(doge)。 游戲結(jié)果一定程度上能反映出大模型能力,比如這組測(cè)試一共進(jìn)行了6局游戲,表現(xiàn)最好的是Claude:它贏了3次! GPT-4o表現(xiàn)有點(diǎn)抽象。就它畫(huà)的這龍卷風(fēng),人類(lèi)也看不懂。 不止如此,在很多輪游戲中,其他模型都在認(rèn)認(rèn)真真地答題,而它的第一個(gè)回答經(jīng)常是Circle??有點(diǎn)子抽象。 所以有人就說(shuō),這游戲可以當(dāng)測(cè)試基準(zhǔn)來(lái)用啊。 還有人表示,AI照這個(gè)速度發(fā)展,人類(lèi)就只能當(dāng)圍觀的瓦力了。 來(lái)看看更多有趣的例子 在比較簡(jiǎn)單的題目上,所有模型都在一兩個(gè)回合中就猜對(duì)了答案,比如下面的房子: 還有非常簡(jiǎn)潔的草地、海洋: 動(dòng)物主題相對(duì)復(fù)雜一些,模型們一般需要猜4-5輪,比如大象這題: 游戲整體效果非常棒,網(wǎng)友們也是好評(píng)如潮: 你畫(huà)我猜項(xiàng)目起源 模型畫(huà)畫(huà)早已不是新鮮事,但讓大模型玩你畫(huà)我猜?這天才想法是怎么產(chǎn)生的? 首先,不得不提到Simon Willison的一次測(cè)試,他讓所有模型繪制自行車(chē)上有一只鵜鶘主題的圖像,然后進(jìn)行效果對(duì)比。 隨后Paul Calcraft看到測(cè)試,他產(chǎn)生了一個(gè)想法:這樣一個(gè)個(gè)比對(duì)太慢了,效果也不好,既然都畫(huà)同一個(gè)主題,為什么不讓大模型玩你畫(huà)我猜的游戲呢? 沒(méi)想到這位小哥說(shuō)干就干,1天后就發(fā)布了“你畫(huà)我猜”的0.0.1版(這令人羨慕的執(zhí)行力)。 游戲中,他設(shè)定回答的模型每2秒猜測(cè)一次,回答更快的模型會(huì)更快返回答案。 網(wǎng)友評(píng)價(jià)褒貶不一 不少網(wǎng)友表示,之前大模型在《我的世界》里面比賽蓋樓,令人印象深刻,而你畫(huà)我猜可能成為新的視覺(jué)benchmark! 還有人熱心地提出了優(yōu)化建議,比如以答對(duì)互相題目的速度作為評(píng)分準(zhǔn)則,或者加入人類(lèi)成績(jī)作為參考。 還有人提議將游戲變成對(duì)抗式訓(xùn)練,這樣大模型會(huì)進(jìn)步更快。 不過(guò),拋去趣味性,也有網(wǎng)友持負(fù)面觀點(diǎn),表示不理解這個(gè)項(xiàng)目的意義。 有網(wǎng)友調(diào)侃說(shuō),這個(gè)游戲的作用就是成為未來(lái)AI考古時(shí)的文物,幫助它們了解自己的起源。 好嘛,咱們AI有自己的洞穴壁畫(huà)(doge)。 不過(guò),游戲化學(xué)習(xí)(Learning through play)其實(shí)是教育理論和心理學(xué)中的一個(gè)重要術(shù)語(yǔ)。 多位網(wǎng)友表示,小孩子也是通過(guò)玩游戲來(lái)提升智力、學(xué)習(xí)技能的,或許這可以成為訓(xùn)練大模型的新方式。 雖然這次只有6輪游戲,參與的模型也有限,但確實(shí)是一次很有趣的實(shí)踐。 作者Paul Calcraft也表示會(huì)繼續(xù)更新這個(gè)游戲,包括分?jǐn)?shù)顯示、更多的游戲主題等等,期待更多后續(xù)! 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。