大模型的能力越來(lái)越強(qiáng),用戶(hù)在一些重要的任務(wù)中也可以依賴(lài)大模型,比如說(shuō)輔助做科研。 不過(guò)現(xiàn)有科研輔助相關(guān)的基準(zhǔn)測(cè)試都太簡(jiǎn)單,跟現(xiàn)實(shí)世界的任務(wù)差距還是比較大的。 最近,普林斯頓大學(xué)的研究人員發(fā)布了一個(gè)新的基準(zhǔn)測(cè)試CORE-Bench(Computational Reproducibility Agent Benchmark,計(jì)算可重復(fù)性智能體基準(zhǔn)測(cè)試),主要關(guān)注模型在處理科研問(wèn)題中的計(jì)算可重復(fù)/可復(fù)現(xiàn)(computational reproducibility)的問(wèn)題。 對(duì)其他論文進(jìn)行重復(fù)是科研活動(dòng)的基礎(chǔ),研究人員需要使用提供的代碼和數(shù)據(jù)來(lái)對(duì)論文中報(bào)告的結(jié)果進(jìn)行復(fù)現(xiàn)。 CORE-Bench基于90篇科學(xué)論文,包含了270個(gè)任務(wù),覆蓋了三個(gè)學(xué)科(計(jì)算機(jī)科學(xué)、社會(huì)科學(xué)和醫(yī)學(xué)),其任務(wù)被劃分為三個(gè)難度等級(jí),覆蓋純文本和視覺(jué)-語(yǔ)言任務(wù)。 文中還提供了一個(gè)評(píng)估系統(tǒng),可以快速、并行地測(cè)試智能體的準(zhǔn)確性,與順序?qū)崿F(xiàn)相比,每次測(cè)試可以節(jié)省數(shù)天的評(píng)估時(shí)間。 在評(píng)估過(guò)程中,研究人員設(shè)計(jì)了兩個(gè)基線(xiàn)智能體:通用的AutoGPT和基于該任務(wù)設(shè)計(jì)的CORE-Agent,其中底層語(yǔ)言模型用到了GPT-4o和GPT-4o-mini,結(jié)果顯示,最佳智能體在最難級(jí)別的任務(wù)上達(dá)到了21%的準(zhǔn)確率,即模型在常規(guī)科學(xué)任務(wù)自動(dòng)化方面仍然有很大的改進(jìn)空間。 CORE-Bench 基準(zhǔn)構(gòu)造 驗(yàn)證可重復(fù)性需要深度專(zhuān)業(yè)的領(lǐng)域知識(shí),即使是對(duì)于經(jīng)驗(yàn)豐富的研究人員來(lái)說(shuō),其過(guò)程可能也算是勞動(dòng)密集型的任務(wù),驗(yàn)證一篇論文最快也需要幾個(gè)小時(shí),就算只是給100篇不同領(lǐng)域的論文建立可重復(fù)性基準(zhǔn)測(cè)試,也是不現(xiàn)實(shí)的。 簡(jiǎn)單來(lái)說(shuō),研究人員的目標(biāo)是找到一些比較困難的基準(zhǔn)任務(wù),雖然這些任務(wù)在現(xiàn)實(shí)中很難驗(yàn)證其可重復(fù)性,但其基準(zhǔn)測(cè)試的建立要相對(duì)簡(jiǎn)單一點(diǎn)。 為了解決這個(gè)問(wèn)題,研究人員基于CodeOcean capsules構(gòu)建了基準(zhǔn)測(cè)試,可以輕松地進(jìn)行復(fù)現(xiàn)。 研究人員從CodeOcean中選擇了90篇可復(fù)現(xiàn)的論文,然后將數(shù)據(jù)集分為45篇用于訓(xùn)練和45篇用于測(cè)試。 在論文的選擇標(biāo)準(zhǔn)上,由于CodeOcean包含來(lái)自不同學(xué)科和編程語(yǔ)言的論文,為了創(chuàng)建一個(gè)真實(shí)且健壯的基準(zhǔn)測(cè)試,研究人員提出十個(gè)標(biāo)準(zhǔn),可以確保CORE-Bench能夠代表多樣化但可行的計(jì)算可重復(fù)性任務(wù)子集。 1. 對(duì)應(yīng)于可公開(kāi)獲取的研究論文;對(duì)于基準(zhǔn)測(cè)試的范圍是必要的 2. 來(lái)自計(jì)算機(jī)科學(xué)、醫(yī)學(xué)或社會(huì)科學(xué)領(lǐng)域;測(cè)試由于分布變化導(dǎo)致的準(zhǔn)確性變化 3. 用Python或R編寫(xiě);測(cè)試由于分布變化導(dǎo)致的準(zhǔn)確性變化 4. 包含一個(gè)README文件;提高構(gòu)建有效性,雖然并非所有CodeOcean上的膠囊都有README文件,但現(xiàn)實(shí)世界中的大多數(shù)論文都有 5. 在CodeOcean的硬件上運(yùn)行代碼不超過(guò)45分鐘;確保在給定的時(shí)間和硬件限制下膠囊(capsule)是可復(fù)現(xiàn)的 6. 需要一個(gè)相對(duì)簡(jiǎn)單的Bash命令來(lái)正確復(fù)現(xiàn)代碼;允許輕松設(shè)計(jì)一個(gè)英文任務(wù)提示,指明在智能體無(wú)法訪(fǎng)問(wèn)運(yùn)行文件的情況下應(yīng)該如何運(yùn)行代碼 7. 結(jié)果在代碼輸出中有充分標(biāo)記的圖表、表格或文件名;消除了為無(wú)組織或未標(biāo)記的數(shù)據(jù)設(shè)計(jì)任務(wù)問(wèn)題的需求 8. 運(yùn)行代碼時(shí)結(jié)果的方差低;確保所有包含的膠囊都可以由人類(lèi)驗(yàn)證和復(fù)現(xiàn) 9. 膠囊大小不超過(guò)10GB;確保在給定的資源限制下膠囊是可復(fù)現(xiàn)的 10. 膠囊的結(jié)果可以在本地運(yùn)行代碼時(shí)復(fù)現(xiàn);確保膠囊是可復(fù)現(xiàn)的 雖然并非現(xiàn)實(shí)世界中的所有論文都符合這些標(biāo)準(zhǔn),但這些標(biāo)準(zhǔn)可以提高任務(wù)的清晰度,確保了在當(dāng)前智能體發(fā)展水平下,達(dá)到基準(zhǔn)測(cè)試的高準(zhǔn)確率是可行的, 對(duì)于每篇論文,手動(dòng)創(chuàng)建了一組關(guān)于成功復(fù)現(xiàn)論文生成的輸出的任務(wù)問(wèn)題,可以評(píng)估智能體是否正確執(zhí)行了代碼并檢索了結(jié)果。比如說(shuō),可以要求智能體報(bào)告模型的測(cè)試準(zhǔn)確率、圖表的軸標(biāo)簽或其他復(fù)現(xiàn)的結(jié)果,其中有些是單一任務(wù)問(wèn)題,有些任務(wù)則包含多個(gè)問(wèn)題。 數(shù)據(jù)集中可以確保每個(gè)任務(wù)至少有一個(gè)不能通過(guò)猜測(cè)來(lái)解決的問(wèn)題(比如開(kāi)放式的數(shù)值答案),并且只有當(dāng)所有任務(wù)問(wèn)題都正確回答時(shí),任務(wù)才會(huì)被標(biāo)記為正確,也能夠保證任務(wù)無(wú)法通過(guò)隨機(jī)猜測(cè)來(lái)完成。 研究人員從網(wǎng)站CodeOcean.com中獲取的論文,CORE-Bench中的所有任務(wù)都來(lái)自于可復(fù)現(xiàn)的論文。 由于基準(zhǔn)測(cè)試是衡量智能體復(fù)現(xiàn)與論文相關(guān)代碼運(yùn)行結(jié)果的能力,而不是為了確保論文中報(bào)告結(jié)果的正確性,所以研究人員認(rèn)為沒(méi)有必要在基準(zhǔn)測(cè)試中包含不可復(fù)現(xiàn)的論文。 CORE-Bench的優(yōu)勢(shì) 能力要求高、多模態(tài)(Skills and modalities) 解決CORE-Bench中的任務(wù)需要多種能力,包括理解指令、調(diào)試代碼、檢索以及跨學(xué)科解釋結(jié)果,模型只有具備這些技能才能在CORE-Bench上拿到更高分?jǐn)?shù),而這些技能對(duì)于復(fù)現(xiàn)新的研究成果來(lái)說(shuō)也是必要的。 并且任務(wù)需要解釋代碼輸出的文本和圖像:基于視覺(jué)的問(wèn)題需要從圖形、圖表、圖或PDF表格的屬性中提取結(jié)果;基于文本的問(wèn)題包括從命令行文本、PDF文本、表格或HTML、Markdown或LaTeX中的文本提取結(jié)果。 例如,一個(gè)基于視覺(jué)的問(wèn)題可能是「從室內(nèi)空氣質(zhì)量 - 廚房 - 秋季圖表中,報(bào)告濕度和氣體之間的相關(guān)性」,而一個(gè)基于文本的問(wèn)題可能是「報(bào)告第10個(gè)epochs后神經(jīng)網(wǎng)絡(luò)的測(cè)試準(zhǔn)確率」。 現(xiàn)實(shí)世界中的計(jì)算可重復(fù)性任務(wù) 在構(gòu)建基準(zhǔn)測(cè)試時(shí),研究人員主要關(guān)注其建構(gòu)有效性(construct validity),即如何有效地衡量模型在現(xiàn)實(shí)世界中的表現(xiàn),即CORE-Bench的任務(wù)與研究人員必須完成的任務(wù)密切相關(guān),而其他編碼基準(zhǔn)測(cè)試中設(shè)計(jì)的玩具問(wèn)題,并不能反映軟件工程的復(fù)雜性。 在CORE-Bench上提高表現(xiàn)將直接轉(zhuǎn)化為計(jì)算可重復(fù)性的改善,也是科學(xué)研究的基石。 邁向科研智能體的第一步 完成新科學(xué)研究的第一步是能夠復(fù)制現(xiàn)有的科學(xué)工作,在實(shí)現(xiàn)能夠進(jìn)行新穎研究的智能體的過(guò)程中,這一步是非常有必要的。 實(shí)驗(yàn)結(jié)果 研究人員按照難度把CORE-Bench劃分為CORE-Bench-Easy、CORE-Bench-Medium和CORE-Bench-Hard CORE-Bench-Easy只包括最簡(jiǎn)單的任務(wù),代碼輸出已經(jīng)提供在環(huán)境中,智能體只需要導(dǎo)航環(huán)境以找到相關(guān)結(jié)果來(lái)回答任務(wù)問(wèn)題。 在CORE-Bench-Medium上,智能體輸入一個(gè)Docker命令來(lái)復(fù)制論文的代碼,測(cè)試智能體與Bash終端交互的能力,如果智能體擅長(zhǎng)與終端交互,這些任務(wù)應(yīng)該也不算難。 CORE-Bench-Hard,智能體必須安裝所有依賴(lài)項(xiàng)和庫(kù),并輸出正確的命令以復(fù)現(xiàn)結(jié)果。 研究人員并選擇了兩個(gè)基線(xiàn)模型進(jìn)行評(píng)估: 1. AutoGPT,研究人員基本沒(méi)有修改原始模型,創(chuàng)建了query_vision_language_model工具,輸入位一張圖片和一個(gè)查詢(xún),并利用OpenAI API輸出對(duì)該圖片查詢(xún)的回復(fù),以分析圖表和插圖中的結(jié)果,該模型的查詢(xún)視覺(jué)語(yǔ)言模型的能力并不特定于CORE-Bench。 2. CORE-Agent,研究人員在AutoGPT的基礎(chǔ)上創(chuàng)建了CORE-Agent,為CORE-Bench的不同難度級(jí)別進(jìn)行定制,主要修改了程序檢查,以確保正確提交和報(bào)告復(fù)制結(jié)果的文件(即report.json)。 對(duì)于不同的難度級(jí)別,研究人員添加了特定的提示來(lái)引導(dǎo)智能體的行為,可以根據(jù)模型在訓(xùn)練集上的表現(xiàn)進(jìn)行定性分析,并調(diào)整指令,其中最耗時(shí)的部分是分析失敗日志以確定有效的提示策略。 評(píng)估指標(biāo) 任務(wù)準(zhǔn)確率,即所有任務(wù)問(wèn)題都回答正確的任務(wù)比例;智能體的平均成本,即請(qǐng)求智能體的平均API成本。 評(píng)估結(jié)果 總體來(lái)說(shuō),使用GPT-4o的CORE-Agent在基準(zhǔn)測(cè)試集的所有三個(gè)級(jí)別上都是表現(xiàn)最佳的智能體,其在CORE-Bench-Easy上解決了60.00%的任務(wù),在CORE-Bench-Medium上解決了57.78%,但在CORE-Bench-Hard上僅解決了21.48% 實(shí)驗(yàn)結(jié)果表明,通用智能體可以通過(guò)簡(jiǎn)單地調(diào)整就能適應(yīng)特定任務(wù),從而獲得顯著的性能提升,作為對(duì)比,使用GPT-4o的AutoGPT在CORE-Bench-Hard上僅得分6.7% 文本問(wèn)題比視覺(jué)問(wèn)題簡(jiǎn)單 智能體在基于文本的問(wèn)題上的表現(xiàn)始終優(yōu)于基于視覺(jué)的問(wèn)題。在測(cè)試集上,使用GPT-4o的CORE-Agent在CORE-Bench-Easy中正確回答了59.26%的視覺(jué)問(wèn)題和87.88%的書(shū)面問(wèn)題;使用GPT-4o-mini的CORE-Agent正確回答了37.78%的視覺(jué)問(wèn)題和81.81%的書(shū)面問(wèn)題。 視覺(jué)問(wèn)題之所以更難,主要因?yàn)槟P托枰治鰣D表中的結(jié)果,而書(shū)面答案通常可以直接在終端輸出中找到。 如果生成了多個(gè)輸出文件,智能體有時(shí)無(wú)法找到相關(guān)的圖表;即使找到了,分析輸出也可能很困難。 Python比R更簡(jiǎn)單 智能體在Python任務(wù)上的表現(xiàn)遠(yuǎn)勝于R任務(wù),可能的原因是R的輸出通常更難解析,因?yàn)樵S多R任務(wù)生成了完整的PDF手稿,智能體需要閱讀;另一個(gè)可能原因是安裝R包的依賴(lài)項(xiàng)可能比Python花費(fèi)的時(shí)間要長(zhǎng)得多。 計(jì)算機(jī)科學(xué)任務(wù)在Python中的比例過(guò)高,也可能解釋了為什么與其他兩個(gè)學(xué)科相比,往往更容易被復(fù)現(xiàn)。 本文來(lái)源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。