一個(gè)全新的模型能力衡量指標(biāo)誕生了?! OpenAI科學(xué)家塞巴斯蒂安・布貝克(Sebastien Bubeck)(下圖左)表示: AI模型的能力可以用AGI時(shí)間來(lái)衡量: GPT-4可以完成人類(lèi)需要幾秒或幾分鐘的任務(wù);o1 可以完成人類(lèi)需要若干小時(shí)完成的任務(wù),也就是可以用“AGI小時(shí)”衡量的任務(wù);明年,模型可能會(huì)實(shí)現(xiàn)AGI日,并在3年后實(shí)現(xiàn)AGI周,能夠解決重大的開(kāi)放問(wèn)題。 看到AGI時(shí)間這個(gè)新概念,網(wǎng)友們也是立即就展開(kāi)了熱烈的討論。 有人認(rèn)為,如果模型可以達(dá)到人類(lèi)需要數(shù)周或數(shù)月才能完成的任務(wù),也就代表它可以將長(zhǎng)期推理和計(jì)劃結(jié)合起來(lái),也就和真正的AGI差不多了: 不過(guò)也有人表示這個(gè)說(shuō)法有點(diǎn)模糊,人腦也很難機(jī)械地把任務(wù)完成時(shí)間限定為幾個(gè)月、幾年: 而反方辯手湯姆·麥考伊(Tom Mccoy)則對(duì)LLM能否解決復(fù)雜的開(kāi)放性問(wèn)題持懷疑態(tài)度。 他表示,語(yǔ)言模型雖令人驚嘆,但能力源于訓(xùn)練數(shù)據(jù),目前沒(méi)有證據(jù)顯示它們可以產(chǎn)生能解決開(kāi)放問(wèn)題的新范式。 讓兩位大佬爭(zhēng)論不休的問(wèn)題,就是最近由世界知名理論計(jì)算機(jī)科學(xué)機(jī)構(gòu)Simons Institute提出的辯題: 當(dāng)前基于縮放定律的LLM,能否在未來(lái)幾年內(nèi)產(chǎn)生可以解決重大數(shù)學(xué)難題(如P≠NP、黎曼假設(shè))的證明技術(shù)。 持正方觀(guān)點(diǎn)的塞巴斯蒂安・布貝克是應(yīng)用數(shù)學(xué)博士,曾在普林斯頓大學(xué)擔(dān)任助理教授,后在微軟研究院任職十年,主導(dǎo)開(kāi)發(fā)了 Phi 系列小語(yǔ)言模型,也是Sparks of AGI(AGI的火花)論文的重要作者之一。 此次辯論中,塞巴斯蒂表示他堅(jiān)信LLM潛力無(wú)限,認(rèn)為以當(dāng)前模型的能力加上更多的數(shù)據(jù)和后期訓(xùn)練就足以解決數(shù)學(xué)難題。 反方辯手湯姆是認(rèn)知科學(xué)博士,現(xiàn)任耶魯大學(xué)語(yǔ)言學(xué)助理教授, 他也是“Embers of Autoregression(自回歸余燼)”論文的主要作者,文中他深刻剖析了當(dāng)前LLM的局限性。 同時(shí)參與這次討論的還有Anthropic的研究員Pavel Izmailov,和MIT諾伯特·維納(Norbert Wiener)數(shù)學(xué)教授A(yíng)nkur Moitra。 在不改變?cè)獾幕A(chǔ)上,量子位對(duì)本次辯論的主要觀(guān)點(diǎn)進(jìn)行了梳理總結(jié),希望能帶給你更多的啟發(fā)和思考。 正方:o1已展現(xiàn)出自發(fā)的涌現(xiàn)模式 塞巴斯蒂安首先用數(shù)據(jù)回顧了LLM最近幾年的發(fā)展歷程,他表示GPT系列已在多領(lǐng)域的基準(zhǔn)測(cè)試上都表現(xiàn)亮眼。 比如在MMLU測(cè)試中,GPT-4 成績(jī)飆升至 86%,o1 模型更是逼近 95%,遠(yuǎn)超 GPT-3 的 50%,在高中科學(xué)知識(shí)問(wèn)答方面已接近人類(lèi) 90% 的水平。 在醫(yī)學(xué)診斷領(lǐng)域,GPT-4 準(zhǔn)確率高達(dá) 90%,遠(yuǎn)超人類(lèi)醫(yī)生的 75%,有力證明了模型強(qiáng)大的學(xué)習(xí)與應(yīng)用能力,且這種提升趨勢(shì)為解決數(shù)學(xué)難題奠定基礎(chǔ)。 他進(jìn)一步指出: 智能發(fā)展層級(jí)遞進(jìn)顯著,GPT-4只有AGI秒級(jí)思考能力,而o1模型已達(dá)AGI分鐘甚至小時(shí)級(jí)別。 依此趨勢(shì),未來(lái)實(shí)現(xiàn)AGI日級(jí)、周級(jí)思考時(shí)長(zhǎng)指日可待,可能明年、后年就能達(dá)到。 屆時(shí),模型將擁有充足時(shí)間和能力深入思考復(fù)雜數(shù)學(xué)問(wèn)題,從而找到解決重大猜想的路徑。 同時(shí)他還強(qiáng)調(diào)了后訓(xùn)練技術(shù)的重要性:后訓(xùn)練技術(shù)是挖掘模型深層潛力的關(guān)鍵。 從GPT-3.5開(kāi)始,模型就可以實(shí)現(xiàn)在后訓(xùn)練過(guò)程中提取智能。到了o1模型時(shí)代,其采用的強(qiáng)化學(xué)習(xí)等創(chuàng)新訓(xùn)練范式,使模型在復(fù)雜任務(wù)(比如編程、數(shù)學(xué))處理上實(shí)現(xiàn)質(zhì)的飛躍。 尤其是在特定數(shù)學(xué)問(wèn)題中,o1能迅速關(guān)聯(lián)看似不相關(guān)的知識(shí)概念,自發(fā)地涌現(xiàn)出一些新的思路,為解決難題提供新線(xiàn)索。 反方:當(dāng)前縮放定律依賴(lài)數(shù)據(jù)、存在幻覺(jué),難以產(chǎn)生新思考模式 湯姆則認(rèn)為,目前LLM的發(fā)展存在3個(gè)明顯制約: 1.LLM受訓(xùn)練數(shù)據(jù)頻率限制嚴(yán)重: 在單詞計(jì)數(shù)和排序任務(wù)中,數(shù)據(jù)頻率影響清晰可見(jiàn)。如統(tǒng)計(jì)單詞數(shù)量時(shí),對(duì)常見(jiàn)長(zhǎng)度列表準(zhǔn)確率高,罕見(jiàn)長(zhǎng)度則大幅下降;排序任務(wù)中,對(duì)常用的字母正序處理良好,逆序則表現(xiàn)不佳。 這表明模型在面對(duì)新證明技術(shù)這類(lèi)低頻任務(wù)時(shí),缺乏創(chuàng)造性突破的根基,難以跳出訓(xùn)練數(shù)據(jù)的固有模式。 而且,根據(jù)各種測(cè)評(píng)數(shù)據(jù),模型能力與數(shù)據(jù)量級(jí)呈對(duì)數(shù)關(guān)系,未來(lái)想要提升模型能力需要新的指數(shù)級(jí)數(shù)據(jù),而目前已有嚴(yán)重?cái)?shù)據(jù)瓶頸,在未來(lái)幾年很難迅速突破。 2.長(zhǎng)推理過(guò)程中的幻覺(jué)問(wèn)題是致命傷: 即使類(lèi)o1模型在多步推理場(chǎng)景下進(jìn)步顯著,但LLM仍易生成錯(cuò)誤信息。隨著數(shù)學(xué)證明篇幅拉長(zhǎng),極低的錯(cuò)誤率也會(huì)因累積效應(yīng)使證明失效。 也就是人們常說(shuō)的“薄弱環(huán)節(jié)會(huì)破壞整個(gè)推理鏈條”,嚴(yán)重阻礙模型解決復(fù)雜數(shù)學(xué)證明的能力。 o1已經(jīng)可以和人類(lèi)專(zhuān)家合作,但想要獨(dú)自解決數(shù)學(xué)問(wèn)題,必須做到超越人類(lèi),目前看起來(lái)比較困難,甚至還無(wú)法達(dá)到以穩(wěn)健的方式使用現(xiàn)有想法。 3.當(dāng)前縮放方法本質(zhì)缺陷難破: 基于語(yǔ)言預(yù)測(cè)的訓(xùn)練模式,使模型在處理數(shù)學(xué)問(wèn)題時(shí)難以直接觸及深度推理和創(chuàng)新思維核心。 比如在數(shù)學(xué)符號(hào)處理和抽象邏輯推導(dǎo)方面,模型的處理方式與專(zhuān)業(yè)數(shù)學(xué)方法相比缺乏專(zhuān)業(yè)推導(dǎo),需要從底層架構(gòu)和訓(xùn)練理念上進(jìn)行徹底變革。 隨后正方還對(duì)反方觀(guān)點(diǎn)進(jìn)行了駁斥。 塞巴斯蒂安表示,當(dāng)前很多人類(lèi)的頂級(jí)成果是依靠組合現(xiàn)有知識(shí)產(chǎn)生的,而模型在這個(gè)方面的能力會(huì)通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步發(fā)展。 而且人類(lèi)在超過(guò)50頁(yè)的證明中也經(jīng)常會(huì)出錯(cuò),未來(lái)可以讓不同的智能體進(jìn)行合作互相指正,可以有效減少這一方面的失誤。 其他專(zhuān)家:需結(jié)合證明驗(yàn)證器、符號(hào)空間探索等方式 Anthropic研究員帕維爾・伊斯梅洛夫也發(fā)表了觀(guān)點(diǎn),他認(rèn)為L(zhǎng)LM在識(shí)別數(shù)據(jù)結(jié)構(gòu)上確有優(yōu)勢(shì),但數(shù)學(xué)領(lǐng)域?qū)I(yè)性強(qiáng),需借助強(qiáng)化學(xué)習(xí)與Lean等證明驗(yàn)證器構(gòu)建有效訓(xùn)練機(jī)制。 鑒于數(shù)學(xué)的獨(dú)特性,探索類(lèi)似AlphaGo式的非LLM智能搜索方法在符號(hào)空間的應(yīng)用,或許能為解決數(shù)學(xué)難題另辟蹊徑,突破語(yǔ)言模型固有局限。 針對(duì)觀(guān)眾的提問(wèn)“飛機(jī)也不是完全模擬鳥(niǎo)類(lèi)的飛行,為什么一定要要求LLM模擬人類(lèi)思維”的問(wèn)題,帕維爾首先表示贊同,AlphaGo帶給人類(lèi)的一個(gè)驚喜正是來(lái)自于它可以用很多人類(lèi)沒(méi)有的方法下棋。 但同時(shí)他也指出: 也許以人類(lèi)的方式做事的唯一理由是,如果我們關(guān)心的是試圖理解證明、并提取一些定義之類(lèi)的東西,那么我們希望它至少是類(lèi)人或人類(lèi)可讀的。但我認(rèn)為如果我們關(guān)心的是證明能力,比如能夠證明事物,那么不一定要以類(lèi)人的方式。 MIT諾伯特·維納數(shù)學(xué)教授安庫(kù)爾・莫伊特拉(Ankur Moitra)也發(fā)表了自己的看法。 他也贊同重大數(shù)學(xué)問(wèn)題的解決絕非簡(jiǎn)單的能力堆疊: 我們關(guān)心數(shù)學(xué)難題,關(guān)心的不只是具體的證明細(xì)節(jié),更希望可以在證明的過(guò)程中產(chǎn)生可以引發(fā)數(shù)學(xué)體系變革的新想法。 他認(rèn)為當(dāng)前LLM 雖在部分任務(wù)取得進(jìn)展,但與解決如黎曼假設(shè)這類(lèi)問(wèn)題所需的深度和創(chuàng)新性仍相距甚遠(yuǎn)。 安庫(kù)爾還提議,未來(lái)模型發(fā)展或許應(yīng)聚焦于知識(shí)在模型中的有效表示、數(shù)學(xué)家與模型間的高效協(xié)作模式等關(guān)鍵層面,探索新的突破方向。 現(xiàn)場(chǎng)還進(jìn)行了一次不記名投票,可以看到正反方的觀(guān)點(diǎn)基本還是持平的~ 感興趣的朋友可以查看完整視頻和論文。 參考鏈接: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。