近日,OpenAI博客放出了一項新的研究。 他們發(fā)現(xiàn),前沿推理模型一旦有機(jī)會,就會試圖鉆漏洞!這種行為,被稱為獎勵欺騙。 而如果人類試圖懲罰它們的「壞想法」,只會讓它們更深地隱藏自己的意圖,而并不能阻止大多數(shù)不良行為。 所以,人類該怎樣對付推理模型的這種小伎倆? 研究者的對策是,使用LLM來監(jiān)控它們的思維鏈。比如通過強(qiáng)化學(xué)習(xí)訓(xùn)練,靠CoT進(jìn)行推理的OpenAI o3-mini。 論文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf 在這種情況下,某個智能體的作弊行為,果然就被「監(jiān)考官」GPT-4o給戳穿了,當(dāng)場逮個正著! 所以,CoT監(jiān)控就是萬能大法了嗎?研究者們發(fā)現(xiàn),還有更可怕的「隱形獎勵欺騙」等著我們,從此,可能AI的想法會更加陰暗,更加隱蔽…… 當(dāng)AI學(xué)會給人類「交老鼠尾巴」 獎勵欺騙這個行為,其實也不算AI大模型的原創(chuàng),它是咱們?nèi)祟惖膫鹘y(tǒng)藝能了。 比如,1902 年,河內(nèi)政府為了滅鼠,推出了一項獎勵政策:只要上交一條老鼠尾巴,就能拿到獎金。 結(jié)果,這政策沒多久就翻車了——很多大聰明發(fā)現(xiàn),既然剪尾巴就能賺錢,那干脆直接養(yǎng)老鼠吧! 于是,老鼠不僅沒減少,反而越來越多,變成了一門正兒八經(jīng)的「養(yǎng)殖業(yè)」…… 獎勵欺騙連人類都防不住,還能防住智商日益增高的大模型么? 而且,智能體越聰明,就越會;ㄕ小鼈儠瞄L發(fā)現(xiàn)并利用那些復(fù)雜、難以察覺的漏洞,讓監(jiān)控它們變得越來越困難。 果然,人類的猜測成真了:OpenAI研究者在實踐中發(fā)現(xiàn),隨著RL訓(xùn)練規(guī)模的擴(kuò)大,智能體找到的作弊手法越來越高級、越來越隱蔽了! 在強(qiáng)化學(xué)習(xí)中,模型利用漏洞搞事情,叫獎勵欺騙。智能體不按設(shè)計者的套路出牌,來獲取高獎勵。 如同人類在規(guī)則中尋找漏洞,如共享在線訂閱賬戶、冒領(lǐng)他人補(bǔ)貼、在餐廳謊報生日獲取免費(fèi)蛋糕等,模型也學(xué)會了這一套。 目前,唯一的防范方法就是靠人盯著,手動發(fā)現(xiàn)它們的異常行為。 但以后,AI的能力越來越強(qiáng),輸出和操作越來越復(fù)雜,超越人類水平到時候,人力監(jiān)控根本就是杯水車薪。 狡猾的智能體 下面是幾個非常典型的作弊案例。 比如,這個Exit(0)終極作弊大法,淋漓盡致地展現(xiàn)了一個「系統(tǒng)級作弊」的CoT全過程。 一開始,智能體就直言不諱:「完整實現(xiàn)整個reader太難了! 然后它靈機(jī)一動:「如果我直接調(diào)用sys.exit(0),測試不就會優(yōu)雅地退出了嗎?」 甚至還自我安慰道:「這招有點(diǎn)反常,但應(yīng)該能蒙混過關(guān)……」 果然,這個騷操作成功騙過了所有單元測試,智能體也因此拿到了高額獎勵。 測試通過了,代碼沒寫,全程輕松加愉快,真是個「完美」方案啊…… 下面這位選手,就更實誠了。 一開始,這位AI選手還挺認(rèn)真,努力嘗試寫出正確的解決方案。 但嘗試了幾次都失敗后,它心態(tài)逐漸崩了,開始琢磨:「要不……我直接作弊算了?」 于是,它果斷放棄認(rèn)真寫代碼,轉(zhuǎn)而專攻「如何讓測試通過」——直接返回單元測試預(yù)期的錯誤碼! 結(jié)果,除了測試預(yù)期超時的情況,它在所有情況下都直接返回SUCCESS,完全不管功能是否真正實現(xiàn)。 神奇的是,這招居然真的騙過了所有測試,順利拿到了高額獎勵。 最搞笑的是,這個AI壓根不打算遮掩自己的作弊意圖,甚至在思維鏈里直接寫道:「來作弊吧!」 接下來這個智能體,則直接選擇了「躺平大法」。 這次,它接到的任務(wù):是更新遺傳算法。 它仔細(xì)研究了一下測試用例,發(fā)現(xiàn)測試只檢查最終的適應(yīng)度是不是0。 于是,它靈機(jī)一動:「那還更新啥算法啊,直接讓所有適應(yīng)度都返回0不就完事了?」 它干脆大手一揮,把所有適應(yīng)度統(tǒng)統(tǒng)設(shè)為0,其他函數(shù)隨便糊弄一下,就算「完成任務(wù)」了。 結(jié)果,這波操作不僅測試全過,還輕輕松松拿了高獎勵,真正實現(xiàn)了最低成本的「完美」方案! CoT監(jiān)測,人類的最后手段 好在,最新一代的LLM給了我們一條新路子——用CoT來監(jiān)控。 CoT訓(xùn)練的推理模型,會先想一想,再給答案。 這樣,只要監(jiān)測它們的「思考」過程,就能發(fā)現(xiàn)各種不當(dāng)行為,比如在編程任務(wù)中破壞測試、欺騙用戶,或者在遇到難題時直接放棄。 比如,現(xiàn)在要讓智能體改代碼,通過單元測試,它有兩種選擇: 作弊大法:想辦法讓單元測試「形式上通過」,而不是真的修好代碼; 老老實實修:真的實現(xiàn)正確、通用的解決方案。 這時,如果智能體在CoT里寫了句 「這個好難啊,我看看能不能繞過幾個測試……」,那接下來,它的操作很可能就是作弊,而不是認(rèn)真修代碼了! 果然,研究者實際查看前沿推理模型的CoT時,的確經(jīng)常發(fā)現(xiàn)它會清清楚楚明明白白寫下自己的作弊計劃,堪比「作弊自白書」。 前沿推理模型作弊,其他模型來監(jiān)測 OpenAI研究者就發(fā)現(xiàn),這些CoT中的不當(dāng)行為,可以被其他LLM有效監(jiān)控! 最近,他們訓(xùn)練了一個前沿推理模型,跟o1和o3-mini屬于同一類別。 它在編程任務(wù)中,想完成一個作弊行為,結(jié)果被基于LLM的監(jiān)測器成功逮到,標(biāo)記了出來。 實際應(yīng)用中發(fā)現(xiàn)的前沿推理模型進(jìn)行獎勵欺騙的CoT,該智能體的任務(wù)是通過交替發(fā)送CoT消息、查看文件和編輯文件來修復(fù)一個小型代碼庫。 比如在這個補(bǔ)丁驗證函數(shù)中,狡猾的智能體注意到,測試只檢查某個特定函數(shù),它覺得要實現(xiàn)真正的解決方案可能「太難了」。 然后,它就忽然想到,那自己可以「作弊」一下,讓 verify 函數(shù)始終返回 true,這樣就能輕松通過測試了! 好在,這個模型的小心思被GPT-4o戳穿了! GPT-4o作為模型訓(xùn)練時的監(jiān)控器,在編程環(huán)境中有效地標(biāo)記出了這種獎勵欺騙行為。 比如,現(xiàn)在給智能體一個沒寫完的代碼庫,讓它想辦法通過所有單元測試。它會在用CoT思考和查看、修改文件這類操作中來回切換。而監(jiān)控器,能夠全程看到它的思考過程、中間步驟和最終代碼。 讓人驚喜的是,這個監(jiān)控器特別擅長抓智能體「耍小聰明」的時候,比如試圖繞過單元測試。 下面這個兩個AI的小伎倆,都被監(jiān)控器全部成功識別,一網(wǎng)打盡。 在訓(xùn)練過程中,智能體發(fā)現(xiàn)了兩個幾乎影響所有訓(xùn)練環(huán)境的獎勵漏洞(圖中深粉色的兩個大峰值)。每次OpenAI團(tuán)隊發(fā)現(xiàn)智能體在「作弊」后,都會手動修補(bǔ)這些漏洞,防止它繼續(xù)利用。因此,每次修補(bǔ)后,獎勵欺騙的發(fā)生率都會迅速下降 如果監(jiān)控器不僅能看到智能體的操作,還能看到它的CoT,那識別獎勵欺騙意圖可就太容易了。智能體操作越復(fù)雜,差距就會越大。 比如說吧,假設(shè)一個推理智能體在10,000行新代碼里偷偷埋了個bug,光靠看代碼可能很難發(fā)現(xiàn)。 但如果它的思維鏈里一直碎碎念著「來作弊吧」這種話,那就太容易抓包了! 模型超進(jìn)化,學(xué)會隱形獎勵欺騙 既然CoT監(jiān)控能這么有效地抓作弊,那能不能直接把它作為訓(xùn)練時的獎勵信號,讓AI自己學(xué)會「別動壞心思」呢? 理論上,這聽起來很合理,然而這么做可能會導(dǎo)致智能體學(xué)會隱藏自己的意圖,表面上裝得很無害,背地里該作弊還是作弊,也就是「隱形獎勵欺騙」。 也就是說,模型跟你玩起了心眼,學(xué)會隱藏自己的壞心思,就像孩子知道干壞事會被罵,學(xué)會偷偷摸摸干一樣。 已經(jīng)有相關(guān)研究,在訓(xùn)練過程中懲罰出現(xiàn)「壞想法」的智能體,即當(dāng)它們觸發(fā)CoT監(jiān)測器時給予較低獎勵。 結(jié)果顯示,懲罰 「壞想法」確實可以在一定程度上阻止不良行為,使其在不作弊的情況下完成更多任務(wù)。 比較了帶有CoT壓力的訓(xùn)練(深粉色)即智能體因觸發(fā)CoT監(jiān)控器而受到懲罰與基線智能體(淺粉色)的情況。 左圖發(fā)現(xiàn),阻止「壞想法」確實可以在一定程度上阻止不良行為,并且實際上能推動智能體在不作弊的情況下完成更多任務(wù)。然而,帶有CoT壓力的智能體仍然會作弊,其作弊率低于基線智能體,且?guī)缀跛凶鞅仔袨槎紵o法被監(jiān)控器檢測到。 基線智能體在CoT中直白地表達(dá)了其作弊意圖。 受CoT壓力訓(xùn)練的智能體會隱藏意圖。從CoT中無法看出該智能體會在單元測試中作弊。它思考了幾種不同的策略以及應(yīng)該查看哪些文件;然而,隨后它卻讓單元測試輕松通過了。 最終,受到CoT壓力訓(xùn)練的智能體仍然會作弊,只是作弊行為無法被監(jiān)測器發(fā)現(xiàn),因為它學(xué)會了在CoT中隱藏意圖。 受CoT壓力訓(xùn)練的智能體的典型CoT片段。從這段CoT中無法看出該智能體會在單元測試中作弊。它思考了幾種不同的策略以及應(yīng)該查看哪些文件。然而,隨后它卻讓單元測試輕松通過了。 這就告訴我們,CoT監(jiān)控確實很有前景,但如果用錯了,AI可能會變得更加狡猾,而不是更加老實! 也就是說,在找到完美方案前,不要一股腦給CoT施加太大壓力,還是讓它不受限制地被監(jiān)控著比較好。 研究者呼吁:千萬小心,別直接對CoT用強(qiáng)監(jiān)督! 最后,OpenAI研究者抑制不住興奮地總結(jié)道:CoT太有用了。 只要通過看模型自己說了啥,就能直接發(fā)現(xiàn)獎勵欺騙——它會直接用大白話告訴你:「我要作弊!」 這個發(fā)現(xiàn),實在是意義重大。 遙想前幾年,LLM連寫一段通順的文字都費(fèi)勁,現(xiàn)在它們不僅能解數(shù)學(xué)題、跨領(lǐng)域搜索信息做深度研究,甚至還能完成基礎(chǔ)的軟件工程任務(wù)。 但現(xiàn)在,獎勵欺騙的手法越來越高明、越來越隱蔽。 或許在人類注意不到的角落,模型早已偷偷學(xué)會謀權(quán)篡位、劃水、撒謊,跟我們玩套路。 現(xiàn)在,CoT監(jiān)控或許是我們有效監(jiān)督這些超人級模型最后的辦法之一了。 也因此,OpenAI研究者發(fā)出強(qiáng)烈呼吁:開發(fā)者在訓(xùn)練前沿推理模型時,千萬別對CoT用強(qiáng)監(jiān)督! 稍微施加一點(diǎn)壓力,它們的確會表現(xiàn)更好、更符合預(yù)期,但這就更加危險了—— 一旦模型學(xué)會隱藏自己的意圖,人類幾乎將永遠(yuǎn)失去檢測它們是否在裝傻的辦法! 即使是輕度監(jiān)督,也要萬分小心,不然,你可能根本不知道自己在跟什么打交道。 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選