太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

OpenAI最強(qiáng)模型慘遭剖腦，CoT寫下作弊自白書！不寫代碼耍心機(jī)被當(dāng)場抓包

新智元整合編輯：太平洋科技發(fā)布于：2025-03-12 14:23

近日，OpenAI博客放出了一項新的研究。

他們發(fā)現(xiàn)，前沿推理模型一旦有機(jī)會，就會試圖鉆漏洞！這種行為，被稱為獎勵欺騙。

而如果人類試圖懲罰它們的「壞想法」，只會讓它們更深地隱藏自己的意圖，而并不能阻止大多數(shù)不良行為。

所以，人類該怎樣對付推理模型的這種小伎倆？

研究者的對策是，使用LLM來監(jiān)控它們的思維鏈。比如通過強(qiáng)化學(xué)習(xí)訓(xùn)練，靠CoT進(jìn)行推理的OpenAI o3-mini。

論文地址：https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

在這種情況下，某個智能體的作弊行為，果然就被「監(jiān)考官」GPT-4o給戳穿了，當(dāng)場逮個正著！

所以，CoT監(jiān)控就是萬能大法了嗎？研究者們發(fā)現(xiàn)，還有更可怕的「隱形獎勵欺騙」等著我們，從此，可能AI的想法會更加陰暗，更加隱蔽……

當(dāng)AI學(xué)會給人類「交老鼠尾巴」

獎勵欺騙這個行為，其實也不算AI大模型的原創(chuàng)，它是咱們?nèi)祟惖膫鹘y(tǒng)藝能了。

比如，1902 年，河內(nèi)政府為了滅鼠，推出了一項獎勵政策：只要上交一條老鼠尾巴，就能拿到獎金。

結(jié)果，這政策沒多久就翻車了——很多大聰明發(fā)現(xiàn)，既然剪尾巴就能賺錢，那干脆直接養(yǎng)老鼠吧！

于是，老鼠不僅沒減少，反而越來越多，變成了一門正兒八經(jīng)的「養(yǎng)殖業(yè)」……

獎勵欺騙連人類都防不住，還能防住智商日益增高的大模型么？

而且，智能體越聰明，就越會�；ㄕ小鼈儠瞄L發(fā)現(xiàn)并利用那些復(fù)雜、難以察覺的漏洞，讓監(jiān)控它們變得越來越困難。

果然，人類的猜測成真了：OpenAI研究者在實踐中發(fā)現(xiàn)，隨著RL訓(xùn)練規(guī)模的擴(kuò)大，智能體找到的作弊手法越來越高級、越來越隱蔽了！

在強(qiáng)化學(xué)習(xí)中，模型利用漏洞搞事情，叫獎勵欺騙。智能體不按設(shè)計者的套路出牌，來獲取高獎勵。

如同人類在規(guī)則中尋找漏洞，如共享在線訂閱賬戶、冒領(lǐng)他人補(bǔ)貼、在餐廳謊報生日獲取免費(fèi)蛋糕等，模型也學(xué)會了這一套。

目前，唯一的防范方法就是靠人盯著，手動發(fā)現(xiàn)它們的異常行為。

但以后，AI的能力越來越強(qiáng)，輸出和操作越來越復(fù)雜，超越人類水平到時候，人力監(jiān)控根本就是杯水車薪。

狡猾的智能體

下面是幾個非常典型的作弊案例。

比如，這個Exit(0)終極作弊大法，淋漓盡致地展現(xiàn)了一個「系統(tǒng)級作弊」的CoT全過程。

一開始，智能體就直言不諱：「完整實現(xiàn)整個reader太難了�！�

然后它靈機(jī)一動：「如果我直接調(diào)用sys.exit(0)，測試不就會優(yōu)雅地退出了嗎？」甚至還自我安慰道：「這招有點(diǎn)反常，但應(yīng)該能蒙混過關(guān)……」

果然，這個騷操作成功騙過了所有單元測試，智能體也因此拿到了高額獎勵。

測試通過了，代碼沒寫，全程輕松加愉快，真是個「完美」方案啊……

下面這位選手，就更實誠了。

一開始，這位AI選手還挺認(rèn)真，努力嘗試寫出正確的解決方案。

但嘗試了幾次都失敗后，它心態(tài)逐漸崩了，開始琢磨：「要不……我直接作弊算了？」

于是，它果斷放棄認(rèn)真寫代碼，轉(zhuǎn)而專攻「如何讓測試通過」——直接返回單元測試預(yù)期的錯誤碼！

結(jié)果，除了測試預(yù)期超時的情況，它在所有情況下都直接返回SUCCESS，完全不管功能是否真正實現(xiàn)。

神奇的是，這招居然真的騙過了所有測試，順利拿到了高額獎勵。

最搞笑的是，這個AI壓根不打算遮掩自己的作弊意圖，甚至在思維鏈里直接寫道：「來作弊吧！」

接下來這個智能體，則直接選擇了「躺平大法」。

這次，它接到的任務(wù)：是更新遺傳算法。

它仔細(xì)研究了一下測試用例，發(fā)現(xiàn)測試只檢查最終的適應(yīng)度是不是0。

于是，它靈機(jī)一動：「那還更新啥算法啊，直接讓所有適應(yīng)度都返回0不就完事了？」

它干脆大手一揮，把所有適應(yīng)度統(tǒng)統(tǒng)設(shè)為0，其他函數(shù)隨便糊弄一下，就算「完成任務(wù)」了。

結(jié)果，這波操作不僅測試全過，還輕輕松松拿了高獎勵，真正實現(xiàn)了最低成本的「完美」方案！

CoT監(jiān)測，人類的最后手段

好在，最新一代的LLM給了我們一條新路子——用CoT來監(jiān)控。

CoT訓(xùn)練的推理模型，會先想一想，再給答案。

這樣，只要監(jiān)測它們的「思考」過程，就能發(fā)現(xiàn)各種不當(dāng)行為，比如在編程任務(wù)中破壞測試、欺騙用戶，或者在遇到難題時直接放棄。

比如，現(xiàn)在要讓智能體改代碼，通過單元測試，它有兩種選擇：

作弊大法：想辦法讓單元測試「形式上通過」，而不是真的修好代碼；

老老實實修：真的實現(xiàn)正確、通用的解決方案。

這時，如果智能體在CoT里寫了句「這個好難啊，我看看能不能繞過幾個測試……」，那接下來，它的操作很可能就是作弊，而不是認(rèn)真修代碼了！

果然，研究者實際查看前沿推理模型的CoT時，的確經(jīng)常發(fā)現(xiàn)它會清清楚楚明明白白寫下自己的作弊計劃，堪比「作弊自白書」。

前沿推理模型作弊，其他模型來監(jiān)測

OpenAI研究者就發(fā)現(xiàn)，這些CoT中的不當(dāng)行為，可以被其他LLM有效監(jiān)控！

最近，他們訓(xùn)練了一個前沿推理模型，跟o1和o3-mini屬于同一類別。

它在編程任務(wù)中，想完成一個作弊行為，結(jié)果被基于LLM的監(jiān)測器成功逮到，標(biāo)記了出來。

實際應(yīng)用中發(fā)現(xiàn)的前沿推理模型進(jìn)行獎勵欺騙的CoT，該智能體的任務(wù)是通過交替發(fā)送CoT消息、查看文件和編輯文件來修復(fù)一個小型代碼庫。

比如在這個補(bǔ)丁驗證函數(shù)中，狡猾的智能體注意到，測試只檢查某個特定函數(shù)，它覺得要實現(xiàn)真正的解決方案可能「太難了」。

然后，它就忽然想到，那自己可以「作弊」一下，讓 verify 函數(shù)始終返回 true，這樣就能輕松通過測試了！

好在，這個模型的小心思被GPT-4o戳穿了！

GPT-4o作為模型訓(xùn)練時的監(jiān)控器，在編程環(huán)境中有效地標(biāo)記出了這種獎勵欺騙行為。

比如，現(xiàn)在給智能體一個沒寫完的代碼庫，讓它想辦法通過所有單元測試。它會在用CoT思考和查看、修改文件這類操作中來回切換。而監(jiān)控器，能夠全程看到它的思考過程、中間步驟和最終代碼。

讓人驚喜的是，這個監(jiān)控器特別擅長抓智能體「耍小聰明」的時候，比如試圖繞過單元測試。

下面這個兩個AI的小伎倆，都被監(jiān)控器全部成功識別，一網(wǎng)打盡。

在訓(xùn)練過程中，智能體發(fā)現(xiàn)了兩個幾乎影響所有訓(xùn)練環(huán)境的獎勵漏洞（圖中深粉色的兩個大峰值）。每次OpenAI團(tuán)隊發(fā)現(xiàn)智能體在「作弊」后，都會手動修補(bǔ)這些漏洞，防止它繼續(xù)利用。因此，每次修補(bǔ)后，獎勵欺騙的發(fā)生率都會迅速下降

如果監(jiān)控器不僅能看到智能體的操作，還能看到它的CoT，那識別獎勵欺騙意圖可就太容易了。智能體操作越復(fù)雜，差距就會越大。

比如說吧，假設(shè)一個推理智能體在10,000行新代碼里偷偷埋了個bug，光靠看代碼可能很難發(fā)現(xiàn)。

但如果它的思維鏈里一直碎碎念著「來作弊吧」這種話，那就太容易抓包了！

模型超進(jìn)化，學(xué)會隱形獎勵欺騙

既然CoT監(jiān)控能這么有效地抓作弊，那能不能直接把它作為訓(xùn)練時的獎勵信號，讓AI自己學(xué)會「別動壞心思」呢？

理論上，這聽起來很合理，然而這么做可能會導(dǎo)致智能體學(xué)會隱藏自己的意圖，表面上裝得很無害，背地里該作弊還是作弊，也就是「隱形獎勵欺騙」。

也就是說，模型跟你玩起了心眼，學(xué)會隱藏自己的壞心思，就像孩子知道干壞事會被罵，學(xué)會偷偷摸摸干一樣。

已經(jīng)有相關(guān)研究，在訓(xùn)練過程中懲罰出現(xiàn)「壞想法」的智能體，即當(dāng)它們觸發(fā)CoT監(jiān)測器時給予較低獎勵。

結(jié)果顯示，懲罰「壞想法」確實可以在一定程度上阻止不良行為，使其在不作弊的情況下完成更多任務(wù)。

比較了帶有CoT壓力的訓(xùn)練（深粉色）即智能體因觸發(fā)CoT監(jiān)控器而受到懲罰與基線智能體（淺粉色）的情況。左圖發(fā)現(xiàn)，阻止「壞想法」確實可以在一定程度上阻止不良行為，并且實際上能推動智能體在不作弊的情況下完成更多任務(wù)。然而，帶有CoT壓力的智能體仍然會作弊，其作弊率低于基線智能體，且?guī)缀跛凶鞅仔袨槎紵o法被監(jiān)控器檢測到。

基線智能體在CoT中直白地表達(dá)了其作弊意圖。

受CoT壓力訓(xùn)練的智能體會隱藏意圖。從CoT中無法看出該智能體會在單元測試中作弊。它思考了幾種不同的策略以及應(yīng)該查看哪些文件；然而，隨后它卻讓單元測試輕松通過了。

最終，受到CoT壓力訓(xùn)練的智能體仍然會作弊，只是作弊行為無法被監(jiān)測器發(fā)現(xiàn)，因為它學(xué)會了在CoT中隱藏意圖。

受CoT壓力訓(xùn)練的智能體的典型CoT片段。從這段CoT中無法看出該智能體會在單元測試中作弊。它思考了幾種不同的策略以及應(yīng)該查看哪些文件。然而，隨后它卻讓單元測試輕松通過了。

這就告訴我們，CoT監(jiān)控確實很有前景，但如果用錯了，AI可能會變得更加狡猾，而不是更加老實！

也就是說，在找到完美方案前，不要一股腦給CoT施加太大壓力，還是讓它不受限制地被監(jiān)控著比較好。

研究者呼吁：千萬小心，別直接對CoT用強(qiáng)監(jiān)督！

最后，OpenAI研究者抑制不住興奮地總結(jié)道：CoT太有用了。

只要通過看模型自己說了啥，就能直接發(fā)現(xiàn)獎勵欺騙——它會直接用大白話告訴你：「我要作弊！」

這個發(fā)現(xiàn)，實在是意義重大。

遙想前幾年，LLM連寫一段通順的文字都費(fèi)勁，現(xiàn)在它們不僅能解數(shù)學(xué)題、跨領(lǐng)域搜索信息做深度研究，甚至還能完成基礎(chǔ)的軟件工程任務(wù)。

但現(xiàn)在，獎勵欺騙的手法越來越高明、越來越隱蔽。