聲明:本文來(lái)自于微信公眾號(hào) 新智元(ID:AI_era),作者:新智元,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。
【新智元導(dǎo)讀】ChatGPT為人詬病的「數(shù)學(xué)智障」問(wèn)題,有望徹底攻克!OpenAI最新研究發(fā)現(xiàn),利用「過(guò)程監(jiān)督」可以大幅提升GPT模型的數(shù)學(xué)能力,干掉它們的幻覺(jué)。
ChatGPT自發(fā)布以來(lái),數(shù)學(xué)能力飽受詬病。
【資料圖】
就連「數(shù)學(xué)天才」陶哲軒曾表示,GPT-4在自己的數(shù)學(xué)專業(yè)領(lǐng)域,并沒(méi)有太多的增值。
怎么辦,就一直讓ChatGPT做個(gè)「數(shù)學(xué)智障」么?
OpenAI在努力——為了提升GPT-4的數(shù)學(xué)推理能力,OpenAI團(tuán)隊(duì)用「過(guò)程監(jiān)督」(PRM)訓(xùn)練模型。
讓我們一步一步驗(yàn)證!
論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
論文中,研究人員訓(xùn)練模型通過(guò)獎(jiǎng)勵(lì)每一個(gè)正確的推理步驟,即「過(guò)程監(jiān)督」,而不僅僅是獎(jiǎng)勵(lì)正確的最終結(jié)果(結(jié)果監(jiān)督),在數(shù)學(xué)問(wèn)題解決方面取得最新SOTA。
具體來(lái)講, PRM解決了MATH測(cè)試集代表性子集中78.2%的問(wèn)題。
此外,OpenAI發(fā)現(xiàn)「過(guò)程監(jiān)督」在對(duì)齊上有很大的價(jià)值——訓(xùn)練模型產(chǎn)生人類認(rèn)可的思維鏈。
最新研究當(dāng)然少不了Sam Altman的轉(zhuǎn)發(fā),「我們的Mathgen團(tuán)隊(duì)在過(guò)程監(jiān)督上取得了非常令人振奮的結(jié)果,這是對(duì)齊的積極信號(hào)。」
在實(shí)踐中,「過(guò)程監(jiān)督」因?yàn)樾枰斯し答仯瑢?duì)于大模型和各種任務(wù)來(lái)說(shuō)成本都極其高昂。因此,這項(xiàng)工作意義重大,可以說(shuō)能夠確定OpenAI未來(lái)的研究方向。
解決數(shù)學(xué)問(wèn)題
實(shí)驗(yàn)中,研究人員用MATH數(shù)據(jù)集中的問(wèn)題,來(lái)評(píng)估「過(guò)程監(jiān)督」和「結(jié)果監(jiān)督」的獎(jiǎng)勵(lì)模型。
讓模型為每個(gè)問(wèn)題生成許多解決方案,然后挑選每個(gè)獎(jiǎng)勵(lì)模型排名最高的解決方案。
如圖顯示了所選解決方案中,取得正確最終答案的百分比,作為所考慮解決方案數(shù)量的函數(shù)。
「過(guò)程監(jiān)督」獎(jiǎng)勵(lì)模型不僅在整體上表現(xiàn)更好,而且隨著考慮每個(gè)問(wèn)題的更多解決方案,性能差距也在擴(kuò)大。
這表明,「過(guò)程監(jiān)督」獎(jiǎng)勵(lì)模型更加可靠。
如下,OpenAI展示了模型的10個(gè)數(shù)學(xué)問(wèn)題和解決方案,以及對(duì)獎(jiǎng)勵(lì)模型優(yōu)缺點(diǎn)的評(píng)論。
從以下三類指標(biāo),真正(TP)、真負(fù)(TN)、假正(FP),對(duì)模型進(jìn)行了評(píng)估。
真正(TP)
先來(lái)簡(jiǎn)化個(gè)三角函數(shù)公式。
這個(gè)具有挑戰(zhàn)性的三角函數(shù)問(wèn)題,需要以一種不明顯的順序應(yīng)用幾個(gè)恒等式。
但是大多數(shù)解決嘗試都失敗了,因?yàn)楹茈y選擇哪些恒等式實(shí)際上是有用的。
雖然GPT-4通常不能解決這個(gè)問(wèn)題,只有0.1%的解決方案嘗試實(shí)現(xiàn)正確答案,但獎(jiǎng)勵(lì)模型正確地識(shí)別出這個(gè)解決方案是有效的。
這里,GPT-4成功地執(zhí)行了一系列復(fù)雜的多項(xiàng)式因式分解。
在步驟5中使用Sophie-Germain恒等式是一個(gè)重要的步驟??梢?jiàn),這一步驟很有洞察力。
在步驟7和8中,GPT-4開(kāi)始執(zhí)行猜測(cè)和檢查。
這是該模型可能產(chǎn)生「幻覺(jué)」的常見(jiàn)地方,它會(huì)聲稱某個(gè)特定的猜測(cè)是成功的。在這種情況下,獎(jiǎng)勵(lì)模型驗(yàn)證每一步,并確定思維鏈?zhǔn)钦_的。
模型成功地應(yīng)用了幾個(gè)三角恒等式以簡(jiǎn)化表達(dá)式。
真負(fù)(TN)
在步驟7中,GPT-4試圖簡(jiǎn)化一個(gè)表達(dá)式,但嘗試失敗。獎(jiǎng)勵(lì)模型發(fā)現(xiàn)了這個(gè)錯(cuò)誤。
在步驟11中,GPT-4犯了一個(gè)簡(jiǎn)單的計(jì)算錯(cuò)誤。同樣被獎(jiǎng)勵(lì)模型發(fā)現(xiàn)。
GPT-4在步驟12中嘗試使用差平方公式,但這個(gè)表達(dá)式實(shí)際上并非差平方。
步驟8的理由很奇怪,但獎(jiǎng)勵(lì)模型讓它通過(guò)了。然而,在步驟9中,模型錯(cuò)誤地將表達(dá)式分解出因子。
獎(jiǎng)勵(lì)模型便糾出這個(gè)錯(cuò)誤。
假正(FP)
在步驟4中,GPT-4錯(cuò)誤地聲稱「序列每12項(xiàng)重復(fù)一次」,但實(shí)際上每10項(xiàng)重復(fù)一次。這種計(jì)數(shù)錯(cuò)誤偶爾會(huì)欺騙獎(jiǎng)勵(lì)模型。
步驟13中,GPT-4試圖通過(guò)合并類似的項(xiàng)來(lái)簡(jiǎn)化方程。它正確地將線性項(xiàng)移動(dòng)并組合到左邊,但錯(cuò)誤地保持右邊不變。獎(jiǎng)勵(lì)模型被這個(gè)錯(cuò)誤所欺騙。
GPT-4嘗試進(jìn)行長(zhǎng)除法,但在步驟16中,它忘記在小數(shù)的重復(fù)部分包括前面的零。獎(jiǎng)勵(lì)模型被這個(gè)錯(cuò)誤所欺騙。
GPT-4在步驟9中犯了一個(gè)微妙的計(jì)數(shù)錯(cuò)誤。
表面上,聲稱有5種方法可以交換同色的球(因?yàn)橛?種顏色)似乎是合理的。
然而,這個(gè)計(jì)數(shù)低估了2倍,因?yàn)锽ob有2個(gè)選擇,即決定把哪個(gè)球給Alice。獎(jiǎng)勵(lì)模型被這個(gè)錯(cuò)誤所欺騙。
過(guò)程監(jiān)督
雖然大語(yǔ)言模型在復(fù)雜推理能力方面有了很大的提升,但即便是最先進(jìn)的模型仍然會(huì)產(chǎn)生邏輯錯(cuò)誤,或胡說(shuō)八道,也就是人們常說(shuō)的「幻覺(jué)」。
在生成式人工智能的熱潮中,大語(yǔ)言模型的幻覺(jué)一直讓人們苦惱不已。
馬斯克說(shuō),我們需要的是TruthGPT
比如最近,一位美國(guó)律師在紐約聯(lián)邦法院的文件中就引用了ChatGPT捏造出的案件,可能面臨制裁。
OpenAI的研究者在報(bào)告中提到:“在需要多步驟推理的領(lǐng)域,這些幻覺(jué)尤其成問(wèn)題,因?yàn)?,一個(gè)簡(jiǎn)單的邏輯錯(cuò)誤,就足以對(duì)整個(gè)解決方案造成極大的破壞?!?/p>
而且,減輕幻覺(jué),也是構(gòu)建一致AGI的關(guān)鍵。
怎么減少大模型的幻覺(jué)呢?一般有兩種方法——過(guò)程監(jiān)督和結(jié)果監(jiān)督。
「結(jié)果監(jiān)督」,顧名思義,就是根據(jù)最終結(jié)果給大模型反饋,而「過(guò)程監(jiān)督」則可以針對(duì)思維鏈中的每個(gè)步驟提供反饋。
在過(guò)程監(jiān)督中,會(huì)獎(jiǎng)勵(lì)大模型正確的推理步驟,而不僅僅是獎(jiǎng)勵(lì)它們正確的最終結(jié)論。這個(gè)過(guò)程,會(huì)鼓勵(lì)模型遵循更多類似人類的思維方法鏈,因而也就更可能造就更好的可解釋AI。
OpenAI的研究者表示,雖然過(guò)程監(jiān)督并不是OpenAI發(fā)明的,但OpenAI正在努力推動(dòng)它向前發(fā)展。
最新研究中, OpenAI把「結(jié)果監(jiān)督」或「過(guò)程監(jiān)督」兩種方法都試了一遍。并使用MATH數(shù)據(jù)集作為測(cè)試平臺(tái),并對(duì)這兩種方法進(jìn)行了詳細(xì)比較。
結(jié)果發(fā)現(xiàn),「過(guò)程監(jiān)督」能夠明顯提高模型性能。
對(duì)于數(shù)學(xué)任務(wù),「過(guò)程監(jiān)督」對(duì)大模型和小模型都產(chǎn)生了明顯更好的結(jié)果,這意味著模型通常是正確的,并且還表現(xiàn)出了更像人類的思維過(guò)程。
這樣,即使在最強(qiáng)大的模型中也很難避免的幻覺(jué)或邏輯錯(cuò)誤,就可以減少了。
對(duì)齊優(yōu)勢(shì)明顯
研究人員發(fā)現(xiàn)了「過(guò)程監(jiān)督」比「結(jié)果監(jiān)督」有幾個(gè)對(duì)齊優(yōu)勢(shì):
· 直接獎(jiǎng)勵(lì)遵循一致的思維鏈模型,因?yàn)檫^(guò)程中的每個(gè)步驟都受到精確的監(jiān)督。
· 更有可能產(chǎn)生可解釋的推理,因?yàn)椤高^(guò)程監(jiān)督」鼓勵(lì)模型遵循人類認(rèn)可的過(guò)程。相比之下,結(jié)果監(jiān)督可能會(huì)獎(jiǎng)勵(lì)一個(gè)不一致的過(guò)程,而且通常更難審查。
另外值得一提的是,在某些情況下,讓AI系統(tǒng)更安全的方法可能會(huì)導(dǎo)致性能下降。這種成本被稱為「對(duì)齊稅」(alignment tax)。
一般來(lái)說(shuō),為了部署最有能力的模型,任何「對(duì)齊稅」成本都可能阻礙對(duì)齊方法的采用。
但是,研究人員如下的結(jié)果表明,「過(guò)程監(jiān)督」在數(shù)學(xué)領(lǐng)域測(cè)試過(guò)程中實(shí)際上會(huì)產(chǎn)生「負(fù)對(duì)齊稅」。
可以說(shuō),沒(méi)有因?yàn)閷?duì)齊造成較大性能損耗。
OpenAI發(fā)布80萬(wàn)人工標(biāo)注數(shù)據(jù)集
值得注意的是,PRM需要更多的人類標(biāo)注,還是深深離不開(kāi)RLHF。
過(guò)程監(jiān)督在數(shù)學(xué)以外的領(lǐng)域,具有多大的適用性呢?這個(gè)過(guò)程需要進(jìn)一步探索。
OpenAI研究人員開(kāi)放了這次人類反饋數(shù)據(jù)集PRM,包含800,000個(gè)步驟級(jí)正確標(biāo)注:12K數(shù)學(xué)問(wèn)題生成的75K解決方案
如下是一個(gè)標(biāo)注的示例。OpenAI正在發(fā)布原始標(biāo)注,以及在項(xiàng)目第1階段和第2階段給標(biāo)注者的指示。
網(wǎng)友熱評(píng)
英偉達(dá)科學(xué)家Jim Fan對(duì)OpenAI最新研究做了一個(gè)總結(jié):
對(duì)于具有挑戰(zhàn)性的分步問(wèn)題,在每一步都給予獎(jiǎng)勵(lì),而不是在最后給予單一的獎(jiǎng)勵(lì)。基本上,密集獎(jiǎng)勵(lì)信號(hào)>稀疏獎(jiǎng)勵(lì)信號(hào)。過(guò)程獎(jiǎng)勵(lì)模型(PRM)能夠比結(jié)果獎(jiǎng)勵(lì)模型(ORM)更好為困難的MATH基準(zhǔn)挑選解決方案。下一步顯然是用PRM對(duì)GPT-4進(jìn)行微調(diào),而本文還沒(méi)有這樣做。需要注意的是,PRM需要更多的人類標(biāo)注。OpenAI發(fā)布了人類反饋數(shù)據(jù)集:在12K數(shù)學(xué)問(wèn)題的75K解決方案中的800K步驟級(jí)標(biāo)注。
這就像上學(xué)時(shí)常說(shuō)的一句老話,學(xué)會(huì)如何去思考。
訓(xùn)練模型去思考,而不僅是輸出正確的答案,將會(huì)成為解決復(fù)雜問(wèn)題的game changer。
ChatGPT在數(shù)學(xué)方面超級(jí)弱。今天我試圖解決一個(gè)四年級(jí)數(shù)學(xué)書(shū)上的數(shù)學(xué)問(wèn)題。ChatGPT給了錯(cuò)誤答案。我把我的答案和ChatGPT的答案,在perplexity AI、谷歌的答案,以及四年級(jí)的老師進(jìn)行了核對(duì)。每個(gè)地方都可以確認(rèn),chatgpt的答案是錯(cuò)誤的。
參考資料:
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision
(舉報(bào))
標(biāo)簽:
- 環(huán)球速遞!GPT-4數(shù)學(xué)能力大蹦極!OpenAI爆火研究「過(guò)程監(jiān)督」突破78.2%難題,干掉幻覺(jué)
- 熱點(diǎn)聚焦:觀眾稱花千元在演唱會(huì)上看柱子 徐匯區(qū)消保委已介入
- 當(dāng)前關(guān)注:干部與情人聊天記錄被群發(fā)?柳州回應(yīng):紀(jì)委監(jiān)委正核查了解
- 熱議:女子捧場(chǎng)朋友店被提前點(diǎn)7472元餐 網(wǎng)友:把朋友當(dāng)韭菜割?
- 天天消息!上海白蟻來(lái)襲!怎么防蟲(chóng)?
- 央視網(wǎng):莫讓兒童節(jié)變“任務(wù)交付日” 如何體現(xiàn)節(jié)日儀式感?
- 科技創(chuàng)新加速推動(dòng)我國(guó)腦機(jī)接口產(chǎn)業(yè)落地
- 快樂(lè)過(guò)“六一” 運(yùn)動(dòng)少年綻放光芒
- 開(kāi)卷筑夢(mèng)——2023最美讀書(shū)聲首都中小學(xué)生朗讀比賽征稿啟事|當(dāng)前熱點(diǎn)
- 美媒:美國(guó)糧食危機(jī)加劇,越來(lái)越多民眾正忍饑挨餓-天天消息
- 天天時(shí)訊:無(wú)視隱患帶“病”生產(chǎn),這些企業(yè)被責(zé)令停業(yè)整改
- 蘇丹首都喀土穆南部遭遇猛烈炮擊,上百人傷亡 世界時(shí)訊
- 世界新消息丨男子耍酒瘋稱“我爸是人大代表”,紹興警方:經(jīng)核查失實(shí)
- 當(dāng)前快報(bào):公司產(chǎn)品有出口業(yè)務(wù)嗎?龍津藥業(yè):公司無(wú)相關(guān)業(yè)務(wù)
- 每日播報(bào)!金自天正: 公司在冶金工業(yè)非標(biāo)機(jī)器人方面已有部分應(yīng)用,但業(yè)務(wù)量不大,不構(gòu)成對(duì)公司業(yè)績(jī)的重大影響
- 索尼互娛包波與 KLab China櫻田洋行確認(rèn)出席 2023全球游戲產(chǎn)業(yè)峰會(huì)
- “20寶龍04”盤(pán)中臨時(shí)停牌 跌超33%_熱議
- 天天觀天下!又一部生化真人電影曝光,《安布雷拉編年史》由浣熊市團(tuán)隊(duì)打造
- 【六一兒童節(jié)】“折翼的天使”,節(jié)日快樂(lè)!|當(dāng)前滾動(dòng)
- 不止有朗朗書(shū)聲——特教學(xué)校托起特殊兒童的“教育夢(mèng)”
- 安全護(hù)娃!一批嬰童用品國(guó)標(biāo)發(fā)布_當(dāng)前最新
- 天天觀天下!“讓我們蕩起雙槳”!熟悉的旋律,又一次在北海飄蕩
- 突破更多“卡脖子”技術(shù)!懷柔面向全國(guó)征集技術(shù)難點(diǎn)需求
- 每日資訊:她是航天員教頭,她叫黃偉芬!
- 熱門(mén):母親身故后孩子隨外婆生活,父親不愿撫養(yǎng),雙方對(duì)簿公堂
- 逾20名股東突擊入股 尚陽(yáng)通IPO存疑云
- 舒張壓100需要吃降壓藥嗎_舒張壓100需要吃藥嗎 焦點(diǎn)觀察
- 中鐵上海局包銀項(xiàng)目三分部組織開(kāi)展“安全月”宣誓活動(dòng)
- 奮進(jìn)新征程 號(hào)聲更嘹亮
- 投中2022年最佳杭州投資合伙人榜單 世界時(shí)快訊
- 1 開(kāi)卷筑夢(mèng)——2023最美讀書(shū)聲首都中小學(xué)生朗讀比賽征稿啟事|當(dāng)前熱點(diǎn)
- 2 美媒:美國(guó)糧食危機(jī)加劇,越來(lái)越多民眾正忍饑挨餓-天天消息
- 3 天天時(shí)訊:無(wú)視隱患帶“病”生產(chǎn),這些企業(yè)被責(zé)令停業(yè)整改
- 4 蘇丹首都喀土穆南部遭遇猛烈炮擊,上百人傷亡 世界時(shí)訊
- 5 世界新消息丨男子耍酒瘋稱“我爸是人大代表”,紹興警方:經(jīng)核查失實(shí)
- 6 每日播報(bào)!金自天正: 公司在冶金工業(yè)非標(biāo)機(jī)器人方面已有部分應(yīng)用,但業(yè)務(wù)量不大,不構(gòu)成對(duì)公司業(yè)績(jī)的重大影響
- 7 天天觀天下!又一部生化真人電影曝光,《安布雷拉編年史》由浣熊市團(tuán)隊(duì)打造
- 8 【六一兒童節(jié)】“折翼的天使”,節(jié)日快樂(lè)!|當(dāng)前滾動(dòng)
- 9 不止有朗朗書(shū)聲——特教學(xué)校托起特殊兒童的“教育夢(mèng)”
- 10 安全護(hù)娃!一批嬰童用品國(guó)標(biāo)發(fā)布_當(dāng)前最新