久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

首頁 > 汽車報道 > 汽車報道 > 4B小模型數(shù)學推理首超Claude 4,700步RL訓練逼近235B性能

4B小模型數(shù)學推理首超Claude 4,700步RL訓練逼近235B性能

發(fā)布時間:2025-07-09 23:05:56來源: 13566779980

4B模型的數(shù)學推理能力和頂尖商業(yè)大模型差在哪里?

香港大學NLP團隊聯(lián)合字節(jié)跳動Seed、復旦大學發(fā)布名為Polaris的強化學習訓練配方:

通過Scaling RL,Polaris讓4B模型的數(shù)學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業(yè)大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且,Polaris-4B的輕量化允許在消費級顯卡上部署。

詳細的blog、訓練數(shù)據(jù)、模型和代碼都已全部開源,鏈接可見文末。

圍繞待訓練模型進行參數(shù)配置

之前的RL訓練配方,如DeepScaleR,已經(jīng)展示了Scaling RL在較弱基模型上強大的效果。

但對于目前最前沿的開源模型(如Qwen3),Scaling RL是否也能復現(xiàn)如此顯著的提升呢?

Polaris的研究團隊給出了明確回答:可以!

具體來說,Polaris通過僅僅700步的RL訓練,成功地讓Qwen3-4B在數(shù)學推理任務上接近了其235B版本的表現(xiàn)

只要方法得當,RL還存在著巨大的開發(fā)潛力。

Polaris的成功的秘籍就是:訓練數(shù)據(jù)及超參數(shù)設置都要圍繞待訓練的模型來進行設置

訓練數(shù)據(jù)構造

Polaris團隊發(fā)現(xiàn),對于同一份數(shù)據(jù),不同能力的基模型展現(xiàn)出的難度分布呈現(xiàn)出鏡像化的特征。、

對于DeepScaleR-40K訓練集中的每個樣本,研究人員使用R1-Distill-Qwen-1.5B/7B兩個模型回答分別推理了8次,再統(tǒng)計其中正確次數(shù),以此衡量每個樣本的難度水平。

實驗結果顯示,大多數(shù)樣本位于兩端(8/8正確解答或0/8正確解答),意味著該數(shù)據(jù)集雖然對1.5B模型具有挑戰(zhàn)性,卻不足以有效訓練7B模型。

Polaris提出,構建輕微偏向難題的數(shù)據(jù)分布,形狀就像鏡像J,過度偏向簡單題或難題的分布都會使得無法產(chǎn)生優(yōu)勢的樣本在每個batch中占有過大的比例。

Polaris對開源數(shù)據(jù)DeepScale-40K和AReaL-boba-106k進行了篩選,剔除所有8/8正確的樣本,最終形成了53K的初始化數(shù)據(jù)集。

盡管已經(jīng)得到了一個好的初始化數(shù)據(jù),但它并不是訓練數(shù)據(jù)的“最終版本”。

在強化學習訓練過程中,隨著模型對訓練樣本的“掌握率”提高,難題也會變成簡單題。

為此,研究團隊在訓練中引入了數(shù)據(jù)動態(tài)更新策略。訓練過程中,每個樣本的通過率會隨著reward計算而實時更新。在每個訓練階段結束時,準確率過高的樣本將被刪除。

以多樣性為核心的采樣控制

在RL訓練中,多樣性被視為提升模型表現(xiàn)的重要因素。好的多樣性使模型能探索更廣泛的推理路徑,避免在訓練早期陷入過于確定的策略中。

Rollout階段的多樣性主要通過topp、topk與溫度t來調控。當前大多數(shù)工作都采用topp=1.0和topk=-1,這已經(jīng)達到了最大的多樣性,但采樣溫度t還沒有統(tǒng)一的設置。

目前主流的t的設置方法有兩種:1、采用建議的解碼溫度,如Qwen3 demo中設置的0.6;2、直接設置為一個整數(shù)1.0。

但這兩種做法在Polaris的實驗中都不是最優(yōu)解。

溫度、性能與多樣性的平衡之道

Polaris團隊通過一系列試驗,分析了采樣溫度與模型準確率及路徑多樣性之間的關系。

為了量化采樣軌跡的多樣性,他們采用Distinct N-gram指標(n=4)用于衡量生成文本中獨特連續(xù)詞組的比例:分數(shù)越接近1.0,說明生成內容越多樣;反之則重復率較高。

結果顯示,較高的溫度能顯著提升多樣性,但不同模型在相同溫度下的表現(xiàn)也存在較大差異。從上圖來看,對于這兩個模型來說,以0.6作為采樣溫度明顯多樣性是不足的。

但也并非是把溫度設的越大就越好,也需要考慮性能的變化

Polaris團隊發(fā)現(xiàn)模型性能隨溫度升高呈現(xiàn)“低-高-低”的趨勢。例如,把采樣溫度設置成1.0,對于Deepseek-R1-distill系列模型過高了,而對于Qwen3系列來說又有點低。

說明理想溫度的設計需要針對待模型進行精細校準,沒有一個超參數(shù)是適配所有模型的

溫度區(qū)間的定義

Polaris團隊基于實驗趨勢歸納出模型采樣溫度的三個區(qū)域:

1.魯棒生成區(qū)(Robust Generation Zone)

在該區(qū)域內,性能波動較小。測試階段解碼溫度通常就選自魯棒生成區(qū)。

2.控制探索區(qū)(Controlled Exploration Zone)

此區(qū)域的溫度雖然會導致模型性能較魯棒生成區(qū)略有下降,但降幅在可接受范圍內,同時能顯著提升多樣性,適合作為訓練溫度使用。

3.性能崩塌區(qū)(Performance Collapse Zone)

當采樣溫度超出一定范圍時,性能急劇下降。

根據(jù)上圖規(guī)律,Polaris團隊提出以控制探索區(qū)的溫度作為初始化溫度。

實驗顯示,常用的t=0.6或t=1.0的設置溫度過低,限制了模型的探索空間,導致難以挖掘RL潛力。

因此,Polaris把Qwen3-4B的初始訓練溫度設置為1.4。

動態(tài)溫度調整

在性能增長的同時,多樣性同樣也會發(fā)生偏移。隨著訓練收斂,各路徑間共享的N-gram比例增加,探索空間也隨之縮小。

在整個訓練過程中始終使用最開始的溫度,會導致訓練后期多樣性不足

因此,Polaris團隊提出在RL訓練過程中動態(tài)更新采樣溫度的策略:在每個階段開始前都進行和溫度初始化時類似的搜索方法,使得后續(xù)階段起始的多樣性分數(shù)和第一階段的相似。

舉個例子,假如第一階段開始的多樣性分數(shù)是60,那此后的每個階段,Polaris團隊都會選擇一個能把多樣性分數(shù)拉到60的溫度來進行訓練。

對比實驗的結果顯示,采用同一溫度訓練到結束,其效果不及多階段溫度調整。

多階段溫度調整不僅帶來了更優(yōu)的RL訓練效果,還使得回答長度的提升更加穩(wěn)定。

思維鏈長度外推

在訓練Qwen3-4B的過程中,一個顯著難題在于長上下文訓練,因為模型本身的回答長度就已經(jīng)非常長了,要繼續(xù)訓練的更長需要更高昂的計算代價。

Qwen3-4B的模型預訓練上下文長度僅有32K,而RL階段Polaris將最大訓練長設定為52K。但實際達到最大序列長度的訓練樣本比例不足10%,意味著真正使用長文本進行訓練的樣本非常有限。

為評估Polaris-4B-Preview的長文生成能力,Polaris究團隊選取了AIME2024/25中的60題,每題進行32次推理,總計1920個樣本,并按照回答長度將其分為三組:

短文本組:回答長度小于16K;

中等文本組:回答長度介于16K到32K;

長文本組:回答長度超過預訓練長度32K。

統(tǒng)計結果表明,長文本組的準確率僅為26%,證明模型在生成超過預訓練長度的長CoT時,性能明顯受限。

既然RL在長上下文長度的時候具備劣勢,那么長CoT性能不佳可能是由于長文本訓練不充分導致。

針對長文本訓練樣本不足的問題,團隊引入了長度外推技術。通過位置編碼RoPE的調整,模型能夠在推理時處理超出訓練時所見的更長序列,進而補償長文本訓練中的不足。

具體實現(xiàn)上,研究團隊采用了YaRN作為外推方法,并設置擴展因子為1.5,如下配置所示:

實驗結果顯示,通過應用該策略,超過32K長度回答的準確率由26%提升至超過50%

多階段訓練

Polaris采用多階段的訓練方式,在早期階段,模型使用較短的上下文窗口;待模型表現(xiàn)收斂后,再逐漸增加上下文窗口的長度以拓寬模型的推理能力。

盡管這一策略在某些模型下有效,但在多階段訓練中,初始階段選擇合適的最大長度至關重要,不同基礎模型token利用效率存在差異。

實驗發(fā)現(xiàn),對于DeepSeek-R1-Distill-Qwen-1.5B/7B,采用較短的響應長度訓練效果都較好;但對Qwen3-4B來說,即使響應長度只有24K且響應截斷比例低于15%,其性能也會急劇下降,這種下降即使在后期階段也難以恢復。

通常來說,從一開始就讓模型“思考更長”會更安全:對于Qwen3-4B,實驗觀察到從零開始使用40K響應長度時性能穩(wěn)步提升,這與從一開始就采用24K和24K→40K的方案形成了鮮明對比。

要點:當計算資源允許時,直接從官方倉庫建議的最大解碼長度開始

評估結果

Polaris模型需要使用比Qwen3更高的采樣溫度和更長的響應長度;所有其他設置保持相同。

對于AIME24和AIME25,上表報告了32次運行的平均性能。

可以看到,Polaris讓4B模型的數(shù)學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業(yè)大模型,在大多數(shù)評測中表現(xiàn)最佳。

汽車報道更多>>

實測驗證長效保冷實力,智界V9恒冷智能大冰箱定義車載冰箱全新標桿 豐田Yaris Cross改款,前臉變樣、全系混動,歐洲要賣20萬 北京車展倒計時!這份上汽大眾打卡攻略請收好 從星源動力到星靈架構,廣汽五大核心技術齊發(fā) 歸元S平臺正式發(fā)布 魏牌V9X預售37.18萬元起 既然體驗都一樣,我為什么要買奧迪電動車? 試駕鄭州日產(chǎn)Frontier Pro雙車:L2智駕加持 插混皮卡解鎖全場景實用新體驗 當汽車遇見山河:問界M9三款新色斬獲文旅認證 比亞迪海獅05EV:充電快了,動力強了,續(xù)航長了 魏牌V9X預售:歸元S平臺首款旗艦,預售37.18萬起 2026年一季度汽車出口暴增56.7%:為何國內價格戰(zhàn)還在升級內卷! 太接地氣!廣汽科技日,完美戳中普通用戶的“心坎點”! 專訪李斌、秦力洪:蔚來憑什么敢說“請忘記MPV”? 試駕就送真金!長安馬自達EZ-60這波春日福利,殺瘋了! 合資2.0首款力作落地,上汽大眾ID. ERA 9X有底氣細分市場前三 48.41%熱效率全球第一,吉利i-HEV智擎混動到底憑什么 拒絕做“平替”!蔚來ES9期待一場光明正大的勝利 換塊電池比車還貴,新能源車主的“斬殺線”到了 小型SUV銷量榜 僅兩款銷量過萬 零跑A10第四 城配老司機看過來,6.98萬買一臺會算賬的輕客?2026款五菱揚光上市! 對話元戎啟行CEO周光:Robotaxi模型運營能力缺一不可,L4或加速到來 小鵬MONA L03要來了!外形爭議挺大,定位15萬級又能大賣? 2026年3月純電動新車5款,插混有2款,增程式4款新品,燃油車新品缺損,這是行業(yè)發(fā)展巨大的隱憂 納智捷、眾泰曾是“優(yōu)等生”?J.D. Power榜單排位之謎 寶馬公布北京車展強大陣容,全新7系、新世代iX3/i3長軸版等16款車型首次登場! 領克10+&10:當運動不止于燃油,純電也能“攻山屠榜” 拒絕充電焦慮!樂道L90 900V快充+換電,硬鋼400V架構的Model Y L 37分鐘大定過萬!小鵬銷量神車改款11.98萬起,第二代VLA也加上了 領克品牌官方發(fā)布全新中型旅行轎車領克07GT的路試諜照,計劃2026年內正式發(fā)布上市 比亞迪2026款海豹06GT/DM-i旅行版雙車齊發(fā),售價11.19萬-16.99萬元
久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区
国产欧美日韩一级| 亚洲精品一二三**| 欧美在线观看视频一区| 麻豆精品蜜桃视频网站| 国产精品多人| 久久中文欧美| 特黄毛片在线观看| 伊人影院久久| 热久久久久久久| 国产一卡不卡| 国产精品欧美日韩一区| 国产精品亚洲综合在线观看| 69堂免费精品视频在线播放| 亚洲五月综合| 国产激情一区| 99精品一区| 婷婷成人av| 精品国产午夜肉伦伦影院 | 精品亚洲a∨| 欧美国产极品| 精品深夜福利视频| 久久精品成人| 亚洲精品伊人| 超碰99在线| 亚洲精品大全| 欧美综合精品| 亚洲黄色中文字幕| 亚洲欧洲av| 婷婷亚洲五月色综合| 亚洲91网站| 成人日韩av| 天堂va蜜桃一区二区三区| 青青草国产成人99久久| 久久不见久久见国语| 米奇777超碰欧美日韩亚洲| 午夜国产精品视频免费体验区| 日韩精品亚洲一区二区三区免费| 日本一区二区三区视频在线看| 久久精品国产999大香线蕉 | 久久中文精品| av资源新版天堂在线| 亚洲精品免费观看| 亚洲手机在线| 日韩国产一区| 91一区二区三区四区| 欧美精品中文字幕亚洲专区| 香蕉久久夜色精品国产| 最新中文字幕在线播放| 日本少妇一区二区| 久久亚洲国产精品一区二区| 久久国产成人午夜av影院宅| 丁香婷婷久久| 欧美国产另类| 国产精品一区高清| 欧美~级网站不卡| 日韩欧美精品一区| а√在线中文在线新版| 国产精品一区二区三区www| 亚洲欧美久久精品| 国产精品1luya在线播放| 黑人精品一区| 成人精品国产亚洲| 国产中文在线播放| 国产高清视频一区二区| 日韩欧美中文字幕一区二区三区 | 国产亚洲高清在线观看| 首页亚洲欧美制服丝腿| 黄色亚洲免费| 男女男精品网站| 免费在线看一区| 青青国产91久久久久久| 国产欧美三级| 欧美激情日韩| 久久国产日韩| 最新日韩av| 亚洲一级大片| 国产伦理一区| 中文在线а√在线8| 国精品一区二区三区| 亚洲一区欧美二区| 日本vs亚洲vs韩国一区三区二区| 免费视频一区二区三区在线观看| 国产一区国产二区国产三区| 欧美成a人国产精品高清乱码在线观看片在线观看久 | 福利一区视频| 成人在线丰满少妇av| 一区二区三区四区在线看| 最新国产拍偷乱拍精品| 欧美日韩1区2区3区| 国产精品久久观看| 综合精品一区| 亚洲a在线视频| 亚洲精品人人| 久久精品一区二区不卡| 99xxxx成人网| 97在线精品| 亚洲精品观看| 黄色免费成人| 麻豆中文一区二区| 五月精品视频| 国产一区二区三区国产精品| 伊人久久亚洲热| 精品99久久| 欧美在线精品一区| 午夜在线视频观看日韩17c| 美女视频黄免费的久久| 日韩1区2区3区| 伊人久久成人| 亚洲午夜av| 免费日韩一区二区三区| 日本不卡高清视频| 色偷偷偷在线视频播放| 国产剧情在线观看一区| 亚洲免费影院| 日韩欧美三级| 91欧美极品| 亚洲制服一区| 日韩黄色在线观看| 国产精品毛片在线| 蜜桃av.网站在线观看| 欧美另类中文字幕| 亚洲精一区二区三区| 最新亚洲国产| 日本一区二区三区中文字幕| 日韩影院精彩在线| 黄色成人精品网站| 国产传媒在线观看| 色爱综合网欧美| 精品国产成人| 99久久精品国产亚洲精品| 日韩精品免费一区二区在线观看| 欧美激情视频一区二区三区在线播放| 97久久亚洲| 久久国产精品免费精品3p| 日韩va亚洲va欧美va久久| 日韩一区二区三区免费视频| 亚洲一区二区毛片| 青青草91久久久久久久久| 美腿丝袜亚洲一区| 欧美激情另类| 99精品视频在线| 群体交乱之放荡娇妻一区二区| 色婷婷久久久| 欧美日韩精品一本二本三本| 日韩有吗在线观看| 国产精品巨作av| 岛国精品一区| 亚洲神马久久| 日韩精品欧美大片| 国产成人免费精品| 久久精品官网| 免费不卡在线观看| 欧美久久香蕉| 亚洲精品成人图区| 久久精品在线| 日韩精品一区二区三区av| 日韩极品在线观看| 不卡福利视频| 亚洲精品影院在线观看| 久久精品亚洲| 亚洲一区二区三区四区电影| 日韩av一区二区在线影视| 国产一区二区三区四区五区| 理论片午夜视频在线观看| 亚洲综合三区| 欧美国产偷国产精品三区| 久久亚洲二区| 国内精品伊人| 亚洲欧美日韩国产综合精品二区| 久久一区国产| 亚洲久草在线| 国产一区不卡| 亚洲一区二区免费在线观看| 精品国产乱码久久久| 亚洲精品观看| 欧美国产91| 精品三区视频| 日韩不卡手机在线v区| 欧美精品九九| 播放一区二区| 麻豆国产91在线播放| 亚洲人成精品久久久| jiujiure精品视频播放| 另类欧美日韩国产在线| 国产亚洲一级| 国产66精品| 国产色99精品9i| 美女网站一区| 在线观看免费一区二区| 欧美综合另类| 91欧美国产| 九九九精品视频| 国产一区丝袜| 美女久久久久久| 国产精品调教视频| 国产精品色婷婷在线观看| 欧美午夜三级| 日本不卡在线视频| 91嫩草精品| 欧美激情99|