久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

首頁 > 原創知識 > 原創知識 > 任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

發布時間:2025-07-20 15:46:06來源: 13566779980

現有Mobile/APP Agent的工作可以適應實時環境,并執行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導代理預測每一步中最佳的單一動作,因此難以應對不斷變化的移動環境。

比如一句指令:“打開飛豬,進入酒店套餐,進入熱門直播,找到飛豬超級VIP,并關注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出,采用多回合、任務導向的學習方式,結合在線學習和軌跡糾錯,也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵(Task-level Reward)的交互式強化學習框架,即Mobile-R1。

為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

結果Mobile-R1順利地完成了這一任務。

軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務獲得初始軌跡,并人工標注這些初始軌跡,得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標注兩部分,最終得到了4,635條高質量的人工標注軌跡,包含24,521個單步數據。

軌跡數據集構造流程

首先,選擇了28個中國移動應用程序,通過人工設計和自動生成相結合的方法創建了多樣化的任務指令,隨后統一經過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令后,成功收集了大量動作執行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執行的動作以及對應的工具調用。

得到軌跡后,針對模型的輸出做了以下三個維度的標注:

  • 邏輯思考:將所有思考修正為“當前狀態+下一步的動作+動作目的”的格式,比如“當前在手機主屏(當前狀態),下一步是點擊淘寶圖標(下一步動作)來進入淘寶(動作目的)”。如果原思考內容錯誤也會人工標注者會按照該格式重寫思考。

  • 清晰動作:清晰動作是單步可執行操作的一句話描述,動作應符合思考的內容并且可推動任務的完成。

  • 準確調用:人工標注者會修正錯誤的操作調用,包括類型錯誤以及參數錯誤。

訓練流程

訓練流程由三個階段構成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。

Stage1:初始格式微調

在第一階段,對模型進行初始格式微調。這一步是通過監督微調(SFT)的方式進行的,使用的是之前人工標注的高質量軌跡數據集。在微調過程中,模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來,還會調整輸出格式以符合預期的結構,包括邏輯思考、清晰動作和準確調用。

Stage2:動作級在線訓練

在第二階段,模型通過群體相對策略優化(GRPO)進行動作級在線訓練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結構化、可解釋的。

  • 動作級獎勵。1)對于基于坐標的動作(如點擊、滑動),如果預測的坐標落在目標GUI元素的真實邊界框內,則獎勵為1,否則為0。2)對于非坐標的動作(如輸入文本),如果預測的動作或參數與真實值完全匹配,則獎勵為1,否則為0。

  • 格式獎勵。格式獎勵促使模型生成符合標簽和結構要求的輸出,確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3:任務級在線訓練

在第三階段,通過多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中,模型需要進行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應格式的遵循,同時評估任務的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務的完成情況。

  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴格的懲罰,以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中,主要評估了模型在自定義benchmark上的性能,并進行了針對模型泛化能力的魯棒性分析,以驗證Mobile-R1的表現。

整體實驗結果,粗體表示最佳結果,下劃線表示次優結果

結果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中,AgentCPM-8B 由于專為中國移動生態系統優化,因此在中文場景中表現優異。更為顯著的是,Mobile-R1在所有基準中表現最佳,任務成功率達到49.40,比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了Mobile-R1的表現,其成功率比只有階段1和階段2訓練的模型高出1.4點,這得益于任務級GRPO的有效應用。

特別值得注意的是,通過階段1和階段2的訓練,Qwen2.5-VL-3B模型的表現超越了其標準版本,并在多項指標上領先于其他基準模型,突顯了動作級和任務級獎勵機制的重要性。

Stage 3訓練的獎勵曲線

此過程中,Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長,表明學習過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進或探政策的改變導致的不穩定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優化和改進。

Mobile-R1在處理未見應用時表現出良好的泛化性,而其他模型在泛化能力上存在挑戰。Mobile-R1的優異表現主要歸功于Stage 3的訓練,這一階段有效增強了模型的魯棒性和適應性。

魯棒性分析結果,粗體表示最佳結果

最后總結,在本文中,Mobile-R1通過在動態環境中整合交互式強化學習與任務級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程,克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明,Mobile-R1在所有指標上都超越了所有基準。此外,團隊計劃全面開源相關資源以促進進一步的研究。

原創知識更多>>

連續打破兩個 “不可能三角”,傳祺率先定義混動下一個時代 李斌:請忘記MPV,蔚來ES9為何敢在BBA腹地“正大光明”? 不靠溢價靠技術,奇瑞風云T9L給出中型混動SUV新答案 比預售價低1萬元,奇瑞風云T9L動力和安全才是賣點 智美大五座再破局!風云T9L上市:12.99萬起重構家用混動SUV標準 新款極氪007與獵裝版007GT正式迎來上市,權益后限時僅19.39萬起步 奇瑞風云T9L正式上市 推出五款車型,置換補貼后售12.59萬起 梁家輝再牽手長安馬自達 一把扇子引爆熱搜:這次真要代言了? 雙紀錄加冕!浩思動力助力吉利i-HEV智擎混動刷新熱效率與油耗巔峰 限時價6.59萬元起!全新榮威i6預售:用料、配置有多頂? 比亞迪正以“銷量翻倍、高端突破、本土化深耕”的三重引擎,向歐洲戰場亮劍 國民好車“內卷”新高度,榮威i6與速騰S“掰手腕” 京東宣布與深藍汽車展開深度合作,雙方將共同推出深藍L06增程版車型 為固態電池“降溫”同時,歐陽明高贊成智駕“跳過”L3,純電驅動將徹底終結“路線之爭” 哈弗猛龍PLUS領銜 本周多款新車開啟預售 99秒換電破局,埃安RT換電版重塑國民家轎補能標準 東風日產NX8上市14.99萬元起,更“理想”的家用SUV? BJ40增程上市一周年:每10分鐘一位車主 定義增程硬派新標準 奇瑞瑞虎7L、第五代瑞虎7、瑞虎5運動版今日正式上市 新款瑞虎7/瑞虎7L正式上市 定位緊湊型SUV,售價6.99萬起 71項配置全系標配,東風日產NX8限時14.99萬元起,增程/純電同價 26款蔚來Firefly螢火蟲11.98萬起售 銷量能超越上一代嗎? 華境S首發,滿血華為,瞄準的是深藍S09 C-GCAP測評全五星認證 沃爾沃全新XC70健康環保不止“說說而已” 新理想L6諜照曝光!配置升級,或基于800V平臺+5C超充電池 海獅05DM-i實車亮相,續航155公里,家用插混SUV新選擇 80款新車扎堆首發、最高直降8萬,第43屆大河國際車展燃爆河南 北京車展季兩個品牌之夜,3個大眾2個奧迪1個捷達都要搞事情 旗艦大六座SUV亮相!哈弗再推新物種,上攻30萬價格帶 出海先立信:長城汽車的品質路徑與中國汽車產業的強國邏輯
久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区
精品国产黄a∨片高清在线| 欧美精品导航| 中文一区一区三区高中清不卡免费| 国产精品777777在线播放| 国产在线欧美| 亚洲第一精品影视| 久久伊人国产| 青青伊人久久| 中文精品在线| 免播放器亚洲| 在线日韩一区| 秋霞影视一区二区三区| 色在线中文字幕| 伊伊综合在线| 中文字幕在线免费观看视频| 欧美成a人国产精品高清乱码在线观看片在线观看久 | 精品视频一区二区三区四区五区| 美国三级日本三级久久99 | 国产区精品区| 美女国产一区二区三区| 麻豆精品视频在线观看视频| 精品视频在线你懂得| 久久69成人| 国产精品久久久久久久久免费高清| 亚洲尤物在线| 日韩在线一区二区| 免费在线观看成人| 国产激情久久| 欧美日韩国产在线一区| 欧美一区在线观看视频| 欧美成a人国产精品高清乱码在线观看片在线观看久| 亚洲精品.com| 日韩av中文字幕一区二区三区| 国产精品男女| 久久蜜桃av| 国产精品一区二区99| 欧美日韩一区二区综合 | 国产欧美激情| 欧美亚洲精品在线| 国产精品九九| 亚洲性图久久| 精品国产乱码久久久久久樱花 | 国产精品久久久久久模特| av亚洲免费| 精品一区二区三区在线观看视频 | 爽好久久久欧美精品| 国产精品第十页| 亚洲最新av| 亚洲福利专区| 精品久久不卡| 欧美综合社区国产| 国产免费成人| 成人羞羞在线观看网站| 国产精品夜夜夜| 一区二区三区国产盗摄| 激情综合激情| 日韩av首页| 免费一二一二在线视频| 精品国产麻豆| 精品一区二区三区中文字幕在线| 国产精品chinese| 欧美高清一区| 免费在线欧美黄色| 日韩动漫一区| 国产视频久久| 欧美日韩激情| 亚洲免费婷婷| 亚洲欧美视频一区二区三区| 国产精品7m凸凹视频分类| 91精品国产乱码久久久久久久| 国产传媒在线| 久久麻豆精品| 欧美日韩亚洲一区在线观看| 日韩精品1区2区3区| 久久亚洲精品伦理| 亚洲欧洲一区二区天堂久久| 日韩精品不卡一区二区| 国产成人在线中文字幕| 91视频精品| 婷婷色综合网| 综合激情一区| 国产精品久久久网站| 日本一区二区高清不卡| 欧美日韩视频网站| 国产精品美女久久久| 日韩精品一区二区三区中文| 麻豆国产精品| 午夜久久影院| 欧美日本一区| 免费看av不卡| 亚洲精品动态| 韩日一区二区三区| 亚洲精品极品| 日本不良网站在线观看| 亚洲涩涩av| 伊人久久视频| 日本欧美大码aⅴ在线播放| 国产一区二区三区四区五区| 亚洲精品99| 精品国产精品久久一区免费式 | 国产精品99精品一区二区三区∴| 亚洲第一区色| 国产精东传媒成人av电影| 欧美a级片一区| 久久这里只有精品一区二区| 久久久久久久久99精品大| 国产精品一在线观看| 亚洲专区在线| 日韩美女一区二区三区在线观看| 少妇精品久久久一区二区| 亚洲1234区| 久久精品一区二区三区中文字幕| 男人的天堂亚洲一区| 日韩av福利| 精品一区二区三区的国产在线观看| 中文亚洲免费| 久久高清免费| 欧美成人a交片免费看| 国产毛片精品| 日韩精品一区二区三区中文在线| 视频在线观看91| 超碰超碰人人人人精品| 卡一精品卡二卡三网站乱码| 中文不卡在线| 乱人伦精品视频在线观看| 激情中国色综合| 国产精品视频一区二区三区| 欧美专区在线| 婷婷久久一区| 99亚洲视频| 老牛影视一区二区三区| 午夜欧美精品| 99视频+国产日韩欧美| 亚洲二区三区不卡| 亚洲一级黄色| 桃色一区二区| 久久一区二区中文字幕| 亚洲精品网址| 美女国产一区| 一区二区日韩免费看| 久久国产精品99国产| 视频一区二区中文字幕| aⅴ色国产欧美| 日韩精品社区| 午夜久久av| 国产一区调教| 九九精品调教| 亚洲乱码久久| 蜜桃免费网站一区二区三区| 日产欧产美韩系列久久99| 91精品国产调教在线观看| 亚洲自拍另类| 蜜桃视频免费观看一区| 国产精品啊v在线| 精品九九久久| 亚洲欧美日韩国产综合精品二区| 国精品一区二区| 日韩欧美三区| 婷婷综合六月| 日本a级不卡| 伊人久久亚洲影院| 日韩av不卡一区二区| 91精品国产调教在线观看| 99成人在线| 国产麻豆一区| 精品久久久久久久| 婷婷亚洲成人| 久久精品国产福利| 亚洲色图综合| 亚洲精品中文字幕乱码| 久久97久久97精品免视看秋霞| 亚洲一区导航| 亚洲二区精品| 夜鲁夜鲁夜鲁视频在线播放| 色综合视频一区二区三区日韩| 国产一区三区在线播放| 999国产精品视频| 欧美激情福利| 鲁大师影院一区二区三区| 色88888久久久久久影院| 日韩高清在线一区| 日韩专区欧美专区| 亚洲精品中文字幕乱码| 国产一二在线播放| 国产精品22p| 亚洲精品黄色| 91久久中文| 精品久久一区| 你懂的亚洲视频| 日本不卡一区二区三区| 日韩中文字幕1| 性欧美长视频| 中文字幕一区二区av| 五月婷婷亚洲| 日韩精品永久网址| 国产成人精品一区二区三区免费| 中文字幕一区二区三区日韩精品 | 久久av日韩| 久久精品五月| 日韩.com|