久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

首頁(yè) > 原創(chuàng)知識(shí) > 原創(chuàng)知識(shí) > AI版三個(gè)臭皮匠!ChatGPT/Gemini/DeepSeek合體拿下AGI測(cè)試最高分

AI版三個(gè)臭皮匠!ChatGPT/Gemini/DeepSeek合體拿下AGI測(cè)試最高分

發(fā)布時(shí)間:2025-07-09 10:57:34來(lái)源: 13566779980

ChatGPT的對(duì)話流暢性、Gemini的多模態(tài)能力、DeepSeek的長(zhǎng)上下文分析……

能不能讓它們強(qiáng)強(qiáng)聯(lián)合,共同解決問(wèn)題呢?

那個(gè)由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI,提出了新方法AB-MCTS,核心思想是:

最偉大的成就往往源于不同思想的協(xié)作,我們相信這一原則同樣適用于人工智能。

AB-MCTS,全稱為自適應(yīng)分支蒙特卡洛樹(shù)搜索(Adaptive Branching Monte Carlo Tree Search),是一種使多個(gè)人工智能模型同時(shí)處理問(wèn)題的算法。模型之間交換并完善建議,協(xié)同工作,就像人類團(tuán)隊(duì)一樣。

在具有挑戰(zhàn)性的ARC-AGI-2基準(zhǔn)測(cè)試中,多LLM AB-MCTS解決的問(wèn)題比單獨(dú)工作的任何單個(gè)模型(Single-LLM AB-MCTS)都多。

有幾種情況下,只有不同模型的組合才能得出正確答案。

Sakana AI已將該算法以TreeQuest的名稱開(kāi)源,鏈接可見(jiàn)文末。

兩種搜索策略

AB-MCTS結(jié)合了兩種不同的搜索策略:它可以完善現(xiàn)有解決方案(深度搜索),也可以嘗試全新的方法(廣度搜索)。

主要的技術(shù)挑戰(zhàn)是將無(wú)界分支引入MCTS

標(biāo)準(zhǔn)MCTS僅選擇并擴(kuò)展葉節(jié)點(diǎn)(即每個(gè)節(jié)點(diǎn)最多被擴(kuò)展一次),且擴(kuò)展會(huì)添加固定數(shù)量的子節(jié)點(diǎn)。然而,由于在非零溫度下對(duì)LLM的每個(gè)查詢都可能從相同提示中產(chǎn)生不同的輸出,分支因子理論上無(wú)限。

為了充分利用MCTS的無(wú)界分支的潛在性能提升,AB-MCTS允許那些已經(jīng)擴(kuò)展過(guò)一次的節(jié)點(diǎn)再次被擴(kuò)展并進(jìn)一步分支,并引入GEN節(jié)點(diǎn)來(lái)明確表示生成新子節(jié)點(diǎn)的動(dòng)作。

在AB-MCTS的搜索樹(shù)中,每個(gè)節(jié)點(diǎn)N均附帶一個(gè)GEN子節(jié)點(diǎn)。選中帶有GEN節(jié)點(diǎn)的父節(jié)點(diǎn)時(shí),會(huì)從N生成一個(gè)新子節(jié)點(diǎn)。

與傳統(tǒng)的MCTS不同,AB-MCTS不會(huì)將寬度作為靜態(tài)超參數(shù)固定。

相反,在搜索樹(shù)的每個(gè)節(jié)點(diǎn)上,AB-MCTS會(huì)自適應(yīng)地決定是探索(“變寬”)通過(guò)生成新的候選響應(yīng),還是利用(“變深”)通過(guò)改進(jìn)現(xiàn)有的響應(yīng),利用外部反饋信號(hào)。

在底層,AB-MCTS通過(guò)貝葉斯后驗(yàn)預(yù)測(cè)分布估計(jì)節(jié)點(diǎn)潛力,并用Thompson采樣選擇動(dòng)作,以確保每次擴(kuò)展都以原則性的方式平衡探索和利用。

這種設(shè)計(jì)自然地?cái)U(kuò)展了多次采樣,使AB-MCTS能夠在必要時(shí)利用LLMs多樣化且龐大的輸出空間。

在以上基礎(chǔ)上,Sakana AI還提出了兩個(gè)變體:AB-MCTS-M和AB-MCTS-A。

簡(jiǎn)單地說(shuō):

AB-MCTS-M:更分層。使用混合效應(yīng)模型共享子樹(shù)間的統(tǒng)計(jì)信息,通過(guò)分層貝葉斯推斷平衡全局與局部探索。

AB-MCTS-A:更輕量。通過(guò)CONT節(jié)點(diǎn)顯式分離“生成”與“優(yōu)化”動(dòng)作,并基于共軛先驗(yàn)實(shí)現(xiàn)高效后驗(yàn)更新,簡(jiǎn)化計(jì)算。

其利斷金

對(duì)AB-MCTS進(jìn)行基準(zhǔn)測(cè)試,結(jié)果顯示,AB-MCTS在各種基準(zhǔn)測(cè)試和LLMs中始終表現(xiàn)出色,獲得的平均排名最高并優(yōu)于既定基線。

這種持續(xù)的成功源于AB-MCTS獨(dú)特的動(dòng)態(tài)調(diào)整搜索策略的能力,它通過(guò)精確平衡探索和利用來(lái)適應(yīng)每個(gè)問(wèn)題的不同需求,而基線方法中幾乎缺乏這種適應(yīng)性。

LiveCodeBench和CodeContest

上圖左側(cè)和中部報(bào)告了GPT-4o在LiveCodeBench和CodeContest上的成功率與生成預(yù)算的關(guān)系,可以看到,所有方法在計(jì)算預(yù)算增加時(shí)都表現(xiàn)出性能提升。在這兩個(gè)基準(zhǔn)測(cè)試中,AB-MCTS算法通常優(yōu)于基線方法。

在LiveCodeBench,即使預(yù)算很小,AB-MCTS也開(kāi)始超越基線方法;在CodeContest,預(yù)算為32及以上時(shí),AB-MCTS表現(xiàn)出優(yōu)于基線的性能。

ARC-AGI

上圖右側(cè)展示了GPT-4o在ARC-AGI這一特別具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上的性能表現(xiàn)。可以看到,重復(fù)采樣在該設(shè)置中證明是一種強(qiáng)大的基線,這表明對(duì)于這項(xiàng)任務(wù),廣泛的探索非常重要

雖然標(biāo)準(zhǔn)MCTS在預(yù)算增加時(shí)只能帶來(lái)微小的改進(jìn),但AB-MCTS框架實(shí)現(xiàn)了與重復(fù)采樣相當(dāng)?shù)男阅堋_@表明AB-MCTS能夠通過(guò)在有利時(shí)動(dòng)態(tài)擴(kuò)展其搜索范圍來(lái)有效地探索潛在解。

MLE-Bench

上表展示了使用GPT-4o在MLE-Bench三個(gè)競(jìng)賽中的性能表現(xiàn)。由于MLE-Bench在訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)模型時(shí)需要大量的GPU資源,研究團(tuán)隊(duì)僅使用了GPT-4o,并專注于基線方法和AB-MCTS-M。

結(jié)果顯示,最佳性能的基線方法在不同競(jìng)賽中有所不同,這再次強(qiáng)調(diào)了不同任務(wù)受益于不同的探索-利用權(quán)衡。

相比之下,AB-MCTS-M在這些任務(wù)中始終表現(xiàn)出色。

這種在不同競(jìng)賽中的一致成功突顯了AB-MCTS-M在有效適應(yīng)其搜索策略以應(yīng)對(duì)不同問(wèn)題結(jié)構(gòu)方面的內(nèi)在優(yōu)勢(shì)。

為了定量分析AB-MCTS如何平衡探索與利用,論文的研究團(tuán)隊(duì)還考察了生成的搜索樹(shù)在每個(gè)深度的平均深度和平均寬度。

如上圖顯示,與標(biāo)準(zhǔn)MCTS相比,AB-MCTS方法傾向于生成更寬的樹(shù)。這是因?yàn)锳B-MCTS可以從任何現(xiàn)有節(jié)點(diǎn)自適應(yīng)地決定探索更寬(選擇GEN節(jié)點(diǎn)),而標(biāo)準(zhǔn)MCTS則不能。這種機(jī)制使得在不同樹(shù)深度上能夠進(jìn)行更靈活的探索。

除了探索寬度的靈活性之外,AB-MCTS在順序優(yōu)化表現(xiàn)優(yōu)異的基準(zhǔn)測(cè)試中也取得了優(yōu)異的性能,這表明AB-MCTS通過(guò)選擇現(xiàn)有子節(jié)點(diǎn)進(jìn)行優(yōu)化,能夠有效地識(shí)別并利用了有潛力的分支。這種自適應(yīng)特性使其能夠結(jié)合探索與利用的優(yōu)勢(shì),在多種基準(zhǔn)測(cè)試中表現(xiàn)出強(qiáng)大的性能。

為了研究AB-MCTS的擴(kuò)展特性,使用DeepSeek-V3對(duì)ARC-AGI的實(shí)驗(yàn)進(jìn)行了擴(kuò)展,將生成預(yù)算增加到512。如上圖所示,隨著預(yù)算從200增加到500,AB-MCTS的性能繼續(xù)顯著提高,而重復(fù)采樣的改進(jìn)率開(kāi)始趨于平穩(wěn)。

標(biāo)準(zhǔn)MCTS在增加預(yù)算后也繼續(xù)改進(jìn),但與AB-MCTS方法相比,其成功率顯著較低。這種性能差距表明,AB-MCTS在大型計(jì)算規(guī)模下更有效地將搜索導(dǎo)向搜索樹(shù)中更有希望的分支

上圖展示了由AB-MCTS-M和標(biāo)準(zhǔn)MCTS生成的搜索樹(shù)示例。這些可視化展示了AB-MCTS-M相比標(biāo)準(zhǔn)MCTS具有更強(qiáng)的自適應(yīng)分支特性。

這種自適應(yīng)性表明,AB-MCTS-M在整個(gè)搜索過(guò)程中靈活地平衡探索與利用,能夠動(dòng)態(tài)分配預(yù)算以探索多樣化的新候選者(“拓展寬度”)和優(yōu)化有潛力的候選者(“深入挖掘”)。

以上結(jié)果表明,即使考慮到重復(fù)采樣的固有優(yōu)勢(shì),AB-MCTS仍是一種有前景的方法,能夠高效利用生成預(yù)算在各種場(chǎng)景中取得更優(yōu)結(jié)果。

在具有挑戰(zhàn)性的ARC-AGI-2基準(zhǔn)測(cè)試中,AB-MCTS結(jié)合ChatGPT、Gemini和DeepSeek解決了30%的ARC-AGI-2謎題,而頂尖的獨(dú)立模型僅解決了23%。

結(jié)果顯示,有幾種情況下,只有不同模型的組合才能得出正確答案。

自然啟發(fā)與創(chuàng)新之路

上述關(guān)于AB-MCTS的研究并非憑空產(chǎn)生,它基于Sakana AI 2024年在進(jìn)化模型融合方面的工作,該團(tuán)隊(duì)將重點(diǎn)從“混合以創(chuàng)造”轉(zhuǎn)向“混合以使用”現(xiàn)有的強(qiáng)大AI。

他們是這樣說(shuō)的:

在Sakana AI,我們始終致力于通過(guò)應(yīng)用受自然啟發(fā)的原則(如進(jìn)化和集體智能)來(lái)開(kāi)創(chuàng)新型AI系統(tǒng)。

他們也確實(shí)這樣做了:

不僅僅是2024年的進(jìn)化合并模型,就在今年5月,Sakana AI還和哥倫比亞大學(xué)的科研人員共同開(kāi)發(fā)了達(dá)爾文-哥德?tīng)枡C(jī)(DGM)——這是一個(gè)旨在自我進(jìn)化的AI框架,并非針對(duì)固定目標(biāo)進(jìn)行優(yōu)化,而是從生物進(jìn)化與科學(xué)發(fā)現(xiàn)中汲取靈感,通過(guò)開(kāi)放式搜索和持續(xù)的自我修改來(lái)生成新的解決方案。

而前段時(shí)間,有兩位物理學(xué)家以生物系統(tǒng)自我組裝的過(guò)程為參考,揭示了擴(kuò)散模型“創(chuàng)造力”的本質(zhì)……

這些發(fā)現(xiàn)和創(chuàng)造都是“自然式啟發(fā)”的體現(xiàn)。

原創(chuàng)知識(shí)更多>>

比亞迪第1600萬(wàn)輛新能源車下線,第二代騰勢(shì)D9開(kāi)啟預(yù)售 別克旗艦MPV世紀(jì)CENTURY于4月17日煥新登場(chǎng) 奧迪首個(gè)海外智電技術(shù)中心落地上海,引領(lǐng)全球汽車產(chǎn)業(yè)發(fā)展方向 零跑批量投產(chǎn)的新工廠,構(gòu)建了“金華核心+杭州、合肥兩翼”的國(guó)內(nèi)產(chǎn)能矩陣,疊加海外多基地協(xié)同,投產(chǎn)后總產(chǎn)能將達(dá)146-151萬(wàn)輛 22萬(wàn)就能買到“9系旗艦”?零跑D19打破“大車即高價(jià)”的行業(yè)陳規(guī) 又一個(gè)諾基亞時(shí)刻?凱迪拉克該怎么迎合中國(guó)車市,何思文能解嗎? 拒絕參數(shù)內(nèi)卷 魏牌V9X攜36年技術(shù)積淀預(yù)售 37.18萬(wàn)兌現(xiàn)“豪華契約” 2026款路虎攬勝家族正式登陸國(guó)內(nèi)市場(chǎng),涵蓋行政版、運(yùn)動(dòng)版、SV定制系列 新勢(shì)力沖擊高端,奧迪電車不夠“旗艦”? 2026北京車展前瞻|寶馬旗艦的價(jià)值錨點(diǎn),全新BMW 7系為何在北京車展首發(fā) 全新奔馳GLC EV新車較海外版本軸距加長(zhǎng)至3027mm,將提供六座和七座版本 大眾與眾08售22.99萬(wàn)起,這預(yù)算直接上零跑D19吧 連續(xù)打破兩個(gè) “不可能三角”,傳祺率先定義混動(dòng)下一個(gè)時(shí)代 李斌:請(qǐng)忘記MPV,蔚來(lái)ES9為何敢在BBA腹地“正大光明”? 不靠溢價(jià)靠技術(shù),奇瑞風(fēng)云T9L給出中型混動(dòng)SUV新答案 比預(yù)售價(jià)低1萬(wàn)元,奇瑞風(fēng)云T9L動(dòng)力和安全才是賣點(diǎn) 智美大五座再破局!風(fēng)云T9L上市:12.99萬(wàn)起重構(gòu)家用混動(dòng)SUV標(biāo)準(zhǔn) 新款極氪007與獵裝版007GT正式迎來(lái)上市,權(quán)益后限時(shí)僅19.39萬(wàn)起步 奇瑞風(fēng)云T9L正式上市 推出五款車型,置換補(bǔ)貼后售12.59萬(wàn)起 梁家輝再牽手長(zhǎng)安馬自達(dá) 一把扇子引爆熱搜:這次真要代言了? 雙紀(jì)錄加冕!浩思動(dòng)力助力吉利i-HEV智擎混動(dòng)刷新熱效率與油耗巔峰 限時(shí)價(jià)6.59萬(wàn)元起!全新榮威i6預(yù)售:用料、配置有多頂? 比亞迪正以“銷量翻倍、高端突破、本土化深耕”的三重引擎,向歐洲戰(zhàn)場(chǎng)亮劍 國(guó)民好車“內(nèi)卷”新高度,榮威i6與速騰S“掰手腕” 京東宣布與深藍(lán)汽車展開(kāi)深度合作,雙方將共同推出深藍(lán)L06增程版車型 為固態(tài)電池“降溫”同時(shí),歐陽(yáng)明高贊成智駕“跳過(guò)”L3,純電驅(qū)動(dòng)將徹底終結(jié)“路線之爭(zhēng)” 哈弗猛龍PLUS領(lǐng)銜 本周多款新車開(kāi)啟預(yù)售 99秒換電破局,埃安RT換電版重塑國(guó)民家轎補(bǔ)能標(biāo)準(zhǔn) 東風(fēng)日產(chǎn)NX8上市14.99萬(wàn)元起,更“理想”的家用SUV? BJ40增程上市一周年:每10分鐘一位車主 定義增程硬派新標(biāo)準(zhǔn)
久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区
亚洲一区久久| 欧美综合社区国产| 精品久久精品| 乱一区二区av| 精品精品国产三级a∨在线| 精品三级在线观看视频| 国产精品二区不卡| 亚洲精品**中文毛片| 精品日韩一区| 中文字幕在线视频久| 久久婷婷av| 欧美在线资源| 美日韩精品视频| 三级在线观看一区二区| 日韩激情中文字幕| 国产精品一区二区精品视频观看| 国产精品一区二区三区四区在线观看 | 国产精品一区二区av日韩在线| 国产欧美大片| 免费在线播放第一区高清av| 欧美激情国产在线| 亚洲黑丝一区二区| 亚洲专区视频| 国产美女久久| 中文字幕色婷婷在线视频 | 成人午夜精品| 欧美日韩国产高清| 一区二区电影在线观看| 亚洲精品激情| 国产精品尤物| 人在线成免费视频| 黑丝美女一区二区| 亚洲毛片在线免费| 麻豆国产欧美一区二区三区| 久久精选视频| 天堂成人免费av电影一区| 日韩精品视频网| 国产91在线精品| 欧美不卡高清一区二区三区| 99国产精品久久久久久久| 日本不卡视频在线观看| 国产+成+人+亚洲欧洲在线| 99精品电影| 中文字幕一区二区三区在线视频| 国产精品一线天粉嫩av| 欧美日韩国产v| 日韩和欧美一区二区| 精品国产第一福利网站| 丝袜美腿高跟呻吟高潮一区| 久久精品97| 国产主播一区| 国产精成人品2018| 午夜av一区| 国产精品视频一区二区三区四蜜臂 | 国产精品igao视频网网址不卡日韩| 亚洲涩涩在线| 日韩综合一区二区| 欧美sss在线视频| 日本视频在线一区| 亚洲先锋成人| 日韩精品三区四区| 99久久婷婷这里只有精品| 日韩一区精品视频| 国产欧美一区二区三区精品酒店| 久久高清国产| 久久精品国产999大香线蕉| 亚洲神马久久| 福利片在线一区二区| 亚洲欧美在线综合| 99精品在线观看| 久久av综合| 国产精品视区| 色一区二区三区四区| 日韩三级久久| 国产成人精品亚洲日本在线观看| 欧美视频一区| 99国产精品久久久久久久| 精品一区二区三区中文字幕在线| 免费成人在线观看| 成人台湾亚洲精品一区二区 | 国产精品15p| 水蜜桃久久夜色精品一区的特点| 福利一区二区免费视频| 欧美精品影院| 在线看片一区| 激情欧美丁香| 成人一区而且| 国产日韩欧美三级| 亚洲制服一区| 99精品99| 成人羞羞在线观看网站| 日韩avvvv在线播放| 久久亚洲视频| 免费视频亚洲| 亚洲成av人片一区二区密柚| 国产在线观看91一区二区三区| 亚久久调教视频| 一本一本久久| 国内精品福利| 久久天堂精品| 成人看片网站| 福利一区和二区| 久久精品三级| 欧美片网站免费| 亚洲乱码一区| 美女精品一区| 午夜日本精品| 1024精品一区二区三区| а√天堂8资源在线| 久久久精品区| 欧美精品99| 欧美有码在线| 日韩综合小视频| 亚洲理论在线| 日韩精品一级中文字幕精品视频免费观看 | 欧美日韩国产一区二区三区不卡| 麻豆国产欧美日韩综合精品二区| 国产精品一在线观看| 国产精品亚洲欧美| 国产精品永久| 麻豆视频一区二区| 国产欧美一级| 国产精品中文字幕制服诱惑| 国产亚洲精品美女久久久久久久久久| 日韩在线视频一区二区三区| 美国欧美日韩国产在线播放| 爽好久久久欧美精品| 热久久免费视频| 快she精品国产999| 婷婷综合成人| 青草久久视频| 国产亚洲一区| 麻豆高清免费国产一区| 久久丁香四色| 粉嫩av一区二区三区四区五区 | 日韩精品91亚洲二区在线观看| 亚洲v天堂v手机在线| 日韩欧美美女在线观看| 日本午夜精品久久久| 国产精品magnet| 成人午夜网址| 欧美成a人免费观看久久| 免费av一区| 免费日韩av片| 亚洲网址在线观看| 国产伦精品一区二区三区在线播放| 国产精品v一区二区三区| 97人人精品| 亚洲女同中文字幕| 深夜福利亚洲| 久久gogo国模啪啪裸体| 香蕉视频亚洲一级| 日韩一区二区免费看| 日韩欧美四区| 久久精品国产免费| 国精品一区二区| 日韩一区网站| 久久久久伊人| 日韩电影免费网址| 影院欧美亚洲| 日本免费一区二区视频| 国产精品www994| 久久婷婷av| 日韩中出av| 日产精品一区二区| 欧美日韩国产精品一区二区亚洲| 亚洲啊v在线免费视频| 精品美女久久| 亚洲少妇在线| 国产精品porn| 九一成人免费视频| 国产精品一区二区三区美女| 亚洲四虎影院| 蜜桃久久精品一区二区| 国产一区二区精品久| 午夜一级在线看亚洲| 欧美黑人做爰爽爽爽| 136国产福利精品导航网址| 日韩福利在线观看| 日韩深夜视频| 亚洲精品少妇| 神马午夜在线视频| 亚洲欧美在线综合| 日韩成人三级| 日韩精品乱码av一区二区| а√在线中文在线新版| 丝袜诱惑制服诱惑色一区在线观看 | 精品久久97| 在线亚洲观看| 精品国产一区二区三区av片| 国产精品美女久久久| 久久精品国产在热久久| 综合激情五月婷婷| 久久国产直播| 国产精品v一区二区三区| 成人精品中文字幕| 国产精品网站在线看| 在线综合亚洲| 麻豆网站免费在线观看| 日韩精品免费观看视频|