久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

首頁 > 原創知識 > 原創知識 > AI版三個臭皮匠!ChatGPT/Gemini/DeepSeek合體拿下AGI測試最高分

AI版三個臭皮匠!ChatGPT/Gemini/DeepSeek合體拿下AGI測試最高分

發布時間:2025-07-08 23:06:29來源: 13566779980

ChatGPT的對話流暢性、Gemini的多模態能力、DeepSeek的長上下文分析……

能不能讓它們強強聯合,共同解決問題呢?

那個由Transformer作者之一Llion Jones創立的明星AI公司Sakana AI,提出了新方法AB-MCTS,核心思想是:

最偉大的成就往往源于不同思想的協作,我們相信這一原則同樣適用于人工智能。

AB-MCTS,全稱為自適應分支蒙特卡洛樹搜索(Adaptive Branching Monte Carlo Tree Search),是一種使多個人工智能模型同時處理問題的算法。模型之間交換并完善建議,協同工作,就像人類團隊一樣。

在具有挑戰性的ARC-AGI-2基準測試中,多LLM AB-MCTS解決的問題比單獨工作的任何單個模型(Single-LLM AB-MCTS)都多。

有幾種情況下,只有不同模型的組合才能得出正確答案。

Sakana AI已將該算法以TreeQuest的名稱開源,鏈接可見文末。

兩種搜索策略

AB-MCTS結合了兩種不同的搜索策略:它可以完善現有解決方案(深度搜索),也可以嘗試全新的方法(廣度搜索)。

主要的技術挑戰是將無界分支引入MCTS

標準MCTS僅選擇并擴展葉節點(即每個節點最多被擴展一次),且擴展會添加固定數量的子節點。然而,由于在非零溫度下對LLM的每個查詢都可能從相同提示中產生不同的輸出,分支因子理論上無限。

為了充分利用MCTS的無界分支的潛在性能提升,AB-MCTS允許那些已經擴展過一次的節點再次被擴展并進一步分支,并引入GEN節點來明確表示生成新子節點的動作。

在AB-MCTS的搜索樹中,每個節點N均附帶一個GEN子節點。選中帶有GEN節點的父節點時,會從N生成一個新子節點。

與傳統的MCTS不同,AB-MCTS不會將寬度作為靜態超參數固定。

相反,在搜索樹的每個節點上,AB-MCTS會自適應地決定是探索(“變寬”)通過生成新的候選響應,還是利用(“變深”)通過改進現有的響應,利用外部反饋信號。

在底層,AB-MCTS通過貝葉斯后驗預測分布估計節點潛力,并用Thompson采樣選擇動作,以確保每次擴展都以原則性的方式平衡探索和利用。

這種設計自然地擴展了多次采樣,使AB-MCTS能夠在必要時利用LLMs多樣化且龐大的輸出空間。

在以上基礎上,Sakana AI還提出了兩個變體:AB-MCTS-M和AB-MCTS-A。

簡單地說:

AB-MCTS-M:更分層。使用混合效應模型共享子樹間的統計信息,通過分層貝葉斯推斷平衡全局與局部探索。

AB-MCTS-A:更輕量。通過CONT節點顯式分離“生成”與“優化”動作,并基于共軛先驗實現高效后驗更新,簡化計算。

其利斷金

對AB-MCTS進行基準測試,結果顯示,AB-MCTS在各種基準測試和LLMs中始終表現出色,獲得的平均排名最高并優于既定基線。

這種持續的成功源于AB-MCTS獨特的動態調整搜索策略的能力,它通過精確平衡探索和利用來適應每個問題的不同需求,而基線方法中幾乎缺乏這種適應性。

LiveCodeBench和CodeContest

上圖左側和中部報告了GPT-4o在LiveCodeBench和CodeContest上的成功率與生成預算的關系,可以看到,所有方法在計算預算增加時都表現出性能提升。在這兩個基準測試中,AB-MCTS算法通常優于基線方法。

在LiveCodeBench,即使預算很小,AB-MCTS也開始超越基線方法;在CodeContest,預算為32及以上時,AB-MCTS表現出優于基線的性能。

ARC-AGI

上圖右側展示了GPT-4o在ARC-AGI這一特別具有挑戰性的基準測試上的性能表現。可以看到,重復采樣在該設置中證明是一種強大的基線,這表明對于這項任務,廣泛的探索非常重要

雖然標準MCTS在預算增加時只能帶來微小的改進,但AB-MCTS框架實現了與重復采樣相當的性能。這表明AB-MCTS能夠通過在有利時動態擴展其搜索范圍來有效地探索潛在解。

MLE-Bench

上表展示了使用GPT-4o在MLE-Bench三個競賽中的性能表現。由于MLE-Bench在訓練和評估機器學習模型時需要大量的GPU資源,研究團隊僅使用了GPT-4o,并專注于基線方法和AB-MCTS-M。

結果顯示,最佳性能的基線方法在不同競賽中有所不同,這再次強調了不同任務受益于不同的探索-利用權衡。

相比之下,AB-MCTS-M在這些任務中始終表現出色。

這種在不同競賽中的一致成功突顯了AB-MCTS-M在有效適應其搜索策略以應對不同問題結構方面的內在優勢。

為了定量分析AB-MCTS如何平衡探索與利用,論文的研究團隊還考察了生成的搜索樹在每個深度的平均深度和平均寬度。

如上圖顯示,與標準MCTS相比,AB-MCTS方法傾向于生成更寬的樹。這是因為AB-MCTS可以從任何現有節點自適應地決定探索更寬(選擇GEN節點),而標準MCTS則不能。這種機制使得在不同樹深度上能夠進行更靈活的探索。

除了探索寬度的靈活性之外,AB-MCTS在順序優化表現優異的基準測試中也取得了優異的性能,這表明AB-MCTS通過選擇現有子節點進行優化,能夠有效地識別并利用了有潛力的分支。這種自適應特性使其能夠結合探索與利用的優勢,在多種基準測試中表現出強大的性能。

為了研究AB-MCTS的擴展特性,使用DeepSeek-V3對ARC-AGI的實驗進行了擴展,將生成預算增加到512。如上圖所示,隨著預算從200增加到500,AB-MCTS的性能繼續顯著提高,而重復采樣的改進率開始趨于平穩。

標準MCTS在增加預算后也繼續改進,但與AB-MCTS方法相比,其成功率顯著較低。這種性能差距表明,AB-MCTS在大型計算規模下更有效地將搜索導向搜索樹中更有希望的分支

上圖展示了由AB-MCTS-M和標準MCTS生成的搜索樹示例。這些可視化展示了AB-MCTS-M相比標準MCTS具有更強的自適應分支特性。

這種自適應性表明,AB-MCTS-M在整個搜索過程中靈活地平衡探索與利用,能夠動態分配預算以探索多樣化的新候選者(“拓展寬度”)和優化有潛力的候選者(“深入挖掘”)。

以上結果表明,即使考慮到重復采樣的固有優勢,AB-MCTS仍是一種有前景的方法,能夠高效利用生成預算在各種場景中取得更優結果。

在具有挑戰性的ARC-AGI-2基準測試中,AB-MCTS結合ChatGPT、Gemini和DeepSeek解決了30%的ARC-AGI-2謎題,而頂尖的獨立模型僅解決了23%。

結果顯示,有幾種情況下,只有不同模型的組合才能得出正確答案。

自然啟發與創新之路

上述關于AB-MCTS的研究并非憑空產生,它基于Sakana AI 2024年在進化模型融合方面的工作,該團隊將重點從“混合以創造”轉向“混合以使用”現有的強大AI。

他們是這樣說的:

在Sakana AI,我們始終致力于通過應用受自然啟發的原則(如進化和集體智能)來開創新型AI系統。

他們也確實這樣做了:

不僅僅是2024年的進化合并模型,就在今年5月,Sakana AI還和哥倫比亞大學的科研人員共同開發了達爾文-哥德爾機(DGM)——這是一個旨在自我進化的AI框架,并非針對固定目標進行優化,而是從生物進化與科學發現中汲取靈感,通過開放式搜索和持續的自我修改來生成新的解決方案。

而前段時間,有兩位物理學家以生物系統自我組裝的過程為參考,揭示了擴散模型“創造力”的本質……

這些發現和創造都是“自然式啟發”的體現。

原創知識更多>>

比亞迪第1600萬輛新能源車下線,第二代騰勢D9開啟預售 別克旗艦MPV世紀CENTURY于4月17日煥新登場 奧迪首個海外智電技術中心落地上海,引領全球汽車產業發展方向 零跑批量投產的新工廠,構建了“金華核心+杭州、合肥兩翼”的國內產能矩陣,疊加海外多基地協同,投產后總產能將達146-151萬輛 22萬就能買到“9系旗艦”?零跑D19打破“大車即高價”的行業陳規 又一個諾基亞時刻?凱迪拉克該怎么迎合中國車市,何思文能解嗎? 拒絕參數內卷 魏牌V9X攜36年技術積淀預售 37.18萬兌現“豪華契約” 2026款路虎攬勝家族正式登陸國內市場,涵蓋行政版、運動版、SV定制系列 新勢力沖擊高端,奧迪電車不夠“旗艦”? 2026北京車展前瞻|寶馬旗艦的價值錨點,全新BMW 7系為何在北京車展首發 全新奔馳GLC EV新車較海外版本軸距加長至3027mm,將提供六座和七座版本 大眾與眾08售22.99萬起,這預算直接上零跑D19吧 連續打破兩個 “不可能三角”,傳祺率先定義混動下一個時代 李斌:請忘記MPV,蔚來ES9為何敢在BBA腹地“正大光明”? 不靠溢價靠技術,奇瑞風云T9L給出中型混動SUV新答案 比預售價低1萬元,奇瑞風云T9L動力和安全才是賣點 智美大五座再破局!風云T9L上市:12.99萬起重構家用混動SUV標準 新款極氪007與獵裝版007GT正式迎來上市,權益后限時僅19.39萬起步 奇瑞風云T9L正式上市 推出五款車型,置換補貼后售12.59萬起 梁家輝再牽手長安馬自達 一把扇子引爆熱搜:這次真要代言了? 雙紀錄加冕!浩思動力助力吉利i-HEV智擎混動刷新熱效率與油耗巔峰 限時價6.59萬元起!全新榮威i6預售:用料、配置有多頂? 比亞迪正以“銷量翻倍、高端突破、本土化深耕”的三重引擎,向歐洲戰場亮劍 國民好車“內卷”新高度,榮威i6與速騰S“掰手腕” 京東宣布與深藍汽車展開深度合作,雙方將共同推出深藍L06增程版車型 為固態電池“降溫”同時,歐陽明高贊成智駕“跳過”L3,純電驅動將徹底終結“路線之爭” 哈弗猛龍PLUS領銜 本周多款新車開啟預售 99秒換電破局,埃安RT換電版重塑國民家轎補能標準 東風日產NX8上市14.99萬元起,更“理想”的家用SUV? BJ40增程上市一周年:每10分鐘一位車主 定義增程硬派新標準
久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区
久久xxxx精品视频| 蜜桃久久av一区| 国产精品嫩草影院在线看| 日本伊人久久| 日韩高清中文字幕一区| 日韩一区二区三区高清在线观看| 婷婷色综合网| 亚洲一区二区三区免费在线观看| 丝袜诱惑制服诱惑色一区在线观看| 国产农村妇女精品一二区| 视频一区二区中文字幕| 日韩一区二区三区精品| 国产欧美日韩一区二区三区四区 | 欧美亚洲专区| 国产精品一级| 国产精东传媒成人av电影| 精品入口麻豆88视频| 日韩综合精品| 夜夜嗨网站十八久久 | 夜久久久久久| 91麻豆精品激情在线观看最新 | 亚洲欧美日韩国产综合精品二区 | 国产999精品在线观看| 精品捆绑调教一区二区三区 | 婷婷亚洲精品| 麻豆91在线播放| 日韩精品欧美| 亚洲一区二区三区久久久| 91精品美女| 国产欧美一区二区三区精品酒店| 91久久久精品国产| 国产亚洲精品美女久久| 国产精品蜜芽在线观看| 国产亚洲福利| 久久不卡日韩美女| 日韩国产欧美| 午夜亚洲福利| 女生影院久久| 男女性色大片免费观看一区二区 | 蜜臀精品久久久久久蜜臀| 国产日韩欧美高清免费| 99久久精品网| 国产日韩一区二区三区在线播放| 午夜精品成人av| 日本一区二区中文字幕| 91亚洲成人| 日韩在线a电影| 久久免费精品| 日韩专区一卡二卡| 国产在线一区不卡| 老色鬼久久亚洲一区二区| 美腿丝袜在线亚洲一区| 夜夜嗨一区二区| 鲁大师精品99久久久| 2023国产精品久久久精品双| 国产精品视频一区二区三区四蜜臂 | 中文字幕日韩高清在线| 日韩成人精品一区| 久久亚洲欧美| 日本在线啊啊| 日本久久一区| 欧美日韩国产传媒| 国产精品久久久久av蜜臀| 国产亚洲毛片| 成人在线视频免费| 综合激情婷婷| 国产99久久| 国产精品视频3p| 亚洲欧美日韩国产综合精品二区| 成人在线免费观看网站| 日本在线不卡视频一二三区| 在线观看精品| 国产剧情在线观看一区| 午夜在线一区| 国产精品原创| 国产精品蜜月aⅴ在线| 亚洲免费影院| 久久激情一区| 黄色精品视频| 欧美在线观看天堂一区二区三区| 欧美日韩免费观看一区=区三区 | 免费欧美日韩| 久久国产影院| 精品亚洲a∨| 日韩不卡在线观看日韩不卡视频 | 免费在线观看一区二区三区| 久久美女性网| 国产精品久久久久久久免费观看 | 亚洲欧美日韩国产综合精品二区| 蜜桃精品在线| 精品日韩一区| 国产精品久久久久久模特| 亚洲精品亚洲人成在线观看| 99国产精品私拍| 亚洲天堂成人| 久久国产中文字幕| 国产麻豆久久| 欧美日韩视频网站| 免费看av不卡| 涩涩av在线| 国产中文字幕一区二区三区| 国产日韩一区二区三免费高清| 中文字幕视频精品一区二区三区| 合欧美一区二区三区| 日韩在线观看| 国产成人久久精品麻豆二区 | 欧美另类中文字幕| 婷婷综合成人| 日本成人精品| 日韩精品久久理论片| av成人国产| 午夜亚洲福利在线老司机| 激情欧美亚洲| 免费成人网www| 国产h片在线观看| 国产+成+人+亚洲欧洲在线| 国产精品久久久久77777丨| 久久精品72免费观看| 日韩精品免费视频人成| 91麻豆精品| 欧美国产日韩电影| 国产精品高清一区二区| 免费在线欧美黄色| 日韩综合在线| 欧美亚洲在线日韩| 亚洲第一精品影视| 欧美日韩国产一区精品一区| 中文亚洲欧美| 蜜桃久久av一区| 日本少妇精品亚洲第一区| 69堂免费精品视频在线播放| 国产精品亚洲综合色区韩国| 国产精品久久久久久久免费软件 | 美女久久精品| 国产aⅴ精品一区二区四区| 欧美激情国产在线| 成人日韩在线观看| 99久久99久久精品国产片果冰 | 99国产精品久久久久久久成人热| 免费日韩av片| 欧美日韩亚洲国产精品| 精品国产一区二| 精品欧美一区二区三区在线观看| 黑丝一区二区三区| 日韩精品福利一区二区三区| 国产激情综合| 日韩福利一区| 亚洲激情av| 日本成人手机在线| 成人综合一区| 欧美日韩日本国产亚洲在线 | 日韩精品第二页| 另类欧美日韩国产在线| 激情国产在线| 国产一区二区精品| 91九色综合| 免费福利视频一区二区三区| 在线亚洲国产精品网站| 青青草精品视频| 国产精品久久久久久久免费观看 | 一区二区三区四区日本视频| 蜜臀久久99精品久久一区二区| 综合视频一区| 久久精品亚洲一区二区| 亚洲二区免费| 国产日韩欧美在线播放不卡| 日韩国产网站| 日韩高清三区| av亚洲一区二区三区| 免费久久精品视频| 国产高清精品二区| 精品国产不卡一区二区| 亚洲大全视频| 国产日本精品| 婷婷综合五月| 国产精品videossex| 婷婷综合激情| 欧美韩一区二区| 国产精品毛片在线| 精品欧美视频| 蜜臀av性久久久久蜜臀aⅴ流畅 | 亚洲一区免费| 国产一区二区三区探花| 亚洲欧美日韩视频二区| 丁香婷婷久久| 日韩中文字幕| 亚洲国产专区| 精品一区二区三区视频在线播放| 香蕉精品久久| 久久不见久久见中文字幕免费 | 日韩中文字幕无砖| 美女网站视频一区| 国产欧美日韩亚洲一区二区三区| 欧美日韩一二三四| 国产精品99久久免费| 蜜桃av一区二区三区电影| 欧美成a人国产精品高清乱码在线观看片在线观看久 | 久久精品中文| 国产精品红桃| 亚洲一级大片|