久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

首頁 > 汽車報道 > 汽車報道 > 全球首個科研LLM競技場上線!23款頂尖模型火拼:o3奪冠,DeepSeek第四

全球首個科研LLM競技場上線!23款頂尖模型火拼:o3奪冠,DeepSeek第四

發(fā)布時間:2025-07-12 13:26:47來源: 13566779980

 最近,Ai2耶魯NYU聯(lián)合推出了一個科研版「Chatbot Arena」——SciArena。全球23款頂尖大模型火拼真實科研任務(wù),OpenAI o3領(lǐng)跑全場,DeepSeek緊追Gemini擠入前四!不過從結(jié)果來看,要猜中科研人的偏好,自動評估系統(tǒng)遠(yuǎn)未及格。

如今,用AI大模型輔助寫論文早已成為科研工作者的家常便飯。

ZIPDO 2025教育報告顯示,AI已經(jīng)無縫融入70%的研究實驗室,并在五年內(nèi)推動相關(guān)科研論文數(shù)量增長了150%。

AI在輔助科研的路上一路狂飆,但一個關(guān)鍵問題卻長期懸而未解:

「大模型科研能力究竟怎么樣?」

傳統(tǒng)benchmark靜態(tài)且片面,難以衡量科研任務(wù)所需的上下文理解與推理能力。

為此,Ai2聯(lián)合耶魯大學(xué)和紐約大學(xué)推出了科研界的Chatbot Arena——SciArena,正式開啟科學(xué)智能的「擂臺賽」時代!

論文鏈接:https://arxiv.org/pdf/2507.01001

目前,已有23個最前沿的大語言模型登上SciArena的擂臺,涵蓋OpenAI、Anthropic、DeepSeek、Google等巨頭產(chǎn)品。

其中,OpenAI o3斷崖式領(lǐng)先,坐上了科學(xué)任務(wù)的頭把交椅,在所有科學(xué)領(lǐng)域都穩(wěn)居第一,輸出的論文講解也更有技術(shù)含量。

其他模型在不同領(lǐng)域各有千秋:

例如Claude-4-Opus的醫(yī)療健康知識很強(qiáng),而DeepSeek-R1-0528在自然科學(xué)表現(xiàn)搶眼。

值得一提的是,SciArena剛發(fā)布沒多久就得到了Nature的特別報道,并被盛贊為「解釋大模型知識結(jié)構(gòu)的新窗口」。

下面我們就來看看,評估基礎(chǔ)模型科研能力,SciArena究竟靠譜在哪里?

SciArena:科研AI新「試金石」

SciArena是首個專為科學(xué)文獻(xiàn)任務(wù)量身定制的大模型「開放式評估平臺」。

在這里,科研人員可以對不同基礎(chǔ)模型處理科學(xué)文獻(xiàn)任務(wù)的表現(xiàn)進(jìn)行比較和投票。

團(tuán)隊引入了Chatbot Arena式的眾包、匿名、雙盲對決機(jī)制,用真實科研問題來驗貨大模型。

SciArena專門針對科學(xué)探究的復(fù)雜性與開放性進(jìn)行了優(yōu)化,解決通用基準(zhǔn)測試在科研場景中「失效」的問題。

該平臺主要由三大核心組件構(gòu)成:

  • SciArena平臺: 科研人員在此提交問題,并「同臺對比」查看不同基礎(chǔ)模型的回復(fù),選出自己更偏好的輸出。

  • 排行榜: 平臺采用Elo評分系統(tǒng)對各大模型進(jìn)行動態(tài)排名,從而提供一份實時更新的性能評估報告。

  • SciArena-Eval: 基于SciArena平臺收集的人類偏好數(shù)據(jù)構(gòu)建的元評估基準(zhǔn)集,其核心目標(biāo)是檢驗用模型來猜測人類偏好的準(zhǔn)確性。

對決背后:評測機(jī)制大揭秘

從提問到投票:SciArena評估全流程

SciArena的工作流程包括檢索論文、調(diào)用模型回復(fù)、用戶評估三個環(huán)節(jié)。

與通用問答相比,科研問答最大的壁壘在于要以嚴(yán)謹(jǐn)?shù)目茖W(xué)文獻(xiàn)為依據(jù)。

為了確保檢索信息的質(zhì)量與相關(guān)性,團(tuán)隊改編了Allen Institute for AI的Scholar QA系統(tǒng),搭建了一套先進(jìn)的多階段檢索流水線。

該流水線包含查詢分解、段落檢索和結(jié)果重排序等多個步驟。

收到用戶提交的問題后,平臺啟用流水線,檢索相關(guān)的科學(xué)論文作為上下文。

隨后,平臺把上下文和用戶的問題合在一起,同時發(fā)送給兩個隨機(jī)選擇的基礎(chǔ)模型。

兩個模型各自生成內(nèi)容詳實、附帶標(biāo)準(zhǔn)引文的長篇回復(fù)。

平臺會統(tǒng)一處理兩份回復(fù),變成格式一致的標(biāo)準(zhǔn)化純文本,以免用戶「認(rèn)出」模型的回答風(fēng)格。

最后,用戶對這兩個純文本輸出進(jìn)行評估,并投票選出自己偏好的答案。

值得注意的是,SciArena的注意力主要集中于可橫向評估的「通用基礎(chǔ)模型」。

至于OpenAI Deep Research等定制型智能體或閉源研究系統(tǒng),則不在平臺的考慮范疇內(nèi)。

102位專家,13000票

要想評測準(zhǔn),數(shù)據(jù)必須信得過。

SciArena團(tuán)隊對數(shù)據(jù)的把關(guān)嚴(yán)格得令人發(fā)指。

在平臺上線的前四個月里,他們收集了不同科研領(lǐng)域的102位專家的13000多次投票。

這102位專家絕非隨意參與的路人,而是科研一線的在讀研究生,人均手握兩篇以上論文。

而且,所有的標(biāo)注員都接受了一小時的線上培訓(xùn),確保評價標(biāo)準(zhǔn)一致。

再加上盲評盲選機(jī)制,SciArena的每一條評估結(jié)果都有據(jù)可依。

在SciArena的高標(biāo)準(zhǔn)和嚴(yán)要求下,平臺的標(biāo)注數(shù)據(jù)自我一致性極高(加權(quán)科恩系數(shù)κ=0.91),標(biāo)注者間一致性也達(dá)到了較高水平(κ=0.76)。

這13000多次投票為SciArena平臺打下了值得信賴的評估基礎(chǔ)。

最強(qiáng)AI,猜不透科研人的心

在SciArena平臺上,研究團(tuán)隊基于元評估基本集SciArena-Eval,測試了「模型評模型」的自動評估方法:

給一個評估模型一條科研問題和兩個模型的回答,讓它猜哪個更可能被人類選中。

結(jié)果很扎心。

哪怕是表現(xiàn)最好的o3模型,準(zhǔn)確率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,幾乎跟「擲硬幣選答案」的準(zhǔn)確率差不多。

對比一下通用領(lǐng)域,像AlpacaEval、WildChat這些基準(zhǔn)的評估模型,準(zhǔn)確率都能跑到70%以上,相比之下,科研任務(wù)顯得難多了。

看來,「讓模型理解科研人的偏好」并非易事。

不過也不是全無亮點。

加入了推理能力的模型,在判斷答案優(yōu)劣上普遍表現(xiàn)更好。

例如,o4-mini比GPT-4.1高出 2.9%,DeepSeek-R1也小勝自家模型DeepSeek-V3。

這說明,會推理的AI更懂科研問題的本質(zhì)。

研究團(tuán)隊表示,SciArena-Eval未來有望成為科研AI評估的「新標(biāo)準(zhǔn)」。

它能幫我們看清AI到底有沒有真正「讀懂」科研人的心思。

汽車報道更多>>

實測驗證長效保冷實力,智界V9恒冷智能大冰箱定義車載冰箱全新標(biāo)桿 豐田Yaris Cross改款,前臉變樣、全系混動,歐洲要賣20萬 北京車展倒計時!這份上汽大眾打卡攻略請收好 從星源動力到星靈架構(gòu),廣汽五大核心技術(shù)齊發(fā) 歸元S平臺正式發(fā)布 魏牌V9X預(yù)售37.18萬元起 既然體驗都一樣,我為什么要買奧迪電動車? 試駕鄭州日產(chǎn)Frontier Pro雙車:L2智駕加持 插混皮卡解鎖全場景實用新體驗 當(dāng)汽車遇見山河:問界M9三款新色斬獲文旅認(rèn)證 比亞迪海獅05EV:充電快了,動力強(qiáng)了,續(xù)航長了 魏牌V9X預(yù)售:歸元S平臺首款旗艦,預(yù)售37.18萬起 2026年一季度汽車出口暴增56.7%:為何國內(nèi)價格戰(zhàn)還在升級內(nèi)卷! 太接地氣!廣汽科技日,完美戳中普通用戶的“心坎點”! 專訪李斌、秦力洪:蔚來憑什么敢說“請忘記MPV”? 試駕就送真金!長安馬自達(dá)EZ-60這波春日福利,殺瘋了! 合資2.0首款力作落地,上汽大眾ID. ERA 9X有底氣細(xì)分市場前三 48.41%熱效率全球第一,吉利i-HEV智擎混動到底憑什么 拒絕做“平替”!蔚來ES9期待一場光明正大的勝利 換塊電池比車還貴,新能源車主的“斬殺線”到了 小型SUV銷量榜 僅兩款銷量過萬 零跑A10第四 城配老司機(jī)看過來,6.98萬買一臺會算賬的輕客?2026款五菱揚(yáng)光上市! 對話元戎啟行CEO周光:Robotaxi模型運(yùn)營能力缺一不可,L4或加速到來 小鵬MONA L03要來了!外形爭議挺大,定位15萬級又能大賣? 2026年3月純電動新車5款,插混有2款,增程式4款新品,燃油車新品缺損,這是行業(yè)發(fā)展巨大的隱憂 納智捷、眾泰曾是“優(yōu)等生”?J.D. Power榜單排位之謎 寶馬公布北京車展強(qiáng)大陣容,全新7系、新世代iX3/i3長軸版等16款車型首次登場! 領(lǐng)克10+&10:當(dāng)運(yùn)動不止于燃油,純電也能“攻山屠榜” 拒絕充電焦慮!樂道L90 900V快充+換電,硬鋼400V架構(gòu)的Model Y L 37分鐘大定過萬!小鵬銷量神車改款11.98萬起,第二代VLA也加上了 領(lǐng)克品牌官方發(fā)布全新中型旅行轎車領(lǐng)克07GT的路試諜照,計劃2026年內(nèi)正式發(fā)布上市 比亞迪2026款海豹06GT/DM-i旅行版雙車齊發(fā),售價11.19萬-16.99萬元
久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区
国产免费av一区二区三区| 99热精品久久| 日韩影院免费视频| 亚洲综合电影一区二区三区| 好看的亚洲午夜视频在线| 欧美高清一区| 蜜臀av免费一区二区三区| 午夜精品亚洲| 久久久久网站| 五月天综合网站| 蜜桃久久久久久久| 日韩成人午夜精品| 国产精品啊v在线| 国内自拍视频一区二区三区| 色综合五月天| 久久亚洲在线| 蜜臀av国产精品久久久久| 婷婷成人av| 久久99视频| 欧美二三四区| 日韩精品一二三区| 国产精品一区毛片| 日韩黄色大片| 亚洲精品91| 日韩高清一区| 老司机免费视频一区二区| 日韩大片在线观看| 亚洲欧美日韩精品一区二区| 91在线成人| 欧美一级鲁丝片| 99国产精品久久久久久久成人热| 亚洲精品亚洲人成在线观看| 欧美国产先锋| 亚洲成人va| 在线观看一区| 精品一区二区三区四区五区| 亚洲午夜久久久久久尤物 | 美女久久精品| 欧美片第1页| 免费人成在线不卡| 国产精品22p| 999精品在线| 亚洲精品一二| 久久uomeier| 伊人久久大香伊蕉在人线观看热v| 国产精品久久久久久久久免费高清 | 国产日本久久| 伊人久久高清| 视频一区二区欧美| 国产999精品在线观看| 在线亚洲观看| 久久精品国产久精国产| 国精品一区二区| 欧美影院视频| 99久久久久国产精品| 91亚洲无吗| 久久国产中文字幕| 久久国产麻豆精品| 亚洲欧美日韩高清在线| 麻豆成人91精品二区三区| 国产亚洲高清视频| 黄色精品视频| 日韩精品一级二级 | 视频一区二区不卡| 久久亚洲精精品中文字幕| 黄色亚洲大片免费在线观看| 久久不见久久见免费视频7| 欧美日韩少妇| 国产精品99一区二区三区| 亚洲午夜国产成人| 成人日韩在线| 国产精品国码视频| 9国产精品视频| 国产成人精品999在线观看| 夜夜嗨网站十八久久| 狠狠躁少妇一区二区三区| 日本天堂一区| 蜜桃久久av| 亚洲不卡av不卡一区二区| 美腿丝袜亚洲三区| 亚洲综合色婷婷在线观看| 亚洲二区视频| 97精品在线| 国产精品网站在线看| 亚洲影院天堂中文av色| 久久精品国产68国产精品亚洲| 美女毛片一区二区三区四区最新中文字幕亚洲| 六月天综合网| 精品日韩视频| 国产精品sm| 日韩精品1区2区3区| 亚洲综合欧美| 亚洲国产综合在线看不卡| 国产精品二区不卡| 国产精品二区影院| 综合一区二区三区| 好吊日精品视频| 日韩av免费| 国产精品高颜值在线观看| 国产精品一区二区美女视频免费看 | 欧美在线日韩| 日韩专区欧美专区| 合欧美一区二区三区| 久久视频一区| 日韩一区二区中文| 91一区二区三区四区| 欧美a级一区二区| 国产欧美欧美| 久久黄色影视| 欧美日韩亚洲一区| 日本午夜免费一区二区| 亚洲影视一区二区三区| 六月丁香综合| 视频一区在线视频| 亚洲永久字幕| 久久亚洲欧洲| 久久最新视频| 免费看日韩精品| 午夜在线一区| 香蕉成人久久| 麻豆成人在线| 蜜臀久久99精品久久久久久9 | 国产女优一区| 亚洲一区网站| 在线一区二区三区视频| 亚洲精品极品| 国产午夜精品一区在线观看| 国产精品v日韩精品v欧美精品网站| 国产欧美一区二区精品久久久| 国产精品三p一区二区| 欧美国产日本| 国产精品久久观看| 亚洲www啪成人一区二区| 在线日韩中文| 美女久久一区| 日本中文字幕一区二区| 日本一区二区三区视频在线看 | 亚洲日产av中文字幕| 亚洲精品免费观看| 91免费精品国偷自产在线在线| 久久国产麻豆精品| 乱一区二区av| 日韩在线观看一区| 日韩亚洲国产欧美| 日韩精品社区| 国产精品igao视频网网址不卡日韩| 亚洲欧美网站在线观看| 国产精品夜夜夜| 国产精品分类| 国产成人免费精品| 99tv成人| 欧美日韩四区| 亚洲欧美日本国产| 国产精品网址| 91综合网人人| 欧美成人高清| 在线国产精品一区| 欧美日韩在线精品一区二区三区激情综合 | 日韩一级网站| 日韩va欧美va亚洲va久久| 久久国产麻豆精品| 国产一区二区色噜噜| 激情五月综合网| 亚洲精品大片| 国产精品福利在线观看播放| 亚洲视频综合| 日韩精品久久久久久| 欧美激情三区| 不卡一区2区| 69堂免费精品视频在线播放| 福利精品在线| 亚洲综合日韩| 免费视频一区二区三区在线观看| 中文字幕系列一区| 日韩国产在线观看| 久久久久久色| 国产色播av在线| 视频一区在线播放| 精品国产乱码久久久久久樱花| 国产综合婷婷| 国产精品高清一区二区| japanese国产精品| 国产精品一区二区三区www| 国产亚洲一区二区手机在线观看 | 久久wwww| 亚洲一区二区三区免费在线观看| 欧美激情综合| 尤物在线精品| 麻豆国产精品视频| 美女尤物久久精品| jizzjizz中国精品麻豆| 亚洲天堂免费| 日韩精品永久网址| 91精品日本| 免费国产自久久久久三四区久久| 日本va欧美va精品发布| 欧美一区二区性| 美女久久99| 婷婷精品在线| 欧美日韩国产高清|