国产精品久久久久久久久久10秀,亚洲91网站,精品视频黄色

據美國趣味科學網站7月12日報道，5月中旬的一個周末，美國加利福尼亞州的伯克利召開了一次秘密的閉門數學會議。30位全世界最著名的數學家來到這里，其中有些人從英國遠道而來。他們在這里與一個“推理”聊天機器人展開對決，后者的任務是解答數學家們為測試其數學能力而設計的問題。

研究人員在兩天時間里向機器人拋出教授級別的問題，然后驚訝地發現，它能夠回答全世界最難解決的一些問題。

弗吉尼亞大學的數學家、此次會議的牽頭人和評委小野健(音)說：“我的同事們確實說，這些模型接近數學天才的水平。”

他討論的聊天機器人由o4-mini——一個所謂的推理大型語言模型(LLM)——提供支持。美國開放人工智能研究中心(OpenAI)對它進行了訓練，使它能夠進行高度復雜的推理。谷歌的同類產品——Gemini 2.5 Flash——也有類似功能。就像為早期版本聊天生成預訓練轉換器(ChatGPT)提供支持的LLM一樣，o4-mini學會了預測序列中的下一個單詞。然而，與早期的LLM相比，o4-mini及其同類模型更輕量，更靈活，可以在專門的數據集上進行訓練，并獲得人類更強的強化。這種方法使得聊天機器人能夠遠比傳統的LLM更深入研究復雜的數學問題。

為了追蹤o4-mini的進展，OpenAI之前委托美國人工智能時代研究所(一家對LLM進行基準測試的非營利組織)提出300道尚未公布答案的數學問題。就連傳統的LLM都能正確回答許多復雜的數學問題。不過，當人工智能時代研究所向幾個這樣的模型提出這些問題(與它們訓練過的問題不同)時，最成功的模型能夠解決的問題不到2%，表明這些LLM缺乏推理能力。但事實會證明，o4-mini完全不同。

人工智能時代研究所于2024年9月聘請剛剛拿到數學博士學位的埃利奧特·格拉澤加入了名為FrontierMath的新基準合作項目。該項目收集了不同難度級別的新問題，前三個級別涵蓋了本科、研究生和研究級別的挑戰。到2025年4月，格拉澤發現o4-mini可以解決大約20%的問題。然后，他進入了第四個級別：一組甚至會對學術數學家構成挑戰的問題。全世界只有一小部分人有能力提出這樣的問題，更不要說回答了。參與的數學家必須簽署一份保密協議，要求他們只能通過即時通訊應用軟件“信號”進行交流。其他聯系方式——比如傳統的電子郵件——可能會被LLM掃描并在無意中訓練它，從而污染數據集。

每提出一個o4-mini解答不了的問題，想出這個問題的數學家就會得到7500美元的獎勵。該小組在尋找問題方面取得了緩慢而穩步的進展。但格拉澤希望加快進度，所以人工智能時代研究所在5月17日和18日舉行了面對面的會議。會上，參與者確定最后一批挑戰問題。30名與會者被分成六人一組。在兩天的時間里，學者們相互競爭，設計出他們自己能夠解決但會讓人工智能推理機器人出錯的問題。

在那個星期六的夜晚結束時，這個機器人出人意料的數學能力阻礙了小組的進展。小野說：“我想出了一個問題，我這個領域的專家會認為這是數論中的開放問題——一個很好的博士級問題。”他要求o4-mini解答這個問題。

在接下來的10分鐘里，小野瞠目結舌地看著機器人實時展示解法，還展示了它的推理過程。機器人先是花了兩分鐘時間查找并掌握該領域的相關文獻。然后，它在屏幕上寫道，它想嘗試解決一個比較簡單的“游戲”版本問題，以便學習。數分鐘后，它寫道，它終于準備好解答比較難的問題了。五分鐘后，o4-mini拿出了正確但俏皮的解法。同時也是人工智能時代研究所的自由數學顧問的小野說：“它開始變得非常厚臉皮。最后，它說：‘不需要引用，因為神秘數字是我算出來的！’”

微信審核 | 陳向陽

久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

到2025年4月，格拉澤發現o4-mini可以解決大約20%的問題

汽車報道更多>>