據美國趣味科學網站7月12日報道,5月中旬的一個周末,美國加利福尼亞州的伯克利召開了一次秘密的閉門數學會議。30位全世界最著名的數學家來到這里,其中有些人從英國遠道而來。他們在這里與一個“推理”聊天機器人展開對決,后者的任務是解答數學家們為測試其數學能力而設計的問題。
研究人員在兩天時間里向機器人拋出教授級別的問題,然后驚訝地發現,它能夠回答全世界最難解決的一些問題。
弗吉尼亞大學的數學家、此次會議的牽頭人和評委小野健(音)說:“我的同事們確實說,這些模型接近數學天才的水平。”
他討論的聊天機器人由o4-mini——一個所謂的推理大型語言模型(LLM)——提供支持。美國開放人工智能研究中心(OpenAI)對它進行了訓練,使它能夠進行高度復雜的推理。谷歌的同類產品——Gemini 2.5 Flash——也有類似功能。就像為早期版本聊天生成預訓練轉換器(ChatGPT)提供支持的LLM一樣,o4-mini學會了預測序列中的下一個單詞。然而,與早期的LLM相比,o4-mini及其同類模型更輕量,更靈活,可以在專門的數據集上進行訓練,并獲得人類更強的強化。這種方法使得聊天機器人能夠遠比傳統的LLM更深入研究復雜的數學問題。
為了追蹤o4-mini的進展,OpenAI之前委托美國人工智能時代研究所(一家對LLM進行基準測試的非營利組織)提出300道尚未公布答案的數學問題。就連傳統的LLM都能正確回答許多復雜的數學問題。不過,當人工智能時代研究所向幾個這樣的模型提出這些問題(與它們訓練過的問題不同)時,最成功的模型能夠解決的問題不到2%,表明這些LLM缺乏推理能力。但事實會證明,o4-mini完全不同。
人工智能時代研究所于2024年9月聘請剛剛拿到數學博士學位的埃利奧特·格拉澤加入了名為FrontierMath的新基準合作項目。該項目收集了不同難度級別的新問題,前三個級別涵蓋了本科、研究生和研究級別的挑戰。到2025年4月,格拉澤發現o4-mini可以解決大約20%的問題。然后,他進入了第四個級別:一組甚至會對學術數學家構成挑戰的問題。全世界只有一小部分人有能力提出這樣的問題,更不要說回答了。參與的數學家必須簽署一份保密協議,要求他們只能通過即時通訊應用軟件“信號”進行交流。其他聯系方式——比如傳統的電子郵件——可能會被LLM掃描并在無意中訓練它,從而污染數據集。
每提出一個o4-mini解答不了的問題,想出這個問題的數學家就會得到7500美元的獎勵。該小組在尋找問題方面取得了緩慢而穩步的進展。但格拉澤希望加快進度,所以人工智能時代研究所在5月17日和18日舉行了面對面的會議。會上,參與者確定最后一批挑戰問題。30名與會者被分成六人一組。在兩天的時間里,學者們相互競爭,設計出他們自己能夠解決但會讓人工智能推理機器人出錯的問題。
在那個星期六的夜晚結束時,這個機器人出人意料的數學能力阻礙了小組的進展。小野說:“我想出了一個問題,我這個領域的專家會認為這是數論中的開放問題——一個很好的博士級問題。”他要求o4-mini解答這個問題。
在接下來的10分鐘里,小野瞠目結舌地看著機器人實時展示解法,還展示了它的推理過程。機器人先是花了兩分鐘時間查找并掌握該領域的相關文獻。然后,它在屏幕上寫道,它想嘗試解決一個比較簡單的“游戲”版本問題,以便學習。數分鐘后,它寫道,它終于準備好解答比較難的問題了。五分鐘后,o4-mini拿出了正確但俏皮的解法。同時也是人工智能時代研究所的自由數學顧問的小野說:“它開始變得非常厚臉皮。最后,它說:‘不需要引用,因為神秘數字是我算出來的!’”
微信審核 | 陳向陽