久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

首頁 > 汽車報道 > 汽車報道 > MiniMax M1全球技術閉門會實錄:RL、混合架構、長上下文的下一步

MiniMax M1全球技術閉門會實錄:RL、混合架構、長上下文的下一步

發布時間:2025-07-20 18:41:32來源: 13566779980

7月10號,MiniMax面向全球舉辦了M1技術探討會。作為中國團隊,我們很高興組織發起與全球學者的開放技術探討。現場,來自十幾個國家地區的觀眾從世界各地加入,與M1團隊和全球學者進行了技術交流。

M1團隊與來自香港科技大學、滑鐵盧大學、Anthropic、Hugging Face、SGLang、vLLM、RL領域的研究者及業界嘉賓在模型架構創新、RL訓練、長上下文應用等領域探討了當前的前沿話題。嘉賓詳見:

秉承開源精神,我們將本場探討會的技術觀點分享出來,以下是要點總結:

01

RL能否賦予模型新能力?

RL能否提升模型的基礎能力?很多人認為,RL只是在激活模型在預訓練階段就已經學會的一些能力或技巧,不能夠讓模型從根本上學會預訓練階段不存在的新技能,例如有些論文說,RL并不能提高模型的pass@k。

首先需要定義模型的基礎能力。一個比較實用的定義是,對于給定的上下文長度,模型在一組特定問題上,在無限次嘗試下的通過率(pass@k, k→∞)是多少。如果這個通過率等于1,就表示這個模型能解決這類問題。如果通過率等于0,就表示模型解決不了。如果模型的生成長度,即模型思考過程的長度是無限的,RL什么也改變不了。根據定義,如果你有無限的上下文長度,那么所有能用自然語言表述的問題,理論上都可以通過有限次的采樣嘗試來解決。

如果針對一個有限上下文長度,RL是否能賦予模型新能力?答案是:能。因為RL所做的是改變模型輸出的分布。預訓練后,模型可能需要至少10W個token才能解決某個問題,但經過RL微調后,它可能只需要10K個token。如果模型有限上下文長度是50K個token,那么RL的確賦予了模型新能力。

在有限上下文長度下, pass@k 是一個好的衡量指標。K的取值很重要,這取決于如何定義模型能力,如果定義是“模型至少有一次能解決這個問題”,那么應該用盡可能大的k來衡量pass@k;但如果定義是“模型能否在4次嘗試內解決問題”,那應該去衡量 pass@4。

目前 Reward 是RL scaling 的核心瓶頸,特別是如何為那些不基于結果的獎勵(non-outcome-based reward)進行建模,這是全世界都還感到困惑的地方。比如,人類可以從別人寫的一段文字或反饋中獲得正面或負面的感受,但我們目前并沒有很好的方法來對這種主觀感受進行建模。

02

預訓練的價值在于更多樣化的數據分布

如何理解預訓練在RL過程中的角色?如果預訓練在某些技能,如編程或數學,上有所欠缺,后訓練階段僅憑RL能把這塊短板補上嗎?

原則上可以,只要有足夠的信息源,我們就可以用RL來替代任何過程。某種意義上,預訓練只是RL的一種特例。任何監督學習都可以被看作是一種特殊的強化學習。現階段,RL訓練階段的數據分布,要遠比預訓練數據的分布狹窄得多。這正是目前進行預訓練能帶來的最大收益——它讓模型獲得了范圍遠為廣闊的知識。

但在當前階段,預訓練的價值在于,我們可以在預訓練階段接觸到更多樣化的數據分布。因為目前RL訓練數據的質量要求門檻相當高,我們主要知道如何在有限的環境中擴展RL訓練,例如reward被清晰定義的環境。目前RL研究的核心挑戰之一是如何拓展至reward清晰的環境之外。獎勵建模(Reward Modeling)可能是一種解決方案,但更為通用的獎勵信號依然是行業在探索的方向。

03

只在數學和代碼上做RL訓練,更容易產生幻覺

關于通用推理,至少在今年二月左右,大多數RL數據,都來自于數學或編程領域。而事實是,只在數學和代碼上進行RL訓練,模型更容易產生幻覺。在很多事實性基準,比如SimpleQA上的性能會顯著下降,甚至在像MMLU這樣的多學科問答基準上也會下降。

因此我們做通用推理數據集的一個動機,就是為了創建更多樣化的RL訓練數據。WebInstruct-verified旨在為所有領域構建更大規模的RL訓練數據,以便模型能夠在不同領域取得進步,而不僅是數學和編程。

現在我們甚至在嘗試進一步擴大這個規模。之前,通過在預訓練數據集中搜索可用的RL數據來擴大規模,我們成功地把它擴展到了50萬的量級。現在正嘗試通過檢索更大規模的預訓練數據集,從中獲取越來越多樣的RL數據,并采用在mid-training進行RL的范式,而不僅僅是作為后訓練。

04

如何讓模型用圖像思考?

目前很多視覺推理范式,核心大都集中在文本形式的思維鏈上,而視覺部分固化為一個 ViT編碼器,沒法讓模型在編碼圖像上花費更多計算資源。而像 Pixel Reasoner 或其他一些工作,正試圖幫模型重新審視圖像的特定區域,并對其進行重新編碼,從而在關鍵區域上投入更多算力。

但這并不是一個非常本質的提升模型能力的方法,在現階段更像是一個權宜之計。因為現有的視覺編碼器太弱了,無法很好地處理高分辨率圖像,所以才嘗試用zoom-in或其他操作來操縱圖像表示,然后從輸入中重新調用它,并在此基礎上進行推理。在現階段,大多數工具,比如zoom-in、重新調用幀或高亮顯示,實際上都只是在增強感知能力。

也存在一些更復雜的工具,能從根本上改變圖像,比如使用圖像生成技術。這種做法就已經超越了單純增強感知的范疇,比如在幾何問題中畫輔助線。最近還沒太多這方面的成功案例,但如果有人能設法讓這種方法奏效,那它將是“用圖像思考”的一個更強大版本。

我們仍然需要解決根本的瓶頸問題:如何更好地編碼視覺像素,以及如何以更好的方式在潛在空間(latent space)中進行視覺推理——注意,不是在實際的像素空間,而是在抽象的潛在空間。

Latent reasoning可能是一個非常好的機會。很多視覺推理,特別是在機器人或具身智能領域,真的需要在空間中思考。在這些涉及空間感的場景下,文本推理就不是一個好方法,很多推理過程是隱式的,無法被清晰地表述或言語化。

05

當前RL領域最令人興奮的挑戰

RL面臨挑戰之一,是Reward Modeling,特別是如何超越那些結果容易被評估的環境。這將會極大地擴展RL應用場景。

另一個可能很重要的領域是多智能體。不過,多智能體目前更多受限于基礎設施,而非理論研究。對我來說,用一個中央模型調用子智能體和調用工具是同一回事,沒有區別。當我說“多智能體”時,腦海中想的更多的是一個包含多個AI模型、并且它們在訓練過程中相互交互的環境。

還有一個令人興奮的領域就是AI自動化研究——讓模型自己訓練自己。這其實一直以來都與AGI的定義相關:當模型可以在沒有人類干預的情況下,自我訓練并自我提升。

還有剛剛提到的,非Token空間的推理,那里也存在著機會。

06

長上下文是Agent的Game changer

長上下文在Agent工作流中有巨大潛力。我們另一個客戶正在構建復雜的智能體系統,長上下文窗口對他們來說是真正的game-changer。Agent完成某個任務時,能夠將整個代碼庫、API參考文檔、歷史交互數據等等,全部一次性喂給它。這種任務你不能分幾次調用來處理,因為當你讓智能體完成任務時,它掌握的關于這個項目的信息越多,產出的質量就越高。

我們有望從目前在大多數情況下,只能處理相當孤立任務的智能體,發展到那些能夠管理復雜項目同時保持完整上下文感知的智能體。

對于Nebuis的客戶,M1這樣上下文模型的真正價值在于解鎖了全新的企業級應用場景。這些場景以前用分塊處理策略來解決,非常繁瑣,甚至幾乎不可能。

例如,一個法律行業客戶需要把文件一塊一塊地喂給大語言模型,并用一些竅門來優化檢索和上下文管理。這樣問題在于,可能錯過埋藏在某個隨機法律文件某一頁中的關鍵細節。而有了1M token的上下文窗口,就可以一次性處理整個案件歷史、所有相關判例以及所有其他信息源,這無疑能提升了服務質量。

Writer是一家服務于全球企業級客戶的公司,長上下文模型在企業級應用需求非常廣泛。它被應用得最多的領域之一是法律合規分析。比如,分析冗長的合同、電子健康記錄或公司年報,從中提取關鍵條款、識別風險,然后附上引文進行總結,需要非常巨大的上下文窗口。另一個領域是客戶研究洞察。比如,總結大量的調查問卷回復或研究論文,以發現其中的主題,并提取一些見解。

長上下文模型也被大量用于收入與報告相關的業務。比如,錄入大量的項目招標書,從Salesforce中拉取數據,然后自動起草第一版的回應;或者處理一些基金報告,這需要將內部研究與第三方市場數據結合起來。還有技術支持與知識管理領域。這是每個開發者的負擔——對工單進行分類,更新內容管理系統,或者為已有的工作流發布內容。要讓智能體在這個領域里運作,就需要長上下文能力。

07

混合架構將成為主流

對比純線性注意力和Full Attention,混合注意力機制(Hybrid Attention)無疑是最有前景的方案。純線性注意力機制有很多根本性局限,因為它的狀態大小是固定的,因此,在處理長序列建模問題時表現不佳。而Full Attention雖然提供了靈活性,但其代價也顯而易見:KV緩存大小會隨著序列長度線性增長,并且訓練復雜度也是平方級的。當序列不斷變長時,高昂的推理和訓練復雜度就會成為瓶頸。將這兩種機制結合起來,也就顯得順理成章,混合模型(Hybrid Model)就應運而生了。

混合架構將會成為模型設計的主流,因為隨著對大規模部署和低延遲需求的增長,人們會越來越關心推理效率和模型的推理能力。MiniMax的模型也證明了這一點。至于如何進一步拓展混合注意力架構的空間,未來的研究者需要思考,不能只是簡單地用固定的比例來交錯堆疊Softmax注意力和線性注意力層,也許需要更多樣的混合架構形式。

脫離硬件的純粹算法研究,正逐漸失去關注度,尤其是在LLM領域。如果一項技術無法規模化,或者不能被高效地部署,那它就很難獲得關注、形成勢能。一個算法不僅要在理論上站得住腳,還必須在硬件上——尤其是在GPU或TPU這類加速器上高效運行。如今的算法研究者們已經,并且也應當熟悉基本的硬件原理,比如內存層級(memory hierarchy)、并行計算(parallelism)、共享內存(shared memory)等等。他們還應該去掌握一些底層的GPU編程工具,比如 Triton。這才是當今在LLM領域做算法研究的正確方向。

混合架構目前的瓶頸在于基礎設施。混合模型的有效性在去年就已經得到了很好的驗證,但沒有公司投入更多資金進行大規模驗證,直到 MiniMax 發布了他們的大模型 MiniMax Text-01,人們才意識到混合模型原來有這么大的潛力。當前算法層面已經趨于穩定了,我們應該專注于為這些新機制構建好的基礎設施。

08

混合架構推理的前沿實踐

在推理層面,隨著混合注意力架構越來越流行,為了在SGLang或其他推理引擎中充分利用緩存感知和緩存復用等特性,我們需要為普通架構和混合架構設計一個統一的抽象層,這樣才能簡單地將所有優化應用到混合模型上。

此外當前MiniMax模型這種7+1層交錯的架構可能會帶來一些工程挑戰,特別是在用計算圖優化(Graph Optimization)進行部署時,因為不同層的計算和內存訪問模式是不同的,這會導致GPU利用率不平衡。可能需要用一些技術來解決它,比如批處理重疊(batch overlapping)或者更先進的pipline策略。

從支持混合架構的技術層面來說,首先需要一個混合分配器(hybrid allocator),這個功能在vLLM中已經有了。它有助于管理混合架構的KV緩存——盡管對于某些部分我們不稱其為KV緩存,但混合架構中仍然存在某種形式的狀態。這些狀態的生命周期與全注意力層的KV緩存并不同步,所以需要設計如何讓它與現有的緩存機制、預填充、解碼等環節協同工作。

其次,批處理重疊(batch overlapping)會很有幫助。采用了混合架構后,有些層是full attention,有些層只是簡單的線性注意力,這就存在計算不平衡。如果按順序計算,那么在計算線性注意力層時,計算資源可能就未被充分利用。但如果能將兩個微批次(micro-batches)重疊起來處理,只要比例計算得當,理論上任意時刻都會有一個微批次在執行計算密集型的full attention 操作,從而最大化GPU利用率。

從生產部署的角度來看,混合架構的推理速度對現實應用至關重要。例如,有一個客戶,需要并發處理多個幾十萬token的請求。但對于使用二次方復雜度注意力的傳統模型,在這種輸入大小和并發量下,生成速度都會變得極慢。用 DeepSeeker-R1,在8個并發請求、每個請求10萬token的情況下,平均要等待大約1分鐘才能得到首個token。而用MiniMax的模型,大約是4到5秒,數字小了一個量級。這個速度完全可以接受,并且也為在生產負載下,用如此大的上下文進行在線應用解鎖了可能性。

09

M1背后的Q&A

Q:混合線性注意力會如何影響使用RL的推理模型的性能?

A:在訓練過程中當我們擴展到可處理數萬 token 上下文長度的模型時,遇到了重大問題:RL訓練停滯不前,獎勵信號在僅幾百步后就不再增長。研究后,我們發現問題在于,線性注意力架構在這種規模下固有的訓練不穩定性。這導致了一些問題,比如某些層激活值爆炸等,并使模型在訓練和推理時的行為出現了嚴重錯位。識別并修復了這個 bug 之后,我們才成功地使用RL訓練該模型。

這個問題,也使得我們發現混合線性注意力的一個根本性權衡:它效率極高,單位 token 的計算成本非常低,但通常需要生成更多的 token(即更長的推理路徑)才能達到與 full attention 模型相同的性能。然而,我們的工作證明了,通過適當規模的RL以及合適的推理時算力,混合注意力模型確實能媲美full attention架構性能

這對未來架構設計的一個關鍵啟示,是評估方法的重要性。為了公平地比較混合模型與其他模型,我們應該基于在給定任務下、固定總計算預算內的性能來進行評估,而不僅僅是比較固定輸出長度下的效果。這提供了一個更全面、更能反映模型真實效率和能力的視角。

Q:推理模型是否已經具備了System 2推理和自我反思能力?

A:System 2推理和自我反思,可以被理解為從大語言模型基本原理中涌現出的、可被觀測的模式。

首先其核心驅動力,是有效利用更大的計算資源,即更長的輸出,來獲得更好性能的能力。我們觀察到的高級推理能力,是擴展這些資源后的直接結果,而非其根本原因。本質上,為模型提供更多的計算能力去“思考”,使得這些復雜的模式得以涌現。

其次,這種高級推理可以被看作是一種自動化的Prompt Engineering。對于數學或編程等復雜任務,模型學會了生成自己的內部思考過程,這實際上取代了人類提供詳盡、分步式指令的需要。

對于寫作等任務,模型在思考過程中會先對問題進行分析,并對寫作步驟進行專業化拆解。它會獨立地執行諸如規劃和對問題進行更深層次分析等操作。這使得模型能夠通過創建詳細推理路徑來“像專家一樣思考”。

因此 System2 推理和自我反思,實質上是如何高效地利用并擴展計算預算(computation budget),同時也是模型自動深化用戶問題的體現

自創立以來,MiniMax 即以“與所有人共創智能”為使命,致力于推動人工智能科技前沿發展,實現通用人工智能(AGI)。我們將繼續堅持做上限更高的事,堅持底層架構和算法創新,與合作伙伴一起為全球開源社區持續貢獻。

汽車報道更多>>

太接地氣!廣汽科技日,完美戳中普通用戶的“心坎點”! 專訪李斌、秦力洪:蔚來憑什么敢說“請忘記MPV”? 試駕就送真金!長安馬自達EZ-60這波春日福利,殺瘋了! 合資2.0首款力作落地,上汽大眾ID. ERA 9X有底氣細分市場前三 48.41%熱效率全球第一,吉利i-HEV智擎混動到底憑什么 拒絕做“平替”!蔚來ES9期待一場光明正大的勝利 換塊電池比車還貴,新能源車主的“斬殺線”到了 小型SUV銷量榜 僅兩款銷量過萬 零跑A10第四 城配老司機看過來,6.98萬買一臺會算賬的輕客?2026款五菱揚光上市! 對話元戎啟行CEO周光:Robotaxi模型運營能力缺一不可,L4或加速到來 小鵬MONA L03要來了!外形爭議挺大,定位15萬級又能大賣? 2026年3月純電動新車5款,插混有2款,增程式4款新品,燃油車新品缺損,這是行業發展巨大的隱憂 納智捷、眾泰曾是“優等生”?J.D. Power榜單排位之謎 寶馬公布北京車展強大陣容,全新7系、新世代iX3/i3長軸版等16款車型首次登場! 領克10+&10:當運動不止于燃油,純電也能“攻山屠榜” 拒絕充電焦慮!樂道L90 900V快充+換電,硬鋼400V架構的Model Y L 37分鐘大定過萬!小鵬銷量神車改款11.98萬起,第二代VLA也加上了 領克品牌官方發布全新中型旅行轎車領克07GT的路試諜照,計劃2026年內正式發布上市 比亞迪2026款海豹06GT/DM-i旅行版雙車齊發,售價11.19萬-16.99萬元 2026款海豹07EV怎么樣?底盤、充電和輔助駕駛分析 北汽新能源一季度銷量41166輛,同比增長超40%,享界SUV/MPV來襲 螢火蟲泰國上市,限定皮膚,約合人民幣16.92萬元 雙豹進階,定義新主流!比亞迪海洋網雙車上市 全新速騰S上市:當“國民家轎標桿”把價格打進8萬區間,會發生什么? 第二代刀片電池及閃充技術上車,比亞迪宋Ultra EV閃耀重慶方圓LIVE “全能滿配”瑞風RF8悅享系列,擊穿20萬級MPV壁壘! 第五代宏光 MINIEV 正式上市,補貼后 4.28 萬起解鎖四門玩趣代步新體驗 長城汽車最大的資產,是年報里“藏不住”的信任感 零跑汽車以一場主題為“一路都很靈”的全球發布會,正式推出了全新A平臺首款全球化車型—零跑A10 雷克薩斯的電動化,從來不是臨時起意,而是厚積薄發后的戰略提速
久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区
欧美日本久久| 亚洲成av人片一区二区密柚| 伊伊综合在线| 精品视频自拍| 国产精品久久久免费| 国产欧美一区二区三区精品观看| 国产农村妇女精品一区二区| 蜜桃tv一区二区三区| 欧美日韩一区二区综合 | 久久国产三级| 欧美日韩精品一区二区三区视频 | 亚洲精品精选| 亚洲欧美日本国产| 日本免费新一区视频| 国产欧美一区二区三区国产幕精品| 欧美日韩精品一区二区三区视频| 久久国际精品| 久久国产三级精品| 久久影院午夜精品| 久久xxxx精品视频| 国产亚洲电影| 精品国内亚洲2022精品成人| 久久精品国产网站| 久久久人人人| 久久99国产精品视频| 国产精品97| 91精品国产一区二区在线观看| 美女精品一区二区| 欧美日韩精品一本二本三本| 亚洲精品系列| 成人羞羞视频播放网站| 中文字幕乱码亚洲无线精品一区| 日韩欧美中文字幕在线视频| 精品视频在线观看网站| 免费看日韩精品| 色综合狠狠操| 97久久亚洲| 偷拍欧美精品| 91日韩在线| 国产精品日韩精品在线播放| 欧美高清一区| 国产色播av在线| 欧美日韩91| 国产综合婷婷| 日韩在线视频精品| 国产精品最新自拍| 先锋亚洲精品| 精品一级视频| 欧美亚洲免费| 日韩不卡一二三区| 9色精品在线| 久久蜜桃av| 色网在线免费观看| 久久只有精品| 国产欧美日韩影院| 日韩一区免费| 蜜桃视频免费观看一区| 欧美成人高清| 欧美一区二区性| 久久国产免费| 伊人久久大香线蕉av不卡| 欧美好骚综合网| 老牛国内精品亚洲成av人片 | 精品欧美日韩精品| 国产精品久久久免费| 久久精品97| 欧美国产先锋| 国产不卡av一区二区| 国产一区二区色噜噜| 国产一区二区三区探花| 首页国产精品| 色天使综合视频| 一级欧洲+日本+国产| 99亚洲视频| 日韩中出av| 日韩高清成人在线| 日韩高清国产一区在线| 国产精品一页| 日韩激情一区| 国产高潮在线| 免费福利视频一区二区三区| 日韩精品1区| 免费中文字幕日韩欧美| 日本中文字幕一区二区视频| 久久国产精品免费一区二区三区| 日本不卡视频在线观看| 麻豆91精品91久久久的内涵| 亚洲91视频| 国产精品v一区二区三区| 亚洲精品动态| 视频一区中文| 麻豆国产精品视频| 黄色成人91| 麻豆精品在线视频| 久久福利精品| 中文字幕在线官网| 日韩欧美2区| 亚洲免费成人| 四季av一区二区凹凸精品| 亚洲免费中文| 999国产精品999久久久久久| 日韩精选在线| 日韩亚洲国产欧美| 91亚洲国产成人久久精品| 欧美一区免费| 国产夫妻在线| 日韩免费一区| 亚洲v在线看| 国产精品试看| 久久精品系列| 免费高潮视频95在线观看网站| 欧美日韩激情在线一区二区三区| 伊人久久成人| 日韩高清三区| 欧美中文一区二区| 免费av一区| 婷婷视频一区二区三区| 久久激情中文| 香蕉成人av| 亚洲深夜av| 亚洲综合国产| 亚洲精品动态| 久久av影院| 国产精品毛片一区二区三区| 国产福利亚洲| 欧美/亚洲一区| 欧美久久香蕉| 久久中文欧美| 日本蜜桃在线观看视频| 久久不射网站| 欧美韩日一区| 日韩欧美中文字幕电影| 精品国产午夜| 视频一区欧美精品| 欧美亚洲色图校园春色| 91看片一区| 国产探花一区二区| 日韩午夜精品| 99成人超碰| www成人在线视频| 视频一区欧美日韩| 国产精品第一| 美女久久网站| 欧美日韩一二三四| 国产精品久久久久蜜臀| 日本综合精品一区| 国产另类在线| 亚洲高清毛片| 成人国产精品一区二区网站| 亚洲婷婷丁香| 亚洲无线观看| 久久亚洲欧洲| 日韩综合一区| 成人一区不卡| 蜜桃精品视频| 国产精品高潮呻吟久久久久| 国产精品久久久久久久久久妞妞 | 欧美日韩一二| 免费精品视频在线| 久久影院一区| 在线一区视频观看| 国产主播一区| 日韩欧美二区| 涩涩涩久久久成人精品| 久久网站免费观看| 日韩欧美综合| 亚洲天堂一区二区| 久久久久久免费视频| 99成人在线| 国产一区二区三区天码| 精品久久亚洲| 欧美亚洲免费| 久久av影院| 免费一级欧美在线观看视频| 国产成人免费精品| 免费在线观看成人| 丝袜亚洲另类欧美| 国产调教精品| 久久精品主播| 国产一区清纯| 成人日韩av| 亚洲播播91| 免费观看日韩电影| 国产精品蜜月aⅴ在线| 欧美a级一区二区| 99视频一区| 欧美久久久网站| 成人欧美一区二区三区的电影| 亚洲精品**中文毛片| 久久一区二区三区喷水| 欧美a在线观看| 国产毛片久久久| 成人国产精品久久| 蜜臀av一区二区在线免费观看| 亚洲精品欧美| 亚洲无线一线二线三线区别av| 蜜桃伊人久久| 91亚洲一区| 日本不卡一区二区三区| 欧美精选一区二区三区|