久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区

首頁 > 汽車報道 > 汽車報道 > 用開源技術不丟人,前提是企業不要宣傳是自研

用開源技術不丟人,前提是企業不要宣傳是自研

發布時間:2025-07-14 23:34:59來源: 13566779980

回溯三年前,在ChatGPT剛剛開啟大模型航海時代時,那時候的套殼還停留在小作坊山寨ChatGPT的階段。調用ChatGPT的API,接口再包上一層“中文UI”,就能在微信群里按調用次數賣會員。那一年,套殼成了很多人通往AI財富故事的第一張船票。

同時,開始自主研發大模型的公司里,也不乏對ChatGPT的借力。這些企業雖然有著自研的模型架構,但在微調階段或多或少利用了ChatGPT或GPT-4等對話模型生成的數據來做微調。這些合成語料,既保證了數據的多樣性,又是經過OpenAI對齊后的高質量數據。借力ChatGPT可以說是行業內公開的秘密。

從2023年開始,大模型賽道進入開源時代,借助開源框架進行模型訓練,成為了很多創業團隊的選擇。越來越多的團隊公開自己的研究成果,推動技術的交流與迭代,也讓套殼開發成為了更普遍的行為。隨意之而的,爭議性的套殼事件也逐漸增多,各種涉嫌套殼的事件屢次沖上熱搜,隨后又被相關方解釋澄清。

國內大模型行業也在“套”與“被套”中,輪番向前發展著。

01

GPT火爆的那一年:山寨API和造數據

回顧AI的進化史,今天我們看到各類大模型都源自同一個鼻祖——2017年Google Brain團隊發布的Transformer神經網絡架構。Transformer的原始架構和核心包括編碼器(Encoder)與解碼器(Decoder),其中,編碼器負責理解輸入文本,解碼器負責生成輸出文本。

如今,在大型語言模型領域依然采用三大主流Transformer架構:Decoderonly(如GPT系列)、EncoderDecoder(如T5)和Encoderonly(如BERT)。不過,最受關注和應用最廣泛的,是以Decoderonly為核心的GPT式架構,并不斷衍生出各種變體。

2022年11月,基于GPT3.5,OpenAI推出ChatGPT,發布后短時間內獲取數千萬用戶,讓LLM正式登上公眾舞臺,也將GPT架構推為主流AI架構。隨著ChatGPT打響大模型時代第一槍,各大廠商紛紛涌入大模型研發賽道。由于ChatGPT無法直接接入國內用戶,一些小作坊也看到了套殼的牟利前景。

2022年底開始,許多山寨ChatGPT在互聯網上涌現,此時的套殼基本不涉及任何二次開發,很多開發者直接包裝一下API就拿出來賣錢。

2022年底至2023年,國內涌現數百個ChatGPT鏡像站,包括名噪一時的“ChatGPT在線”公眾號,運營者拿到OpenAI API,再在前端加價售賣。這種低劣的套殼手段很快就被監管部門發現,“ChatGPT在線”背后的上海熵云網絡科技有限公司,就因涉嫌仿冒ChatGPT被罰6萬元,成為首例“ChatGPT套殼”行政處罰。

另一方面,在同期發布的其他模型中,時常出現一些“GPT味”的回復,這些模型背后的企業也遭受了套殼質疑。

2023年5月,曾有網友發現,訊飛星火大模型在有些問答中會出現“我是由OpenAI開發的”等內容,由此一則關于“訊飛星火大模型被質疑‘套殼ChatGPT’”的消息傳播開來。

這種情況并非個例,甚至2024年發布的DeepSeek V3也曾暴雷,有用戶反映其在測試中出現異常,模型自稱是OpenAI的ChatGPT。相關企業對這類情況的解釋為,這可能是由于訓練數據中混入了大量ChatGPT生成的內容,導致模型“身份混淆”。

互聯網公開信息中AI內容日漸增多造成的數據污染,確實是可能造成這些“GPT味”對話的原因。但另一種可能是,模型研發團隊在微調訓練過程中,主動使用了通過ChatGPT等OpenAI旗下模型構造的數據集,也就是所謂的“數據蒸餾”。

數據蒸餾是大模型訓練中一種高效低成本的知識遷移方式,這里的邏輯就像是用一個強大的“老師模型”(如GPT-4)生成大量高質量問答數據,而后將這些數據喂給一個“學生模型”去學習。

事實上,在GPT -3之后,OpenAI就徹底轉向了閉源,所以對于想要自研大模型的競爭對手而言,并無法在基礎架構層面套殼OpenAI的產品。這些企業或多或少也在模型技術上有一定積累,在架構層面紛紛推出自家的研究成果,但如果想要保證訓練質量,從更強的模型產品那里以借力的方式獲取數據無疑是一種捷徑。

雖然借力ChatGPT/GPT-4生成訓練數據是業內公開的秘密,但一直以來鮮有被披露的案例,直到那起著名的“字節抄作業”事件。2023年12月,外媒The Verge報道稱,字節跳動利用微軟的OpenAI API賬戶生成數據來訓練自己的人工智能模型,這種行為實際上已經違反了微軟和OpenAI的使用條款。在此消息被披露不久,據傳OpenAI暫停了字節跳動的賬戶。

字節跳動方面隨后表示,這一事件是技術團隊在進行早期模型探索時,有部分工程師將GPT的API服務應用于實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。按照字節跳動的說法,其對于OpenAI模型的使用是在使用條例發布之前。

對此,來自國內某頭部AI企業算法部門的葉知秋向直面AI(ID:faceaibangg)表示,業內的普遍認知是,數據蒸餾不應該被認為是套殼。“數據蒸餾只是一個手段,通過一個能力足夠強的模型產出數據,對于垂直領域(的另一個模型)去做加訓。”

加訓(Continual Training)是一種常見的提升模型性能的方法。通過在新數據上繼續訓練模型,可以使其更好地適應新的任務和領域。“如果利用數據蒸餾做加訓算套殼,那這個技術就不該被允許。”葉知秋解釋道。

2025年的今天,大模型開發市場日漸成熟,直接調用API“山寨套殼”的模型產品已逐漸消失。在應用層面,隨著AI Agent領域的快速迭代,調用API落地的AI工具已經成為常態,如Manus這類通用AI Agent逐步進入市場,AI應用層面的套殼已經成為了一種常見的技術手段。

而在大模型開發領域,隨著開源時代的到來,模型開發領域的套殼,又陷入了新一輪的爭論。

02

開源大模型時代:你用我用大家用

進入2023年,許多廠商選擇開源方式公布模型方案,用以刺激開發者群體對模型/模型應用的迭代。隨著Meta在2023年7月開源LLaMA 2,標志著AI行業也進入開源時代。在這之后,先后有十余款國產模型通過微調LLaMA 2完成上線。同時,利用開源模型架構進行二次開發,也成為了新的套殼爭議點。

2023年7月,百川智能CEO王小川回應了外界對旗下開源模型Baichuan-7B套殼LLaMA的質疑。他提到,LLaMA 2技術報告里大概有9個技術創新點,其中有6個在百川智能正在研發的模型里已經做到。“在跟LLaMA 2對比的時候,我們在技術的思考里不是簡單的抄襲借鑒,我們是有自己的思考的。”

就在幾個月后,國內AI圈迎來了另一場更洶涌的套殼風波。2023年11月,原阿里技術副總裁、深度學習框架Caffe發明者賈揚清在朋友圈中稱,某家套殼模型的做法是“把代碼里面的名字從LLaMA改成了他們的名字,然后換了幾個變量名。”事后證實,該信息直指零一萬物旗下的Yi-34B模型,開源時代的套殼爭議被搬到臺面上。

一時間,關于零一萬物是否違反了LLaMA的開源協議,在各大技術社區引發了激烈的爭論。隨后,Hugging Face工程師Arthur Zucker下場對這一事件發表了看法。他認為,LLaMA的開源協議主要限制了模型權重,而不是模型架構,所以零一萬物的Yi-34B并未違反開源協議。

事實上,利用開源模型架構只是打造新模型的第一步,零一萬物在對Yi-34B訓練過程的說明中也作出了解釋:模型訓練過程好比做菜,架構只是決定了做菜的原材料和大致步驟……其投注了大部分精力在訓練方法、數據配比、數據工程、細節參數、baby sitting(訓練過程監測)技巧等方面的調整。

對于AI行業而言,推動技術開源化的意義之一是停止“重復造輪子”。從零研發一款全新的模型架構,并跑通預訓練流程需要耗費大量成本,頭部企業開源可以減少資源浪費,新入局的團隊通過套殼得以快速投入到模型技術迭代和應用場景中。百度CEO李彥宏就曾表示:“重新做一個ChatGPT沒有多大意義。基于語言大模型開發應用機會很大,但沒有必要再重新發明一遍輪子。”

2023–2024年,AI行業掀起一場“百模大戰”,其中的國產大模型大約10%的模型是基座模型,90%的模型是在開源模型基礎上加入特定數據集做微調的行業模型、垂直模型。套殼幫助大量中小團隊站在巨人的肩膀上,專注于特定領域的工程化和應用探索。

如今,在Hugging Face上按“熱度”排序檢索,以文本模型為例,DeepSeek R1/V3、LLaMA3.2/3.3、Qwen2.5以及來自法國的Mistral系列模型均位居前列,這些開源模型的下載量在幾十萬到上百萬不等。這表明開源極大地促進了行業的進化。目前,Hugging Face平臺上共有超過150萬個模型,其中絕大多數是用戶基于開源架構的衍生產物——sft微調版本、LoRA微調版本等。

另一方面,隨著LoRA與QLoRA等輕量化微調方案面世,定向微調模型的成本也在不斷下降,為中小型團隊進行模型開發提供了有利基礎。麥肯錫在今年5月的一份調查顯示,92%的企業借助對開源大模型的微調提高了24%–37%的業務效率。

2023年以來,模型開發門檻因開源不斷降低,在迎來百模齊放的良好生態之余,也浮現出一些渾水摸魚的惡劣套殼行為。

2024年5月,斯坦福大學的一個研究團隊發布了一個名為LLaMA3V的模型,號稱只要500美元(約人民幣3650元)就能訓練出一個SOTA多模態模型,效果比肩GPT-4V。

但隨后有網友發現,LLaMA3V與中國企業面壁智能在當月發布的8B多模態開源小模型MiniCPM-LLaMA3-V 2.59(面壁小鋼炮)高度重合。在實錘套殼抄襲后,該團隊隨后刪庫跑路。該事件一方面反映出,國產模型憑借其優異性能也成為了被套殼的對象;同時,也再一次引發了業界對開源時代套殼合規邊界的思考。

對于AI行業而言,廠商通過開源以協作的方式可以對模型進行完善與優化,加速推動問題解決與技術創新。由于協作的工作模式和開放的源代碼,開源大模型的代碼具有更高的透明度,并且在社區的監督下,公開透明的代碼能更容易進行勘誤。

“透明度”是促進開源社區交流進步的關鍵,而這需要二次開發的團隊和所有從業者共同維系。在LLaMA3V的案例中,斯坦福方面的研究團隊只是對MiniCPM-LLaMA3-V 2.59進行了一些重新格式化,并把圖像切片、分詞器、重采樣器等變量重命名。

原封不動地拿過來,并且作為自己的學術成果發布,相比起套殼,這更像是徹頭徹尾的抄襲。

所以,套殼的道德邊界,究竟是什么呢?

03

“套殼”和“自研”的矛盾體

“如果一個團隊沒有以原生模型的名義發表,就不能叫套殼,應該叫模型的再應用。”談及套殼的定義,葉知秋這樣說道。在加入大廠項目之前,葉知秋曾參與過一些創業公司的開源項目。他判斷,業內有實力造基礎模型的企業只會越來越少,加速利用開源技術是行業發展的必然,“畢竟核心技術上,只有那幾家公司有。”

葉知秋口中的“核心技術”,指的是從零研發模型基礎架構,并落實預訓練流程的能力。相關報道顯示,國內目前有完整自研預訓練框架的大模型公司數量較少,僅有 5家左右。能“造輪”的企業屈指可數,對此葉知秋的解釋是:“一些企業也有實力投入基礎模型研究,但他們要考慮做這件事的收益。”

“演化和加訓,嚴格來說和套殼是兩碼事。”葉知秋表示,像LLaMA這樣開源架構已經為業內熟知且熟用,很多成果都是在這一架構的基礎上演化而來的。但同時他也強調,套殼合規與否在于冠名問題,利用開源技術就需要在技術文檔中做出明確說明,“如果你是在一個已經開源的模型上進行加訓,那就要在冠名和文檔中體現這一點。”

對于如何理解大模型非法套殼,知識產權法領域的法律界人士秦朝向直面AI分享了他的看法。他表示,一些惡劣的“套殼”行為雖然在社會輿論上引發很多反響,在法律視角上卻是另一回事。如何區分套殼和抄襲的界限、如何證明因為套殼行為導致了不當獲利、如何證明具體的獲利額度,這些問題都存在著一定的舉證難度。“目前來說,這一類事情還處于一個灰色地帶。”

秦朝進一步解釋,所謂“借鑒”就是很難區分性質的套殼,一些開發者可能“借鑒”了不止一家企業,然后宣稱是自研產品。除非是簡單粗暴的純套殼,不然很難去界定這一行為的惡劣程度。“而且大模型賽道發展速度極快,走法律流程下來可能要兩三年,到那時技術都更新換代了。”

在技術圈語境下,自研是套殼的反義詞。在葉知秋看來,如果一個模型團隊宣稱自己是全程端到端自研,勢必會吸引業內同行審視的目光,未公開的套殼行為很難真正被掩蓋。“一個開源的模型,其實一切信息都有跡可循,就是看業內人去不去挖掘而已。”

葉知秋進一步解釋道,模型原研廠商都會在大模型組件中留下一些“標簽”,當研發團隊在發布論文時,這些“標簽”就會被用以證明其采用了創新技術。因為一旦團隊宣稱這款模型是自研,那就需要說明,這款新的模型基于傳統模型有什么不一樣的地方。“如果沒有,那大家必然會問,你的模型的架構是從哪來的?”

對于一些企業而言,套殼和自研的取舍,也往往伴隨著成果產出的壓力。另一位資深算法從業者向直面AI表示,借鑒架構/方案在業內并不稀奇,因為很多團隊需要盡快解決0到1的問題。“在保留技術底線基礎上,能有成果產出是最重要的。”

針對這一現象,葉知秋表示,一些頭部企業雖然在其他領域實力雄厚,但在模型領域,可能在底層的訓練邏輯上缺少經驗和積累。對這些企業而言,充分利用開源技術套殼,可以更快完成從數據層面到模型層面的積淀。“像一些企業在某一領域的‘垂類’大模型,其實都有‘套殼’的成分在。”

“通過‘套殼’去做自己的開發,還是非常低成本高價值的。”作為從業者,葉知秋十分肯定開源為行業帶來的積極影響。他認為,長期來看,單一企業很難在模型能力上建立壁壘,開源有助于整個行業的進步,實現更高的效率、更低的成本,去打造更多的模型能力。

關于開源時代的套殼爭議,葉知秋表示,這些爭議本質上還是跟企業的宣傳口徑有關,“用開源技術不丟人,前提是企業不要宣傳是自研。”

汽車報道更多>>

試駕鄭州日產Frontier Pro雙車:L2智駕加持 插混皮卡解鎖全場景實用新體驗 當汽車遇見山河:問界M9三款新色斬獲文旅認證 比亞迪海獅05EV:充電快了,動力強了,續航長了 魏牌V9X預售:歸元S平臺首款旗艦,預售37.18萬起 2026年一季度汽車出口暴增56.7%:為何國內價格戰還在升級內卷! 太接地氣!廣汽科技日,完美戳中普通用戶的“心坎點”! 專訪李斌、秦力洪:蔚來憑什么敢說“請忘記MPV”? 試駕就送真金!長安馬自達EZ-60這波春日福利,殺瘋了! 合資2.0首款力作落地,上汽大眾ID. ERA 9X有底氣細分市場前三 48.41%熱效率全球第一,吉利i-HEV智擎混動到底憑什么 拒絕做“平替”!蔚來ES9期待一場光明正大的勝利 換塊電池比車還貴,新能源車主的“斬殺線”到了 小型SUV銷量榜 僅兩款銷量過萬 零跑A10第四 城配老司機看過來,6.98萬買一臺會算賬的輕客?2026款五菱揚光上市! 對話元戎啟行CEO周光:Robotaxi模型運營能力缺一不可,L4或加速到來 小鵬MONA L03要來了!外形爭議挺大,定位15萬級又能大賣? 2026年3月純電動新車5款,插混有2款,增程式4款新品,燃油車新品缺損,這是行業發展巨大的隱憂 納智捷、眾泰曾是“優等生”?J.D. Power榜單排位之謎 寶馬公布北京車展強大陣容,全新7系、新世代iX3/i3長軸版等16款車型首次登場! 領克10+&10:當運動不止于燃油,純電也能“攻山屠榜” 拒絕充電焦慮!樂道L90 900V快充+換電,硬鋼400V架構的Model Y L 37分鐘大定過萬!小鵬銷量神車改款11.98萬起,第二代VLA也加上了 領克品牌官方發布全新中型旅行轎車領克07GT的路試諜照,計劃2026年內正式發布上市 比亞迪2026款海豹06GT/DM-i旅行版雙車齊發,售價11.19萬-16.99萬元 2026款海豹07EV怎么樣?底盤、充電和輔助駕駛分析 北汽新能源一季度銷量41166輛,同比增長超40%,享界SUV/MPV來襲 螢火蟲泰國上市,限定皮膚,約合人民幣16.92萬元 雙豹進階,定義新主流!比亞迪海洋網雙車上市 全新速騰S上市:當“國民家轎標桿”把價格打進8萬區間,會發生什么? 第二代刀片電池及閃充技術上車,比亞迪宋Ultra EV閃耀重慶方圓LIVE
久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区
亚洲精品三级| 色黄视频在线观看| 久久人人97超碰国产公开结果| 欧美激情另类| 日韩久久精品| 欧美中文字幕一区二区| 99视频精品全国免费| 久久激情中文| 国产综合色产| 久久国产福利| 日韩精品中文字幕一区二区| 亚洲综合精品四区| 亚洲综合电影一区二区三区| 亚洲精品在线二区| 91精品尤物| 久久的色偷偷| 久久青青视频| 日韩精品欧美| 另类av一区二区| 日本不卡高清视频| 免费在线亚洲| 欧美日韩精品免费观看视欧美高清免费大片 | 日韩精品免费视频人成| 日本va欧美va欧美va精品| 欧美日韩一区二区三区不卡视频 | 91免费精品| 蜜桃视频欧美| 日韩中文字幕一区二区高清99| 91成人在线精品视频| 成人在线超碰| 午夜久久美女| 91精品尤物| 老牛影视精品| 五月婷婷亚洲| 青青伊人久久| 日韩三区免费| 亚洲精品进入| 日韩在线观看| 亚洲人妖在线| 精品视频一二| 日韩视频二区| 欧美精品成人| 国产一区二区三区网| 激情五月综合网| 日韩av不卡一区二区| 视频在线不卡免费观看| 中文亚洲免费| 国产极品嫩模在线观看91精品| 久久香蕉精品香蕉| 99riav1国产精品视频| 国产精品久久久久久久久久白浆 | 亚洲福利免费| 日韩精品一页| 久久久久国产精品一区三寸| 亚洲va久久| 三级小说欧洲区亚洲区| 色综合视频一区二区三区日韩| 国产高清亚洲| 日韩视频免费| 美腿丝袜在线亚洲一区| 免费观看不卡av| 国产精品一区二区美女视频免费看| 色综合www| 久久国内精品自在自线400部| 日韩精品免费一区二区在线观看 | 亚洲精品护士| 人人香蕉久久| 国产精品免费99久久久| 国产精品99一区二区| 欧美激情三区| 亚洲欧洲另类| 日本蜜桃在线观看视频| 日韩国产精品久久久久久亚洲| 99成人在线视频| 美女久久久久久| 美国三级日本三级久久99| 日韩国产一区| 国产精品白丝久久av网站| 久久不射网站| 久久精品亚洲人成影院| 麻豆精品视频在线| 日韩精品一区二区三区av| 欧洲激情综合| 免费观看亚洲| 免费日韩一区二区三区| 一本一道久久a久久| 香蕉视频亚洲一级| 美女精品久久| 国产伦理久久久久久妇女| 免费久久99精品国产| 亚洲二区精品| 欧洲亚洲一区二区三区| 国产一区二区久久久久| 久久狠狠久久| 日韩中文字幕在线一区| 久久亚洲影院| 亚洲精品一二三区区别| 午夜欧美巨大性欧美巨大| 欧美激情久久久久久久久久久| 日韩毛片网站| 亚洲精品中文字幕99999| 午夜欧美理论片| 1000部精品久久久久久久久| 国产高潮在线| 福利片在线一区二区| 国产精品theporn| 国产亚洲精aa在线看| 亚洲男人在线| 亚洲人成毛片在线播放女女| 鲁大师影院一区二区三区| 亚洲激情黄色| 99久久精品网站| 国产v综合v| 亚洲成av人片一区二区密柚 | 国产精品第一| 国产欧美88| 精品三级久久久| 精品入口麻豆88视频| 国产一区二区视频在线看| 麻豆国产欧美一区二区三区| 久久av免费看| 加勒比视频一区| 岛国av在线网站| 日韩精品欧美| 国产在线不卡| 亚洲一区二区免费看| 亚洲欧美高清| 日本大胆欧美人术艺术动态| 在线免费观看亚洲| 视频一区二区国产| 日韩制服丝袜先锋影音| 亚洲狼人精品一区二区三区| 天堂精品久久久久| 欧美性www| 国产精品久一| 成人国产精品一区二区免费麻豆| 欧美天堂视频| 自拍日韩欧美| 视频一区视频二区中文| 日本不卡一区二区三区| 久久不见久久见中文字幕免费| 国产成人精品亚洲线观看| 九色porny丨国产首页在线| 不卡中文一二三区| 1000部精品久久久久久久久| 国产精品老牛| 婷婷精品久久久久久久久久不卡| 国产一级成人av| 精品72久久久久中文字幕| 日韩精品永久网址| 在线视频精品| 日韩高清成人在线| 国产精品黄色| 久久国产直播| 欧美资源在线| 国产精品亚洲四区在线观看| 在线人成日本视频| 欧美日韩精品免费观看视频完整| 亚洲精品第一| 国产精品久久久久久久免费软件| 黄色精品视频| 国内精品99| 亚洲精品亚洲人成在线观看| 国产精品videossex久久发布 | 午夜国产精品视频免费体验区| 视频一区日韩精品| 精品一区不卡| 亚洲欧美日韩高清在线| 欧美亚洲一级| 香蕉精品久久| 国产欧美日韩亚洲一区二区三区| 精品亚洲美女网站| 丝袜国产日韩另类美女| 久久超碰99| 国产精品88久久久久久| 日韩1区2区3区| аⅴ资源天堂资源库在线| 午夜国产精品视频| 国产欧美高清视频在线| 日韩精品一卡| 午夜电影一区| 免费在线小视频| 婷婷综合国产| 久久亚洲成人| 婷婷精品久久久久久久久久不卡| 成人欧美一区二区三区的电影| 亚洲精品四区| 日韩av免费大片| 男人的天堂亚洲一区| 成人污污视频| 日韩精品中文字幕一区二区| 91精品婷婷色在线观看| 国产亚洲精品精品国产亚洲综合| 国产精品97| 国产aa精品| 日本成人手机在线| 欧美91福利在线观看| 另类综合日韩欧美亚洲| 中文精品电影| 欧美午夜精品一区二区三区电影|