- 深度探索:解碼DeepSeek及人工智能的未來
- 陳勁 安健
- 2573字
- 2025-07-11 16:22:12
面對抄襲的指責:什么是蒸餾?
比起徒勞的封禁,對于DeepSeek抄襲的指責,顯得更有正當性和迷惑性。
較早對DeepSeek發出疑問的是AI領域的門外漢,不過這只是充滿歡樂色彩的烏龍事件。如圖1-2所示,有網友在向DeepSeek-V3模型提出“你是誰”這一問題時,DeepSeek-V3的回答是ChatGPT,這被當成DeepSeek抄襲的“鐵證”,并開始在網絡上瘋傳,逐步演變為一場群氓的狂歡。
科技媒體TechCrunch報道,此前谷歌的AI模型Gemini在中文語境下被提問“你是誰”時,回答自己是文心一言。Meta的Llama 3在西班牙語場景下被誤標為“Claude”。
DeepSeek-V3有可能直接將ChatGPT生成的文本作為訓練基礎。在訓練過程中,該模型可能已經記住了一些GPT-4的輸出,并會逐字復述這些內容。另有業內人士指出,目前互聯網大模型優質數據訓練集有限,訓練過程中不可能沒有重合。
究其根源,數據污染已成為行業系統性風險。隨著ChatGPT等大模型生成內容的海量擴散,互聯網正淪為“AI垃圾場”:歐盟預測2026年90%的在線內容或由AI生成。當開發者使用公開網絡數據訓練模型時,即便數據經過嚴格清洗,仍無法完全過濾潛藏的AI痕跡。

圖1-2 當被問及“你是誰”時DeepSeek的回答
圖片來源:社交媒體截圖。
不過,信者恒信,疑者恒疑。對DeepSeek身份的質疑迅速演化成兩種聲音,一種認為DeepSeek是抄襲或套殼,而另一種則指向了數據蒸餾。
對DeepSeek抄襲或套殼的指責,在DeepSeek開源的一刻就已經不攻自破了。因為開源,所有代碼都是公開的,如果套殼,那就等于自己把證據大白于天下。
開源的透明性使得DeepSeek的技術實現完全公開,任何對其技術來源的質疑都可以通過查看代碼來驗證。這種透明性不僅證明了DeepSeek的技術獨立性,也展示了其對知識產權的尊重。
一個AI模型的表現本質上是由三個基本因素決定的:一是神經網絡架構,二是參數數量,三是具體參數的權重數值。這就與OpenAI閉源構成一個悖論:因為OpenAI是閉源的,所以抄襲者就會無處可抄;而又因為DeepSeek采取開源,如果抄襲,自然又無源可開。開源策略使得DeepSeek的技術細節完全透明,任何試圖通過抄襲來獲取技術優勢的行為都會被迅速發現并公開。
而蒸餾卻是一個頗為值得討論的問題。
在人工智能領域,知識蒸餾(knowledge distillation)技術的發明通常被歸功于杰弗里·辛頓(Geoffrey Hinton)。辛頓在2015年的一篇論文中首次提出了AI蒸餾技術。該技術的核心思想是通過讓一個較小的模型(學徒模型)學習一個較大模型(導師模型)的輸出,從而在保持較高性能的同時降低計算成本和模型規模。
簡單地說,知識蒸餾的基本原理在于利用一個較為龐大的“導師模型”來指導一個較為緊湊的“學徒模型”,從而使學徒模型能夠在資源受限的場景下盡可能地復現導師模型的性能表現。這一技術過程可以類比為“一位導師對學徒的知識傳承活動”,設想一位資深專家(導師模型)正在向一位新手(學徒模型)傳遞復雜的專業知識。這位專家不僅向學徒展示知識的具體內容或解決方案(即模型的輸出結果),還會深入剖析這些內容或解決方案背后的形成機制,幫助學徒理解知識或某一結論的內在邏輯。這樣一來,當面臨實際任務(向模型輸入指令)時,學徒就能夠給出可與導師相媲美的高質量回應(模型的輸出結果)。關于知識蒸餾的細節,我們將會在本書后文詳細展開討論。
2025年1月29日,OpenAI指控中國人工智能初創公司DeepSeek使用模型蒸餾技術來訓練自己的模型,并暗示這可能違反了OpenAI的服務條款。OpenAI聲稱,DeepSeek通過API(應用程序接口)大量提取ChatGPT模型的輸出數據,并利用這些數據訓練自己的開源模型(R1),這一過程被認為可能構成知識產權侵權。
然而,模型蒸餾技術本身是合法的,關鍵在于數據的獲取和使用是否合法。根據OpenAI的用戶協議,用戶對其通過OpenAI服務生成的輸出內容享有完整的所有權,包括獲取、使用、修改及商業化權利。因此,只要用戶在獲取和使用數據的過程中遵循協議,其行為就是合法的。此外,AI模型的訓練數據和方法是否構成“知識產權”,尚無全球統一標準。因此,即使DeepSeek使用了OpenAI生成的數據進行蒸餾,這些數據只要是通過合法途徑獲取的,就不構成侵權。
所以,盡管OpenAI提出了上述指控,但其CEO薩姆·奧爾特曼(Sam Altman)明確表示,OpenAI沒有計劃對DeepSeek采取法律行動。在2025年2月3日的采訪中,奧爾特曼表示:“我們目前沒有起訴DeepSeek的計劃。我們將繼續打造卓越的產品,并以模型能力引領世界,我相信這會很好?!?/p>
頗為諷刺的是,此時的OpenAI還深陷與《紐約時報》的官司。2023年12月27日,《紐約時報》將OpenAI和微軟告上法庭,指控這兩家企業未經授權便使用其數百萬篇文章來訓練ChatGPT等AI聊天機器人。這場訴訟是全球首個大型媒體機構起訴AI平臺侵犯版權的案例。
《紐約時報》起訴OpenAI和微軟的案件中,主要指控內容包括:OpenAI和微軟未經授權便使用《紐約時報》的數百萬篇文章來訓練ChatGPT等AI模型。ChatGPT能夠逐字復制《紐約時報》的文章內容,并模仿其寫作風格,對文章進行提煉和總結。這種未經授權的使用不僅侵犯了版權,還給新聞出版商制造了潛在的競爭對手,損害了其獲得訂閱、版權許可、廣告和其他附帶收入的能力。
從《紐約時報》的指控內容來看,其核心問題在于OpenAI未經授權便使用《紐約時報》的文章來訓練ChatGPT模型,這主要涉及侵犯版權問題。而知識蒸餾技術本身是一種合法的技術手段,用于優化和壓縮模型,其關鍵在于如何獲取和使用數據。因此,OpenAI對DeepSeek的指控頗有些“賊喊捉賊”的味道。
而整件事的背后,其實揭示了AI發展的一大困局:數據枯竭的危險迫在眉睫。自2020年以來,用于訓練大語言模型的數據規模增長了100倍,可能已經占據了互聯網中很大一部分內容。然而,互聯網可用內容的增長速度卻非常緩慢,年增長率不到10%。與此同時,AI訓練數據集的規模每年翻倍。這種不平衡導致了數據資源的快速枯竭。
為了應對這一威脅,目前總共有三種方案。第一種是使用合成數據,通過計算機模擬或算法生成的帶有注釋的信息來替代真實數據,以補充數據的不足。根據Gartner(高德納)的預測,用于訓練大模型的數據中將有60%是合成數據。第二種應對之策就是尋找非常規數據源:一些AI公司正在轉向使用專注于特定領域的專業數據集,如健康護理、環境等領域。第三種則是優化數據使用效率:通過改進模型架構和訓練方法,減少對數據的需求。
無論采用哪種方案,數據蒸餾技術在解決AI數據集枯竭問題上都具有不可替代的重要性。數據蒸餾技術通過從大規模數據集中提取關鍵信息,構建一個更小但更具代表性的數據集,從而顯著降低存儲和計算成本,同時提高模型訓練的效率。
因此,對DeepSeek抄襲的指責,本質上是對未來變革的不適。盡管如此,DeepSeek仍將被一些人指責為“盜竊者”,但事實上,DeepSeek并非盜竊者,而是把火種帶給人間的“盜火者”。