DeepSeek R1與OpenAI模型文風相似度高達74.2%？新研究質疑DeepSeek訓練數據

作者：機器之心 2025-03-05 09:10:00

這項研究來自 Copyleaks—— 一個專注于檢測文本中的抄襲和 AI 生成內容的平臺。

在 DeepSeek 生成的文本中，有 74.2% 的文本在風格上與 OpenAI 模型具有驚人的相似性？這是一項新研究得出的結論。

這項研究來自 Copyleaks—— 一個專注于檢測文本中的抄襲和 AI 生成內容的平臺。

這家平臺表示，正如每個人都有獨特的指紋一樣，人工智能也有自己獨特的、可識別的特征。比如 DeepSeek 的文風就有一股強烈的「DS 味」：意象堆得非常滿，每句話都有通感、隱喻和互文。和其他人的文字放在一起，我們很容易看出哪段話好像背后必有 DeepSeek 指點。

來源：http://xhslink.com/a/6n6JLYTWrM36

因此 Copyleaks 開發了一種精確的方法，能夠識別具體是哪種 AI 模型寫下了某段文字，即使該 AI 故意模仿另一種寫作風格時也是如此。

具體來說，他們開發了一個由三個分類器組成的 LLM 檢測集成系統，這些分類器具有不同的架構和訓練數據。該集成系統經過訓練，可以對四大語言模型 ——Claude、Gemini、Llama 和 OpenAI 模型 —— 生成的文本進行分類。只有當集成系統中的所有三個分類器一致同意輸出分類時，他們才認為預測是有效的。Copyleaks 宣稱，該集成系統在由 Claude、Gemini、Llama 和 OpenAI 模型生成的文本測試集上得到驗證，并達到了極高的精確度（0.9988）和非常低的假陽性率（0.0004）。

借助這個集成系統，Copyleaks 去分析四個新模型生成的文本，包括 phi-4、Grok-1、Mixtral-8x7b-instruct-v0.1 和 DeepSeek-R1，看看這些模型生成的內容與上述四大模型是否相似。分類器的最終輸出需要三個子分類器一致同意，否則會標記為「無共識」（no-agreement）

結果表明，對于 phi-4 模型生成的文本（如圖 1a 所示），集成系統在 99.3% 的文本上沒有達成一致意見；對于 Grok-1 模型生成的文本（如圖 1b 所示），集成系統在 100% 的文本上都沒有達成一致意見。這意味著，集成系統的分類器無法認定 phi-4 或 Grok-1 生成的文本與它所訓練的四大語言模型家族（Claude、Gemini、Llama 和 OpenAI 模型）中的任何一個模型的寫作風格相似。

對于 Mixtral 模型生成的文本（如圖 1c 所示），集成系統在 65% 的文本上沒有達成一致意見，有 26% 的文本被識別為由 OpenAI 生成，8.8% 的文本被識別為由 Llama 生成。

對于 DeepSeek 模型生成的文本（如圖 1d 所示），集成系統將 74.2% 的文本識別為由 OpenAI 生成，而剩下的 25.7% 的文本被標記為「無共識」。

Copyleaks 認為，phi-4 模型高達 99.3% 的「無共識」率以及 Grok-1 模型 100% 的「無共識」率表明，這些模型的風格指紋與上述四大語言模型非常不同。Mixtral 模型 65% 的「無共識」率表明，該模型主要具有獨特的風格特征，這些特征沒有被集成系統完全捕捉到。然而，26% 的文本被歸類為 OpenAI，8.8% 的文本被歸類為 Llama，這表明 Mixtral 與這些語言模型之間存在一定的風格相似性。

Copyleaks 強調，DeepSeek-R1 模型的結果令人矚目。74.2% 的文本被歸類為 OpenAI，這表明這兩個語言模型之間存在很強的風格相似性。

在這份報告出爐后，福布斯聯系到了 Copyleaks 數據科學主管 Shai Shai Nisan。Nisan 將 DeepSeek-R1 與 OpenAI 模型之間顯著的風格相似性問題，引申為對 DeepSeek 訓練過程的質疑，暗示其可能使用了 OpenAI 模型的輸出作為訓練數據。

他說，「雖然這種相似性并不能明確證明 DeepSeek 是衍生產品，但它確實引發了人們對其開發過程的質疑。我們的研究專注于寫作風格，在這一領域，DeepSeek 與 OpenAI 的相似性是顯著的。考慮到 OpenAI 在市場上的領先地位，我們的研究結果表明，有必要對 DeepSeek 的架構、訓練數據和開發過程進行進一步調查。」

不過，福布斯的文章中也指出了導致這種相似性的另一個可能：數據。AI 模型可能會隨著時間的推移在風格上趨于一致，尤其是在重疊數據集上進行訓練的情況下。

此外，Copyleaks 用來檢測相似性的系統是否足夠準確、客觀也是一個值得探討的問題。

自 DeepSeek R1 走紅以來，外界對于這個模型的質疑就沒有停過，但質疑歸質疑，部署 DeepSeek 的機構還是一路猛增。

并且從縮小矩陣規模到提高運算效率，DeepSeek 上周已經開源了方方面面提高生成式算法執行效率的核心技術，對開源精神的堅守，是對外界質疑的更好回應。

接下來，我們看一看 Copyleaks 所用的檢測方法。

Copyleaks 的檢測方法

為了讓判斷更全面，Copyleaks 分別用 OpenAI 模型、Llama、Claude 和 Gemini 生成了 5 萬條英文文本來訓練這些分類器。研究人員采用以下 5 個標準來評估分類器是否能準確地識別出某段話出自哪個 AI 之手：

混淆矩陣
精確率和召回率
F 值
總體假陽性率 (FPR)
宏平均 F 值 (β=0.5)

他們用 OpenAI、Llama、Claude 和 Gemini 這些 AI 模型生成的英文文本來訓練這些分類器。為了保證訓練的公平性，每個分類器都會收到相同數量來自不同 AI 模型的訓練樣本。

每個類別 i 的假陽性率代表著有多少比例的非 i 類實例被錯誤地分類為 i 類。簡單來說，看這個值就能知道分類器有多容易把其他 AI 的文本誤判為某個特定 AI 的文風，計算公式為：

總體 FPR 則是通過對所有類別的 FPR 取平均得到的：

以下是三個分類器的成績單，從準確率看，三個分類器的表現都不錯，接近 99%。

在得到這三位訓練有素的「判官」之后，為了進一步降低誤判的概率，研究人員測試了兩種交叉驗證方法 —— 多數投票制（少數服從多數）和一致同意制（必須三票贊同）—— 到底哪種更可信。

數據給出了明確答案，一致同意制的宏平均 FPR 是 0.0004，也就是三個分類器一起投票，收集全票通過的結果錯判概率極低，這也是 Copyleaks 最終選擇的統計方法。

在技術報告中，Copyleaks 給出了更詳細的信息。

報告鏈接：https://copyleaks.com/wp-content/uploads/2025/03/Detecting_Stylistic_Fingerprints_of_Large_Language_Models.pdf

你覺得這個報告的結果和與之相關的推論靠譜嗎？

責任編輯：張燕妮來源：機器之心

AI 生成模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek R1與OpenAI模型文風相似度高達74.2%？新研究質疑DeepSeek訓練數據

Copyleaks 的檢測方法