OpenAI微軟被起訴！《紐約時報》指控AI侵權，要求銷毀侵權模型和訓練數據

作者：量子位 2023-12-28 17:51:00

人工智能新聞

AI復現他們的文章內容這事兒不是版稅那么簡單，“OpenAI和微軟實際上正利用《紐約時報》的作品構建新聞出版商的競爭對手”。

OpenAI正面臨的或許是史上最難AI版權訴訟。

原告《紐約時報》一紙狀書，220000頁附件，遞交到了地方法院。

當中有個板塊羅列了多達100個鐵證，ChatGPT輸出內容與《紐約時報》新聞內容幾乎一毛一樣：

這一消息瞬間引發全網關注，并直接給OpenAI打得措手不及，發言人回應屬實“沒想到事態會發展成這樣”。

意外、失望之余，他們也表示“期望能找到對雙方都有益的合作途徑，就像已與許多其他出版商所做的那樣。”

同樣被告的還有微軟，或許這次他們倆恐怕不能再像之前擺平其他出版商那樣，“三瓜倆棗”就打發了。

TechCrunch消息，《紐約時報》要求OpenAI和微軟銷毀包含侵權材料的模型和訓練數據，并對非法復制和使用《紐約時報》獨有價值的作品相關的“數十億美元的法定和實際損失”負責。

《紐約時報》并不是第一家因知識產權糾紛而起訴生成式AI公司的出版機構，但他是迄今為止參與此類訴訟的最大出版商之一，外加證據充足、又有強大的律師團隊。

網友們也是直呼要“見證AI侵權里程碑式的案件”了：

還有律師網友@Cecilia Ziniti詳細分析了訴狀后也表示，“這是迄今為止指控生成式AI構成侵權的最佳案例”：

來看看這個案例究竟有哪些值得關注？

“可能成為AI侵權里程碑式案件”

Cecilia Ziniti分析了此次案件對OpenAI不利的幾個關鍵點：

有證據表明《紐約時報》文章構成了單個數據集，可能被用于訓練AI；
證據充分，視覺上清晰醒目；
《紐約時報》的深度文章，體現的是創造力；
訴狀將OpenAI描述成以利潤為導向的企業，而新聞行業具有一定的公益性；
模型出現幻覺，捏造不實消息；
強大的律師團隊。

下面我們來一一展開。

首先該投訴清楚地表明了版權被侵犯的主張，突出了ChatGPT輸出與《紐約時報》文章間的“獲取與實質性相似”。

關鍵事實：《紐約時報》文章構成了Common Crawl（一個抓取互聯網數據的開放平臺）中用于訓練GPT的最大單個專有數據集。

其次，訴狀中展示的抄襲證據從視覺上來看極其清晰醒目。GPT生成的新詞用黑色標出，被復制的文本用紅色標出，這種對比能影響陪審團的判斷。

Cecilia Ziniti個人認為，若OpenAI不對其指令進行重大調整，并在法庭上詳細解釋其技術原理，那么該公司真的很難為這一行為進行辯護。

在她看來，選擇和解而非對簿公堂對OpenAI來說將是更合理的做法。

此外，另一個不利于OpenAI的點在于，他們這次面對的原告是《紐約時報》，不僅涉及文章本身，更關系到原創性和創作過程。

如訴狀所述，《紐約時報》的深度調查報道，比如對出租車貸款的深入揭露，不僅是勞動成果，更體現了核心創造力。

有個關鍵點在于：版權保護的是創新性，而不是努力本身。

雖然出租車文章的600次采訪確實令人印象深刻，但從法律的視角來看，更為重要的是報道方式的創新。這和針對GitHub Copilot的訴訟形成了鮮明對比，后者只涉及了幾行開源代碼。

不過，如果這次談判失敗的話，《紐約時報》可能會面臨巨大損失。

據說之前四月份《紐約時報》就曾嘗試與OpenAI談判，但沒談妥，OpenAI拒絕達成協議。可能是金額巨大，特別是考慮到OpenAI利潤的增長以及類似案例的增多。

Cecilia Ziniti的一個大膽猜測是，OpenAI可能以為他們可以用七至八位數金額解決此事。但《紐約時報》所追求的可能是更高的賠償和持續的版稅收入。

另外，這份訴狀中將OpenAI描述成了一個以利潤為導向而閉門造車的企業，這一點通過與新聞行業的公益性對比得到了強化。

訴狀中甚至還提及了董事會和Sam Altman之間的爭議。

Cecilia Ziniti認為，在法庭上，這種敘述可能極具影響力，因為它探討了版權的社會價值與科技創新之間的權衡。

還有一點很重要——模型幻覺。

這份投訴書中引入了幻覺，并以此為基礎引用了一些《紐約時報》文章中被編造出來的元素作為例證。

最令人印象深刻的例子之一是，Bing稱《紐約時報》發表了一篇文章，其中寫道橙汁會導致淋巴瘤。

最后一個值得注意的點，《紐約時報》聘請了極為出色的法律團隊。Susman Godfrey律師事務所在挑戰科技公司方面享有卓越的聲譽和豐富的經驗。

這起訴訟并非像ChatGPT發布一周后那些為了快速獲利而提起的訴訟，而是一次策略性的法律挑戰。

此外，還有更多網友補充了訴訟相關的內容。比如美國數字媒體機構DCN的CEO Jason Kint指出：

微軟明顯是一樣的。文件中展示了一個例子，內容是直接從《紐約時報》的報道中逐字抄襲的。

這是采用微軟自家搜索引擎所進行的搜索對比。內容復制處理上的差異立刻顯露無疑，毫無爭議。

沃頓商學院教授Ethan Mollick還指出：

在《紐約時報》對OpenAI的訴訟中，可以明顯看出訓練數據與輸出結果之間的復雜關系。一方面，可以使ChatGPT復現《紐約時報》著名文章的確切內容；另一方面，也指出ChatGPT有可能生成虛假的錯誤文章。

“為數十億美元”負責

正如開頭提到的，《紐約時報》雖然沒有直接說要多少賠償，但表明了需要OpenAI和微軟對“數十億美元的法定和實際損失”負責。

那這些損失都是哪來的？

《紐約時報》指出，AI復現他們的文章內容這事兒不是版稅那么簡單，“OpenAI和微軟實際上正利用《紐約時報》的作品構建新聞出版商的競爭對手”。

AI不僅提供了需通過訂閱才能獲取的信息，而且這些信息往往未被正確引用，有時還被用于商業盈利，并且去除了《紐約時報》用以賺取傭金的相關鏈接。

這對《紐約時報》來說是直接的損失。

此外，模型提供了錯誤信息，對品牌造成影響，也是一大損失。

看起來，這回OpenAI和微軟AI侵權似乎證據確鑿。但OSS Capital的創始合伙人兼知識產權事務顧問Heather Meeker指出，《紐約時報》不一定會勝訴。

他指出投訴書中有一個例子，是使用ChatGPT重現了一篇2012年的餐廳評論文章的內容。用戶首先問ChatGPT該評論的開頭段落，然后連續詢問下一句內容。

Meeker認為，誘導AI重復原始輸入的內容不應該構成侵權的合理依據。如果用戶有意讓AI復制內容，那么責任在用戶。

“這就是為什么，類似這樣的訴訟大多數可能會失敗。”

One More Thing

這邊OpenAI和微軟在為數據打官司，另一邊的蘋果直接掏錢??擺平。

有爆料稱，蘋果最近已和幾家主要的出版商達成協議，允許蘋果使用他們的內容數據來訓練AI。

蘋果還想達成長期協議，擬議的交易數額至少為3.57億。

據說，正在內部測試一個名為“AppleGPT”的模型，明年可能會推出新版本的Siri。

不得不說，現在這年頭，數據是真香～

責任編輯：張燕妮來源：量子位

AI 技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI微軟被起訴！《紐約時報》指控AI侵權，要求銷毀侵權模型和訓練數據

“可能成為AI侵權里程碑式案件”

“為數十億美元”負責

One More Thing