OpenAI微軟被起訴!《紐約時報》指控AI侵權,要求銷毀侵權模型和訓練數據
OpenAI正面臨的或許是史上最難AI版權訴訟。
原告《紐約時報》一紙狀書,220000頁附件,遞交到了地方法院。
當中有個板塊羅列了多達100個鐵證,ChatGPT輸出內容與《紐約時報》新聞內容幾乎一毛一樣:
這一消息瞬間引發全網關注,并直接給OpenAI打得措手不及,發言人回應屬實“沒想到事態會發展成這樣”。
意外、失望之余,他們也表示“期望能找到對雙方都有益的合作途徑,就像已與許多其他出版商所做的那樣。”
同樣被告的還有微軟,或許這次他們倆恐怕不能再像之前擺平其他出版商那樣,“三瓜倆棗”就打發了。
TechCrunch消息,《紐約時報》要求OpenAI和微軟銷毀包含侵權材料的模型和訓練數據,并對非法復制和使用《紐約時報》獨有價值的作品相關的“數十億美元的法定和實際損失”負責。
《紐約時報》并不是第一家因知識產權糾紛而起訴生成式AI公司的出版機構,但他是迄今為止參與此類訴訟的最大出版商之一,外加證據充足、又有強大的律師團隊。
網友們也是直呼要“見證AI侵權里程碑式的案件”了:
還有律師網友@Cecilia Ziniti詳細分析了訴狀后也表示,“這是迄今為止指控生成式AI構成侵權的最佳案例”:
來看看這個案例究竟有哪些值得關注?
“可能成為AI侵權里程碑式案件”
Cecilia Ziniti分析了此次案件對OpenAI不利的幾個關鍵點:
- 有證據表明《紐約時報》文章構成了單個數據集,可能被用于訓練AI;
- 證據充分,視覺上清晰醒目;
- 《紐約時報》的深度文章,體現的是創造力;
- 訴狀將OpenAI描述成以利潤為導向的企業,而新聞行業具有一定的公益性;
- 模型出現幻覺,捏造不實消息;
- 強大的律師團隊。
下面我們來一一展開。
首先該投訴清楚地表明了版權被侵犯的主張,突出了ChatGPT輸出與《紐約時報》文章間的“獲取與實質性相似”。
關鍵事實:《紐約時報》文章構成了Common Crawl(一個抓取互聯網數據的開放平臺)中用于訓練GPT的最大單個專有數據集。
其次,訴狀中展示的抄襲證據從視覺上來看極其清晰醒目。GPT生成的新詞用黑色標出,被復制的文本用紅色標出,這種對比能影響陪審團的判斷。
Cecilia Ziniti個人認為,若OpenAI不對其指令進行重大調整,并在法庭上詳細解釋其技術原理,那么該公司真的很難為這一行為進行辯護。
在她看來,選擇和解而非對簿公堂對OpenAI來說將是更合理的做法。
此外,另一個不利于OpenAI的點在于,他們這次面對的原告是《紐約時報》,不僅涉及文章本身,更關系到原創性和創作過程。
如訴狀所述,《紐約時報》的深度調查報道,比如對出租車貸款的深入揭露,不僅是勞動成果,更體現了核心創造力。
有個關鍵點在于:版權保護的是創新性,而不是努力本身。
雖然出租車文章的600次采訪確實令人印象深刻,但從法律的視角來看,更為重要的是報道方式的創新。這和針對GitHub Copilot的訴訟形成了鮮明對比,后者只涉及了幾行開源代碼。
不過,如果這次談判失敗的話,《紐約時報》可能會面臨巨大損失。
據說之前四月份《紐約時報》就曾嘗試與OpenAI談判,但沒談妥,OpenAI拒絕達成協議。可能是金額巨大,特別是考慮到OpenAI利潤的增長以及類似案例的增多。
Cecilia Ziniti的一個大膽猜測是,OpenAI可能以為他們可以用七至八位數金額解決此事。但《紐約時報》所追求的可能是更高的賠償和持續的版稅收入。
另外,這份訴狀中將OpenAI描述成了一個以利潤為導向而閉門造車的企業,這一點通過與新聞行業的公益性對比得到了強化。
訴狀中甚至還提及了董事會和Sam Altman之間的爭議。
Cecilia Ziniti認為,在法庭上,這種敘述可能極具影響力,因為它探討了版權的社會價值與科技創新之間的權衡。
還有一點很重要——模型幻覺。
這份投訴書中引入了幻覺,并以此為基礎引用了一些《紐約時報》文章中被編造出來的元素作為例證。
最令人印象深刻的例子之一是,Bing稱《紐約時報》發表了一篇文章,其中寫道橙汁會導致淋巴瘤。
最后一個值得注意的點,《紐約時報》聘請了極為出色的法律團隊。Susman Godfrey律師事務所在挑戰科技公司方面享有卓越的聲譽和豐富的經驗。
這起訴訟并非像ChatGPT發布一周后那些為了快速獲利而提起的訴訟,而是一次策略性的法律挑戰。
此外,還有更多網友補充了訴訟相關的內容。比如美國數字媒體機構DCN的CEO Jason Kint指出:
微軟明顯是一樣的。文件中展示了一個例子,內容是直接從《紐約時報》的報道中逐字抄襲的。
這是采用微軟自家搜索引擎所進行的搜索對比。內容復制處理上的差異立刻顯露無疑,毫無爭議。
沃頓商學院教授Ethan Mollick還指出:
在《紐約時報》對OpenAI的訴訟中,可以明顯看出訓練數據與輸出結果之間的復雜關系。一方面,可以使ChatGPT復現《紐約時報》著名文章的確切內容;另一方面,也指出ChatGPT有可能生成虛假的錯誤文章。
“為數十億美元”負責
正如開頭提到的,《紐約時報》雖然沒有直接說要多少賠償,但表明了需要OpenAI和微軟對“數十億美元的法定和實際損失”負責。
那這些損失都是哪來的?
《紐約時報》指出,AI復現他們的文章內容這事兒不是版稅那么簡單,“OpenAI和微軟實際上正利用《紐約時報》的作品構建新聞出版商的競爭對手”。
AI不僅提供了需通過訂閱才能獲取的信息,而且這些信息往往未被正確引用,有時還被用于商業盈利,并且去除了《紐約時報》用以賺取傭金的相關鏈接。
這對《紐約時報》來說是直接的損失。
此外,模型提供了錯誤信息,對品牌造成影響,也是一大損失。
看起來,這回OpenAI和微軟AI侵權似乎證據確鑿。但OSS Capital的創始合伙人兼知識產權事務顧問Heather Meeker指出,《紐約時報》不一定會勝訴。
他指出投訴書中有一個例子,是使用ChatGPT重現了一篇2012年的餐廳評論文章的內容。用戶首先問ChatGPT該評論的開頭段落,然后連續詢問下一句內容。
Meeker認為,誘導AI重復原始輸入的內容不應該構成侵權的合理依據。如果用戶有意讓AI復制內容,那么責任在用戶。
“這就是為什么,類似這樣的訴訟大多數可能會失敗。”
One More Thing
這邊OpenAI和微軟在為數據打官司,另一邊的蘋果直接掏錢??擺平。
有爆料稱,蘋果最近已和幾家主要的出版商達成協議,允許蘋果使用他們的內容數據來訓練AI。
蘋果還想達成長期協議,擬議的交易數額至少為3.57億。
據說,正在內部測試一個名為“AppleGPT”的模型,明年可能會推出新版本的Siri。
不得不說,現在這年頭,數據是真香~