AI“讀書”合法了:美法院最新裁定,無需作者同意,已購書籍可用于訓練AI
無需原作者同意,AI可以用已出版書籍作訓練數據了。
就在最新判決的訴訟中,美國法院裁決:允許Claude背后公司Anthropic在未經作者許可的情況下,使用合法購買的已出版書籍訓練AI。
法院參考了美國版權法中的“合理使用”(Fair Use)原則,認為AI訓練屬于“轉化性使用”(Transformative Use),即對原作品的新用途未取代原作市場,且有利于技術創新和公共利益。
這是美國法院首次認可AI公司對書籍的使用權,保護人工智能公司在使用受版權保護的文本訓練 LLMs 時不受限制:
大大降低了AI訓練數據的版權風險。
對此,不少網友的看法是這樣的:既然人類讀書并加以理解是毫無爭議的,那AI讀書并理解也應該合理。
怎么一回事?
對Anthropic的指控,由三位作家在2024年8月發起。
值得關注的是,Anthropic的案件不僅針對使用已出版書籍訓練AI,還涉及到書籍的來源問題:
2021年,Anthropic的聯合創始人Ben Mann從盜版網站下載19.6萬本受版權保護的書籍。
到2022年,Anthropic又從LibGen和PiLiMi下載了“至少500萬份拷貝(copies)”和“200萬份拷貝”,建立數字化圖書館。
盡管Anthropic在那時已意識到盜版法律風險(“not so gung ho about pirated books for legal reasons”),但仍保留所有盜版副本。
2023年3月,Anthropic從數字化圖書館選擇書籍子集訓練Claude模型,Claude首版發布。
2024年2月,Anthropic雇傭前Google圖書掃描項目負責人Turvey,轉向合法采購并掃描書籍,購買數百萬本紙質書。
Turvey發送了“一兩封郵件”(“an email or two”)給出版商,但未持續跟進(“let those conversations wither”)。
根據美國法院對Anthropic的裁決文書,可以關注到以下幾點:
1、這次事件的爭議主要在Anthropic未經過創作者允許,使用已購買的正版書籍或盜版書籍對Claude進行訓練。
2、原告對于Anthropic的指控是:非法復制作品(包括盜版和掃描版)用于訓練AI,侵犯版權。
3、法院裁定Anthropic可以使用合法采購書籍的掃描副本用于訓練AI的數據處理,認為AI訓練具有“高度轉化性”,未直接替代原作市場,且輸出未侵犯原告作品。
4、法院同時裁定盜版書籍的使用不構成合理使用,盜版行為本身涉及侵權。盜版相關責任及賠償問題需進入審判階段。
有網友簡單總結為:關鍵在于訓練使用書籍的來源是不是盜版。
也就是說,AI公司可未經原作者許可使用合法購買的書籍訓練AI。
有網友表示:這是一個正確的決定,就像人類可以去圖書館或者讀自己買的書一樣自然。
同樣的,這個裁決結果也面臨著一些爭議:AI可以和人類一概而論嗎?創作者又該如何保護他們的知識?
類似案例
類似案例曾出現在其他AI公司的訴訟中。
2015年Goggle Books:美國最高法院認定屬于“合理使用”
2004年,Google開始了“Google’s Library Project ”,這個計劃與各大圖書館合作,打算將超過兩千萬冊圖書掃描并數字化,供Google使用者直接搜索。被掃描的圖書包括超過著作權保護期限的公有作品和那些尚處在著作權保護期內的書籍。
Google Books的處理是:對公有作品和內容提供全文免費瀏覽和PDF格式的下載;對尚處在著作權保護期內的作品,只提供書目、簡介和少數章節的內容,同時提供正版的電子書或印刷版購買鏈接。
2005年,美國作家協會等機構將Google Books告上法庭,認為Google未經授權掃描全書構成版權侵權,理由包括:
- 全文數字化復制侵犯作者復制權;
- 片段瀏覽功能可能替代原作市場;
- 有商業動機(搜索業務衍生收益);
- 數字副本存儲存在黑客泄露風險;
- 向合作圖書館分發副本可能損害版權人利益。
2013年,美國聯邦法院作出了第一判決,駁回原告訴求,認定Google的搜索和片段瀏覽功能只“轉化”了原作用途(從閱讀到信息檢索,未提供實質替代內容,可促進學術研究和圖書發現,構成合理使用的條件。
2015年,二審維持原判。
2022年GitHub Copilot:促使AI公司推出“代碼來源標注”功能
GitHub Copilot是微軟旗下GitHub開發的AI編程助手,基于OpenAI的Codex模型,通過分析公開代碼庫(如 GitHub 上的開源項目)生成代碼建議。
2022年,多名開源開發者及組織指控GitHub Copilot:
- 許可證違規:Copilot 訓練時使用了 GPL 等“傳染性”開源許可證代碼,但生成代碼未遵循原許可證要求(如保留版權聲明)。
- 版權侵權:生成的代碼與開源代碼高度相似,涉嫌直接復制。
- 商業濫用:微軟將免費開源代碼轉化為付費工具(Copilot 企業版),違背開源精神。
根據公開報道和訴訟進展,關鍵結論如下:
- 法院認定 AI 訓練使用開源代碼屬于“轉化性使用”,不構成直接侵權(參考Google Books案邏輯);
- 原告未能證明Copilot系統性輸出侵權代碼,偶發相似片段不構成大規模違規;
- 法院要求GitHub加強過濾機制,避免輸出受GPL等強許可證約束的代碼,或明確標注來源及許可證要求,并提供工具供用戶檢查代碼與開源庫的相似性。
2023年2月,GitHub正式發布“代碼來源檢測”功能(Code Referencing),作為默認服務集成到Copilot中,幫助用戶識別生成代碼與開源項目的關聯性。
2023年Open AI&Meta:仍在受理
2023年,多名作家、演員以及全球出版商聯盟指控Open AI和Meta使用盜版數據訓練AI,數據包含來自“影子圖書館”(如 Bibliotik、LibGen、Z-Library)的書籍,這些網站提供未經授權的版權內容。
ChatGPT能準確總結原告的書籍,證明模型“記憶”了受保護文本;Meta CEO扎克伯格及AI團隊明知LibGen為盜版,仍決定使用其數據訓練Llama 3,以加速超越OpenAI。
關于Open AI和Meta的案件仍在受理中,尚未明確裁決。
本次Anthropic案的勝訴并非孤例,而是美國司法系統在“技術創新vs.版權保護”的拉鋸中傾向前者的體現,也是美國首次有法院支持合理使用原則,保護人工智能公司在使用受版權保護的文本訓練 LLMs 時不受限制。
意味著此后AI可以研究其購買而非從盜版網站獲取的內容。
有網友認為,本次裁決結果可能影響美國法院對Open AI和Meta案件的審理。