作者 | 言征
審校 | 千山
51CTO讀者成長計劃社群招募,咨詢小助手(微信號:TTalkxiaozhuli)
當地時間4月18日,知名社交媒體平臺Reddit宣布將開始向過度使用其數據API的公司(雖然沒有點名OpenAI、谷歌等)收費,此舉似乎是為了改變免費為別人做嫁衣的局面:被用作大型語言模型的免費訓練庫。
1、事件回顧:停止免費
Reddit作為有著18年歷史的新聞平臺,用戶可以在上面發帖、評論、交流各種話題。
Reddit說:“過去18年來,作為擁有最大在線人與人對話語料庫之一的平臺,我們有義務讓我們的社區成為這些內容的管理者。”
為此,該公司宣布正在更新其各種開發工具和服務的使用條款,并將它們全部整合到一套開發人員條款中,包括其數據和廣告API、嵌入條款等。據稱這些條款將管理Reddit的所有開發人員服務。Reddit解釋,這些是為了幫助開發人員通過允許訪問Reddit上托管的帖子和其他信息來為Reddit用戶構建應用程序和服務。
圖源:reddithelp.com
值得注意的是,在Reddit數據API條款中的第三條,明確的提出了費用和使用限制的問題。該公司認為,除了商用用途以外,學術界、研究人員和“社交聆聽工具”也使用它來訪問Reddit數據,但有些人過度使用它。Reddit會保留訪問API收費的權利,費率會由Reddit獨家確定。
圖源:reddithelp.com
至于具體的收費標準,Reddit還沒有公布,但表示會分為不同的等級,根據使用者的規模和需求來區分。Reddit的一位發言人聲稱,它將在6月份分享更多關于在推出付費訪問產品時如何授予許可和費用標準的信息。
2、創始人:現在是收緊政策的好時機
不可否認,Reddit作為優質的“大模型語料庫”,自然被白嫖的幾率非常大。
OpenAI的GPT系列,就使用了來自維基百科、圖書館、從Reddit帖子鏈接到的網頁等的PB級信息。
雖然沒有直接點名像谷歌和OpenAI這樣的公司,但Reddit首席執行官兼聯合創始人史蒂夫·霍夫曼,此前在一次外媒采訪時就坦誠,Reddit“是進行真實對話的地方”,因此“Reddit的數據語料庫非常有價值”。
“爬取Reddit,產生價值而不將任何價值返回給我們的用戶是我們遇到的問題,”霍夫曼認為。“現在是我們收緊政策的好時機。我們認為這是公平的。”
果不其然,作為新條款的一部分,Reddit表示禁止“通過任何方式訪問或使用Reddit服務和數據來訓練大型語言、人工智能或其他算法模型”。
圖源:reddithelp.com
在Reddit的幫助頁面上,涵蓋了Reddit開發人員工具的商業用途和費用,包括“出售對在Reddit上訓練的模型的訪問權”只有在獲得許可的情況下才被允許,并且可能需要支付相關費用。
圖源:reddithelp.com
Reddit沒有提供任何線索來說明什么是“附加功能、更高的使用限制和更廣泛的使用權限”,它表示這將是決定誰必須為數據API訪問付費的因素,也沒有提供任何線索關于這些第三方需要為特權付出多少。
3、矛盾的條款爭議
更新的條款存在一個有趣的爭議:內容歸Redditor所有,但Reddit有權向合作伙伴提供用戶的內容。
試圖從近二十年的對話中抓取內容的行為,不在少數。Reddit更新其條款以“進一步 [澄清] 用戶內容歸在Reddit上創建和提交內容的redditor所有,未經許可不得使用”,這一點影響很大。
然而,Reddit的用戶協議卻也包括自己使用發帖人發布的內容的條款,包括“我們有權向與Reddit合作的其他公司、組織或個人提供您的內容。” 如果想要訪問數據的一方獲得了Reddit的許可,那么內容所有權是否是一個問題,就變得有點模糊了。
4、對于開發者的影響:速率限制
當被問及開發者在被要求付費之前,會考慮什么樣的使用門檻時,Reddit表示,它始終對其API使用設置了速率限制。Reddit尚未透露下一步的限制計劃,但GitHub文檔最后一次更新是在2015年,表明它是每個客戶端每分鐘60個請求,沒有提到批量限制。
Reddit的發言人透露,該公司在執行API使用限制或為限制增加的更高一級的“清理空間”方面,一直不太擅長。
Reddit表示,新規則不出意外的話將于6月19日生效。截至目前,數據API仍然可以免費訪問通過Reddit開發者平臺的適當用例。
5、拔出蘿卜帶出泥用于訓練的數據版權糾紛
數據是新時代的石油,大模型就是將油加工成高級產品的煉丹爐。只不過這“石油”的歸屬和使用,卻存在太多的爭議空間。
首先是訓練數據侵犯了用戶和企業的版權。
此前,在文生圖領域大火的Midjourney和Stability AI,因將它們的工具用于網絡抓取的圖像而被指控侵犯了數百萬藝術家的權利,面臨法律訴訟。
同樣,庫存圖片供應商也對白嫖行為發起反擊。據悉Getty Images已將Stability AI單獨告上法庭,指控其未經許可使用其網站上數百萬張圖片來訓練藝術生成模型Stable Diffusion。
不打招呼,就偷用了藝術家和平臺的版權圖片,被起訴在所難免。但是這些公司認為,他們已經重新利用人們的圖像來創造新的東西并且這是對數據的合理使用。“請注意,我們會認真對待這些問題。任何認為這不是合理使用的人都不了解這項技術并且誤解了法律,”Stability AI的一位發言人如是說。
其次,生成式AI的輸出也有風險:大模型本身傾向于使用其他來源的圖像和文本,包括版權內容(輸入決定輸出)。一些圖像托管平臺已經禁止使用AI生成的內容,因為他們擔心會引起法律糾紛。
專家警告說,如果企業無意中將生成的AI工具所生成的受版權保護的內容,納入他們銷售的任何產品中,這些企業可能會面臨風險。
不過,業內有一個可以借鑒的方案,就是Adobe Firefly。同樣是生成式AI模型,它僅使用公司的免版稅媒體庫Adobe Stock,以及經過版權公開授權和公共領域內容,訓練Firefly模型。
同時,未來用戶將能夠使用自己的內容訓練和微調Firefly模型,使其輸出具有特定的風格和設計語言。
而且,Adobe似乎在去年8月更新了其內容分析政策,并表示不會訪問存儲在用戶設備本地的內容。
6、寫在最后
樹欲靜而風不止。盡管OpenAI創始人阿爾特曼近日說大模型時代迎來終結,但大模型給社會帶來的影響才剛剛凸顯。此次Reddit突然要向生成式AI大模型收數據費,也將不會是個例。
不管是對話聊天,還是文生圖,保管數據的平臺都不得不卷入這場“生態戰”。版權、隱私、報酬、安全等都是這場戰斗的重要議題。