OpenAI遭起訴:訓練ChatGPT,涉嫌竊取數百萬用戶信息
明星大模型 ChatGPT 的走向開始出現一些小波折。
一家總部位于加州的克拉克森律師事務所用一份長達 157 頁的訴訟將 OpenAI 告到法庭,該訴訟表明 OpenAI 在利潤的驅使下,正在竊取大量個人信息來訓練其人工智能模型,使其聊天機器人能夠模仿人類語言。
訴訟稱,這種數據抓取的規模是前所未有的。原來 OpenAI 從互聯網上秘密抓取了約 3000 億字的內容,其中包括書籍、文章、網站和帖子,甚至還包括未經同意的個人信息,這違反了隱私法。
圖片
訴訟文件鏈接:https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/rIZH4FXwShJE/v0
該訴訟指責 OpenAI 冒著「文明崩潰」的風險。他們根據受害的個人類別估計有數百萬人,提出了 30 億美元的潛在損失。
「通過收集數百萬人以前模糊的個人數據,并將其挪用,進而開發不穩定的、未經測試的技術,OpenAI 將每個人置于不可估量的風險之中,但無論采取任何負責任的數據保護和使用措施,都是不可接受的,」該律師事務所的一位合伙人 Timothy K. Giordano 表示。
文件顯示,OpenAI 爬取了大量的數據,包括社交媒體網站的數據。OpenAI 的專有 AI 語料庫 WebText2 上積累了大量的個人數據,其中包括從 Reddit 帖子及其鏈接到網站中獲取的數據。
OpenAI 獲取的數據包括私人信息、私人對話、醫療數據、兒童信息。他們在獲取這些信息時沒有通知用戶,更不用說被用戶許可了。
除了爬取廣大公眾的數據外,訴訟表明 OpenAI 還存在存儲和披露用戶個人信息的行為,包括用戶創建 OpenAI 賬戶的詳細信息、聊天記錄和社交媒體信息。
圖片
訴訟還稱:盡管制定了購買和使用個人信息的協議,但被告采取了不同的方法「盜竊」。
直接使用 ChatGPT 信息遭泄露,那些集成了 ChatGPT 應用程序的用戶也被波及,例如使用 Snapchat、Stripe、Spotify、Microsoft Teams 和 Slack 的用戶也存在信息泄露的風險。
該訴訟要求在 OpenAI 實施更多監管和保護措施之前,暫停 OpenAI 產品的商業訪問和商業開發,包括允許人們選擇退出數據收集,并防止其產品超越人類智能并對他人造成傷害。除了 OpenAI,其背后的主要支持者微軟也被列為被告。
「毫無疑問,人工智能平臺可能為世界帶來很多好事,但它們也可能對人類造成潛在的災難性風險。」訴訟顯示。
其實,OpenAI 并不是唯一一家借助互聯網獲取大量數據來訓練 AI 模型的公司。谷歌、Meta、微軟和越來越多的其他公司都在做同樣的事情。但該律師事務所的一位合伙人表示,他們之所以決定追擊 OpenAI,是因為去年 OpenAI 通過 ChatGPT 刺激了更大的競爭對手推出自己的人工智能產品。他們是引發這場人工智能軍備競賽的公司,他們自然是第一目標。
這波未平,那波又起。北京時間 6 月 30 日,據路透社報道,又有兩名作者在美國舊金山聯邦法院起訴 OpenAI,他們認為 OpenAI 濫用其作品來訓練 ChatGPT。
來自馬薩諸塞州的兩位作家 Paul Tremblay 和 Mona Awad 表示,ChatGPT 在未經許可的情況下挖掘了數千本書的數據,侵犯了作者的版權。
大家都知道,ChatGPT 和其他生成式人工智能系統使用從互聯網上獲取的大量數據創建內容。Tremblay 和 Awad 的訴訟稱,書籍是一個關鍵要素,因為它們提供了高質量長篇寫作的最佳示例。
他們估計,OpenAI 的訓練數據包含了超過 30 萬本書,當中有許多是沒有獲得許可、非法獲取的有版權圖書。
Tremblay 和 Awad 表示 ChatGPT 可以生成非常準確的書籍摘要,表明這些書籍出現在其數據庫中。
一時之間,圍繞 OpenAI 的訓練數據問題不斷被暴露。
其實,自去年 11 月發布 ChatGPT 以來,生成式人工智能由于其可以創建文本、音頻、圖像、視頻等大受歡迎。人們一直尋求將生成式人工智能用于個人、專業和學術目的,盡管有人擔心它對個人數據帶來威脅。
為了應對 ChatGPT 帶來的潛在風險,今年 3 月,意大利宣布暫時禁止訪問 ChatGPT,原因是出于隱私擔憂,聲稱沒有法律依據來證明用于訓練 ChatGPT 的大規模數據是合法的。一些公司,包括亞馬遜和微軟,已經指示員工不要將機密信息輸入到聊天機器人。與此同時,三星已全面禁止員工使用生成式人工智能工具。
除此以外,人工智能還會傳播虛假信息也是大家擔心的問題,有些人還將其故意用于惡意目的。
雖然 ChatGPT 的成功引發了科技界一場明顯的人工智能軍備競賽,大大小小的公司現在都在競相開發人工智能工具并將其部署到盡可能多的產品中。但不管怎樣,信息安全還是首位的。