OpenAI 現允許網站阻止其網絡爬蟲抓取數據,避免數據被用于訓練 AI 模型
8 月 8 日消息,OpenAI 旗下 GPT 模型的訓練需要大量的網絡數據,這可能涉及到數據隱私和版權等問題。為了解決這些問題,OpenAI 最近推出了一個新功能,讓網站可以阻止其網絡爬蟲(web crawler)從其網站上抓取數據訓練 GPT 模型。
據IT之家了解,網絡爬蟲是一種自動化的程序,可以在互聯網上搜索和獲取信息。OpenAI 的網絡爬蟲名為 GPTBot,其會以一定的頻率訪問各種網站,并將網頁內容保存下來,用于訓練 GPT 模型。
OpenAI 在其博客文章中表示,網站運營者可以通過在其網站的 Robots.txt 文件中禁止 GPTBot 的訪問,或者通過屏蔽其 IP 地址,來阻止 GPTBot 從其網站上抓取數據。OpenAI 還表示,“使用 GPTBot 用戶代理(user agent)抓取的網頁可能會被用于改進未來的模型,并且會過濾掉那些需要付費訪問、已知收集個人身份信息(PII)、或者有違反我們政策的文本的來源。”對于不符合排除標準的來源,“允許 GPTBot 訪問您的網站可以幫助 AI 模型變得更加準確,并提高它們的通用能力和安全性。”
但是,這并不會追溯性地從 ChatGPT 的訓練數據中刪除之前從網站上抓取的內容。
互聯網為大型語言模型(如 OpenAI 的 GPT 模型和谷歌的 Bard)提供了大部分的訓練數據,為 AI 訓練獲取數據已經變得越來越有爭議。一些網站,包括 Reddit 和 Twitter,已經采取措施打擊 AI 公司免費使用其用戶帖子的行為,而一些作者和其他創作者也因為涉嫌未經授權使用其作品而提起訴訟。