成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI公布「官方爬蟲」:GPT-5靠它訓(xùn)練,有需要可以屏蔽

人工智能 新聞
GPTBot 引發(fā)了關(guān)于所有權(quán)、合理使用和網(wǎng)絡(luò)內(nèi)容創(chuàng)建者激勵(lì)機(jī)制的復(fù)雜爭(zhēng)論。雖然遵循 robots.txt 是一個(gè)很好的步驟,但仍然缺乏透明度。

眾所周知,OpenAI 從 GPT-4 開始就已經(jīng)對(duì)技術(shù)細(xì)節(jié)完全保密了,最初只用一份 Tech Report 來展示基準(zhǔn)測(cè)試結(jié)果,而閉口不談?dòng)?xùn)練數(shù)據(jù)和模型參數(shù)。盡管后來有網(wǎng)友各種爆料,OpenAI 也從未回應(yīng)。

不難想象,訓(xùn)練 GPT-4 需要海量的數(shù)據(jù),這可不是付費(fèi)購買能解決的問題。大概率,OpenAI 用了網(wǎng)絡(luò)爬蟲。很多用戶指控 OpenAI,理由就是這種手段會(huì)侵犯用戶的版權(quán)和隱私權(quán)。

剛剛,OpenAI 攤牌了:直接公布從整個(gè)互聯(lián)網(wǎng)爬取數(shù)據(jù)的網(wǎng)絡(luò)爬蟲 ——GPTBot。

這些數(shù)據(jù)將被用來訓(xùn)練 GPT-4、GPT-5 等 AI 模型。不過 GPTBot 保證了,爬取內(nèi)容絕對(duì)不包括違反隱私來源和需要付費(fèi)的內(nèi)容。

OpenAI 表示:「使用 GPTBot 爬取網(wǎng)絡(luò)數(shù)據(jù)是為了改進(jìn) AI 模型的準(zhǔn)確性、功能性和安全性。」

網(wǎng)站所有者可以根據(jù)需要允許和限制 GPTBot 爬取網(wǎng)站數(shù)據(jù)。接下來,我們來看下 GPTBot 究竟是如何工作的,順便了解一下屏蔽方法。

首先,GPTBot 的用戶代理字符串(User-Agent String)如下:

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以將 GPTBot 添加到網(wǎng)站的 robots.txt,禁止 GPTBot 訪問網(wǎng)站:

User-agent: GPTBot

Disallow: /

還可以允許 GPTBot 訪問網(wǎng)站特定部分的內(nèi)容:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

近期,OpenAI 因?yàn)槲唇?jīng)明確批準(zhǔn)而在網(wǎng)站數(shù)據(jù)上訓(xùn)練 GPT-4 等大型語言模型而遭到強(qiáng)烈反對(duì)。批評(píng)者們表示,即使內(nèi)容可以公開訪問,像 OpenAI 這樣的公司也應(yīng)該遵循訓(xùn)練協(xié)議。人們還擔(dān)心,內(nèi)容在輸入 AI 系統(tǒng)時(shí)會(huì)被斷章取義。

但即使遵循了 robots 協(xié)議,鑒于其并不是規(guī)范,而只是約定俗成的,所以并不能保證網(wǎng)站的隱私。

GPTBot 發(fā)布之后,這條動(dòng)態(tài)已經(jīng)在 Hacker News 上引發(fā)了一場(chǎng)爭(zhēng)論,焦點(diǎn)是使用抓取的網(wǎng)絡(luò)數(shù)據(jù)來訓(xùn)練人工智能系統(tǒng)的道德和合法性。

一部分人認(rèn)為,GPTBot 的推出展示了使用公開數(shù)據(jù)研發(fā) AI 模型的「灰色地帶」:

「在訓(xùn)練完模型后還爬取數(shù)據(jù),這真是太好了。根據(jù)推測(cè),這些 header 不會(huì)影響他們已經(jīng)抓取來訓(xùn)練 GPT 的任何頁面。」

「現(xiàn)在,他們可以游說反抓取的監(jiān)管并阻礙其他任何的追趕了。」

圖片

鑒于 GPTBot 會(huì)識(shí)別自己的身份,因此網(wǎng)站管理員可以通過 robots.txt 阻止它,但有些人認(rèn)為允許它這樣做沒有任何好處,不像搜索引擎爬蟲會(huì)帶來流量。

一個(gè)值得關(guān)注的問題是,受版權(quán)保護(hù)的內(nèi)容會(huì)在未注明出處的情況下被使用。ChatGPT 目前沒有注明出處。

圖片

還有人質(zhì)疑 GPTBot 如何處理網(wǎng)站上的授權(quán)圖片、視頻、音樂和其他媒體。如果這些媒體在模型訓(xùn)練中用到,則可能構(gòu)成版權(quán)侵權(quán)。

另外一些專家認(rèn)為,如果 AI 編寫的內(nèi)容被反饋到訓(xùn)練中,爬蟲生成的數(shù)據(jù)可能會(huì)降低模型的性能。

相反,一些人認(rèn)為 OpenAI 有權(quán)自由使用公共網(wǎng)絡(luò)數(shù)據(jù),并將其比作一個(gè)人從在線內(nèi)容中學(xué)習(xí)。但也有人認(rèn)為,如果 OpenAI 將網(wǎng)絡(luò)數(shù)據(jù)貨幣化以獲取商業(yè)利益,那么就應(yīng)該分享利潤(rùn)。

總之,GPTBot 引發(fā)了關(guān)于所有權(quán)、合理使用和網(wǎng)絡(luò)內(nèi)容創(chuàng)建者激勵(lì)機(jī)制的復(fù)雜爭(zhēng)論。雖然遵循 robots.txt 是一個(gè)很好的步驟,但仍然缺乏透明度。

這或許是科技界下一個(gè)輿論焦點(diǎn):隨著 AI 產(chǎn)品的快速發(fā)展,「數(shù)據(jù)」到底該怎么用?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-08 07:58:29

2023-04-15 19:37:50

OpenAIGPT-5

2023-08-02 00:19:46

2024-01-18 12:30:03

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2023-04-13 13:38:59

2025-06-19 09:06:00

2023-08-02 13:52:59

GPT-5模型

2023-08-11 10:44:20

GPT-5

2023-11-14 14:26:29

OpenAIGPT-5

2023-08-10 15:22:48

人工智能OpenAI

2023-08-08 14:17:58

OpenAI模型

2024-08-28 13:00:42

2024-01-22 13:57:00

模型訓(xùn)練

2023-12-19 19:50:49

GPT-5OpenIA風(fēng)險(xiǎn)

2025-02-13 09:15:00

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-02-20 11:20:41

2024-06-24 00:02:00

GPT-5GPT-4oOpenAI

2024-02-19 00:00:00

OpenAIChatGPT功能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 天堂视频中文在线 | 久久国产精品一区二区三区 | 亚洲深夜福利 | 91婷婷韩国欧美一区二区 | av黄色在线 | 91精品国产麻豆 | 婷婷五月色综合香五月 | 综合色在线 | 国产精品99久久久久久宅男 | 日韩二三区 | 亚洲国产精品久久人人爱 | 在线免费观看a级片 | 亚洲综合色网 | 国产黄色大片 | 亚洲精品视频在线看 | 欧美理论片在线观看 | 91精品国产一区二区三区动漫 | 亚洲国产精品一区二区三区 | 欧美精品一区二区三区在线播放 | 久久99精品久久久久久国产越南 | 国产成人精品一区二区三区四区 | 日日夜夜精品免费视频 | 99久久精品国产一区二区三区 | 国产精品精品久久久 | 91精品久久久久久久久久 | av网址在线播放 | 日韩a v在线免费观看 | 国产清纯白嫩初高生视频在线观看 | 精品国产乱码久久久久久闺蜜 | 麻豆国产一区二区三区四区 | 国产精品久久久免费 | 免费成人高清 | h视频在线免费 | 日韩精品在线观看一区二区三区 | 精品少妇一区二区三区在线播放 | 99精品99久久久久久宅男 | 欧美一区二区三区精品免费 | 国产精品视频一二三区 | 久久91精品国产 | 岛国av免费在线观看 | www.三级|