用戶聊天內(nèi)容不能白用,Reddit將向OpenAI等收費(fèi)
4月19日消息,微軟?、谷歌?和OpenAI?一直在利用Reddit論壇上的用戶聊天數(shù)據(jù)來開發(fā)新的人工智能系統(tǒng)。現(xiàn)在,Reddit打算向這些公司收取使用費(fèi)。
Reddit一直是互聯(lián)網(wǎng)上熱門話題的討論集中地,每天有大約5700萬人訪問這個網(wǎng)站討論各種話題,包括化妝技巧、電子游戲到自動洗車機(jī)等等。
近年來,Reddit論壇上的聊天內(nèi)容已成為谷歌、OpenAI和微軟等公司的免費(fèi)訓(xùn)練工具,用于開發(fā)人工智能系統(tǒng)。現(xiàn)在,許多業(yè)內(nèi)人士認(rèn)為,這些人工智能系統(tǒng)將成為科技行業(yè)的下一個大事件。
因此,Reddit打算向開發(fā)人工智能技術(shù)的公司收費(fèi)。許多公司都通過應(yīng)用程序編程接口(API)下載并處理論壇上的聊天內(nèi)容。周二,Reddit表示計劃開始向使用API的公司收費(fèi)。
Reddit創(chuàng)始人兼首席執(zhí)行官史蒂夫·霍夫曼(Steve Huffman)在接受采訪時表示:“Reddit的數(shù)據(jù)庫確實(shí)很有價值,我們沒有必要免費(fèi)提供這些價值給世界上最大的公司。”
Reddit此舉是社交網(wǎng)絡(luò)首次明確向OpenAI等收取費(fèi)用開放訪問權(quán),用于開發(fā)像ChatGPT這樣的人工智能系統(tǒng)。ChatGPT等新人工智能系統(tǒng)可能有一天會成為大企業(yè),但對Reddit等公司的幫助不大。相反,這些人工智能系統(tǒng)還可以自動生成聊天內(nèi)容,成為Reddit的競爭對手。
Reddit正在為今年可能上市做準(zhǔn)備,該公司成立于2005年,目前主要依賴平臺廣告和電商交易進(jìn)行盈利。Reddit方面表示,正在敲定API接口的收費(fèi)細(xì)節(jié),并將在未來幾周內(nèi)公布價格。
如今,大型語言模型已成為開發(fā)人工智能新技術(shù)的重要組成部分,Reddit論壇上的用戶聊天內(nèi)容也成了有價值的商品。
谷歌人工智能聊天機(jī)器人Bard的底層算法之一就是用Reddit聊天數(shù)據(jù)訓(xùn)練的。同時,OpenAI的ChatGPT也將Reddit的數(shù)據(jù)作為訓(xùn)練大型語言模型的信息之一。
除此之外,其他公司也開始意識到平臺上所存儲的聊天內(nèi)容和圖片的價值。圖片托管服務(wù)Shutterstock已經(jīng)把圖像數(shù)據(jù)出售給OpenAI,幫助開發(fā)了能夠根據(jù)簡單文字提示就能生成圖像的人工智能系統(tǒng)DALL-E。
目前,有幾千家公司和大小開發(fā)者都在使用API跟蹤推特平臺上的幾百萬條聊天內(nèi)容。上個月,個人社交媒體平臺推特所有者埃隆·馬斯克(Elon Musk)表示,他正在改變使用推特API的現(xiàn)行方式,要為使用API收取幾萬到幾十萬不等的費(fèi)用。不過馬斯克沒有提到大型語言模型是促使他做出改變的原因。
為了不斷改進(jìn)模型,人工智能企業(yè)需要兩個重要因素:強(qiáng)大的計算能力和大量可用的數(shù)據(jù)。一些大型人工智能開發(fā)企業(yè)通常擁有足夠的算力,但仍會在互聯(lián)網(wǎng)上尋找改進(jìn)算法所需的數(shù)據(jù)。其中包括維基百科、各種數(shù)字化書籍、學(xué)術(shù)文章和Reddit論壇上的聊天內(nèi)容等資源。
谷歌、OpenAI和微軟等公司目前尚未對Reddit計劃收費(fèi)的事宜作出回應(yīng)。
很長一段時間以來,Reddit與谷歌和必應(yīng)等搜索引擎一直是相互依存的關(guān)系。它們自動獲取Reddit網(wǎng)頁信息,進(jìn)行索引,然后將相關(guān)信息展示在搜索結(jié)果頁面中。雖然這種自動抓取方式不見得受到所有網(wǎng)站的歡迎,但是Reddit卻能因此在搜索結(jié)果中排名靠前。
而大型語言模型則完全不同,它需要盡可能多地獲取數(shù)據(jù),這樣才能創(chuàng)建新的人工智能系統(tǒng)。
Reddit認(rèn)為,它的論壇數(shù)據(jù)特別有價值,因?yàn)樗粩喔隆;舴蚵硎荆@種新鮮度和相關(guān)性正是大型語言模型算法生成最佳結(jié)果所需要的東西。
“Reddit比互聯(lián)網(wǎng)上任何其他地方都更適合聊天,”霍夫曼說。“網(wǎng)站上有很多內(nèi)容是你只會私下里說的,或者壓根就不會說的東西。”
霍夫曼還強(qiáng)調(diào),對于想要開發(fā)幫助人們使用Reddit的應(yīng)用程序開發(fā)者來說,API仍然是免費(fèi)的。比如開發(fā)者可以免費(fèi)使用API等工具來開發(fā)機(jī)器人,自動跟蹤用戶評論是否遵守了內(nèi)容發(fā)布規(guī)則。出于學(xué)術(shù)研究或非商業(yè)目的來研究Reddit數(shù)據(jù)的人也能繼續(xù)免費(fèi)訪問這些數(shù)據(jù)。
Reddit還希望將更多機(jī)器學(xué)習(xí)融入論壇運(yùn)營,例如,Reddit可以用機(jī)器學(xué)習(xí)來識別平臺上人工智能生成文本的使用情況,并為其添加標(biāo)簽,告知用戶哪些評論是來自機(jī)器人。Reddit還承諾改進(jìn)供論壇版主使用的軟件工具,幫助他們監(jiān)控論壇上的第三方機(jī)器人。
但對于人工智能制造商來說,Reddit認(rèn)為是時候付費(fèi)了。
“通過抓取Reddit的數(shù)據(jù)來創(chuàng)造價值,卻不向我們的用戶返利,這是我們自己的問題,”霍夫曼說。“現(xiàn)在是我們加強(qiáng)管理的好時機(jī)。”(辰辰)