交錢！StackOverflow：類ChatGPT們用我數據訓練得付費

作者：金磊 2023-04-24 09:37:33

人工智能新聞

隨著這一波AIGC熱潮的到來，其背后的各種“規矩”，是值得深入探討、商定了。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

ChatGPT，遭到了一波反向收費。

而管OpenAI要錢的，正是全球最大程序員問答網站StackOverflow。

理由是這樣的：

你們拿我家的數據去訓練AI了。

無獨有偶，在StackOverflow之前，Reddit近日也發出了類似的信號——計劃開始向訪問其API的公司收費。

Reddit老板給出的理由更是直白：

我們的數據非常有價值，不想免費提供給科技巨頭們。

不得不說，這波圍繞類ChatGPT展開的“商戰”著實有點意思。

不過圍觀的網友們就不那么樂觀了：

唯一沒有獲利的……好像就是用戶了。

科技巨頭們要為訓練數據買單了

我們都知道，訓練一個像諸如ChatGPT這樣的AI，背后定然需要海量的數據。

無論是OpenAI、谷歌、微軟、Meta或是其它公司都是如此。

但這些科技巨頭們一般獲取這些數據的方式都是從網上抓取，也因此不會給對應數據背后的公司掏錢。

他們所獲取的數據來源，就包括了StackOverflow、Reddit在內的數千個在線“資源”。

然后科技巨頭們就會將這些數據“喂”給大模型，讓對話AI變得更聰明、更智能。

待產品們成熟可以“上崗”之后，科技巨頭們就會開啟付費模式，例如我們熟知的ChatGPT Plus、GitHub Copilot等等。

但在這么一個過程中，像StackOverflow和Reddit這樣的網站，就有點慘了。

首先，就是我們剛才提到的，這些AI拿著他們家的數據做訓練，變得更強更優秀。

其次，這些AI的誕生似乎對于它們來說并沒有太大的益處，反倒可能會變成非常有競爭力的對手。

于是乎，Reddit就率先不干了，CEO Steve Huffman直接撂下狠話：

想白嫖，沒門！得交錢。

而后StackOverflow的CEO Prashanth Chandrasekar也公開贊成Reddit的做法。

不僅如此，他還認為這些大語言模型（LLM）的開發人員還違反了自家網站用戶們的權益。

因為在StackOverflow條款中有這樣的明確規定：

用戶擁有他們在Stack Overflow上發布內容的所有權，但所有內容均受知識共享許可的約束，該許可要求以后使用這些數據的任何人都說明其來源。

Chandrasekar認為，日后科技巨頭們拿著自家的類ChatGPT的產品去出售的時候，開發人員是解釋不清用了StackOverflow哪些用戶的問答去訓練的模型：

因此，他們違反了知識共享許可。

據了解，StackOverflow和Reddit目前都沒有對數據收費做明確的公示，而且價格也沒有定下來。

但另一方面，各種大語言模型背后的企業，也正在努力降低開發的成本。

將來若是訓練數據都要收費了……那這部分成本又將會有誰來買單呢？

反正Reddit CEO的表態是：

爬取Reddit數據產生了價值，卻不將任何價值返還給我們的用戶，這是個問題。

會怎么收費？

雖然目前StackOverflow和Reddit都沒有明確訓練數據的價格，但有媒體猜測，他們可能會借鑒馬斯克推特的“定價路線”。

例如在這個月，馬斯克就提高了訪問推特數據的價格——42000美元/5000萬條推文。

更戲劇性的是，馬斯克前一陣子還以“OpenAI非法使用推特數據訓練”為由，準備起訴OpenAI。

而不僅是文字領域，在圖片生成領域，因訓練數據而產生的糾紛也是屢見不鮮。

例如Getty Image就在此前起訴了OpenAI的對手Stability AI。

理由是涉嫌使用超過1200萬張照片且之前沒有尋求過許可。

……

至于像StackOverflow和Reddit最終將如何定價，還需要等待他們官方的表態。

但值得明確的一點是，隨著這一波AIGC熱潮的到來，其背后的各種“規矩”，是值得深入探討、商定了。

責任編輯：張燕妮來源：量子位

ChatGPT 數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

交錢！StackOverflow：類ChatGPT們用我數據訓練得付費

科技巨頭們要為訓練數據買單了

會怎么收費？