點擊參加51CTO網站內容調查問卷
作者丨Matt Asay
編譯丨千山
日前,Stack Overflow悄悄改變了一項長期政策——它不再將社區貢獻的數據上傳到互聯網檔案館,并要求版主們將“重新啟用數據轉儲”添加到他們的要求列表中。首席技術官Jody Bailey說,這樣做是為了“保護Stack Overflow數據不被構建LLM的公司濫用。”
關于人工智能內容,由社區運營的開源問答平臺Codidact早就指出,“使用人工智能生成的內容,特別是大語言模型(LLM)生成的內容,構成了對平臺的濫用,版主有權刪除此類內容并發出他們認為合適的警告?!?/p>
在科技領域,我們最終都是寄生蟲。
正如Drupal的創造者Dries Buytaert多年前所說,與其說我們是“制造者”,不如說我們是“接受者”。Buytaert指的是開源社區的常見做法:“接受者不會對他們所接受的開源項目做出有意義的貢獻”,而這傷害了他們所依賴的項目。即使是最熱心的開源貢獻者,也比她貢獻的要多。
谷歌、臉書和推特這些平臺出現了同樣的“寄生”趨勢,它們都依賴于他人生產的內容。可以說,今天的生成人工智能(GenAI)更是如此。
Sourcegraph開發人員Steve Yegge曾夸張地宣稱,“LLM不僅是自社交網絡、智能手機或云以來最大的變化,它們更是自萬維網以來最大的事情?!?/p>
他的說法或許有其正確性。這些大型語言模型本質上是寄生的:它們依賴于抓取其他人的代碼存儲庫(GitHub),技術答案(Stack Overflow),文獻等等。
正如在開源中發生的那樣,內容創建者和聚合器開始阻止LLM訪問其內容。例如,鑒于網站流量下降,Stack Overflow加入了Reddit的行列,要求LLM創建者為使用其數據來訓練LLM付費。這是一個大膽的舉動,讓人想起出版商為抵御谷歌和臉書而在開源和付費墻中進行的許可戰。但它會起作用嗎?
1、被“過度放牧”的開放地帶
我確信技術寄生蟲的歷史早于開源。自Linux或MySQL誕生之初,就有一些公司從他人的貢獻中獲利。例如,最近在Linux中,Rocky Linux和Alma Linux都承諾與Red Hat Enterprise Linux(RHEL)實現“bug對bug的兼容性”,而對Red Hat的成功沒有任何貢獻。事實上,這兩個RHEL克隆成功的自然結論是消滅它們的宿主,導致它們自己的滅亡,這就是為什么Linux領域有人稱它們為開源界的“別有用心之人(dirtbag)”。
也許這句話可以表達很多意思,但你明白其潛臺詞。這與曾經面向AWS上提出的批評相同(一種日益失去相關性的“剝離采礦”批評),并引發了許多關于開源許可、商業模式以及開源可持續性的長期討論。
當然,開源從未如此強大。不過,單獨的開源項目的健康程度各不相同。一些項目(和項目維護者)已經想出了如何管理社區內的“接受者”;其他人則沒有。然而,作為一種趨勢,開源的重要性和實力還是不斷增長。
2、當所有知識都被倒入機器
像摩根大通這樣的大型企業正在花費數十億美元,雇傭1000多名數據科學家、機器學習工程師等,以推動個性化、分析等領域產生對應價值的影響。盡管許多企業一直不愿公開接受像ChatGPT這樣的東西,但現實情況是,他們的開發人員已經在使用LLM來提高生產力。
這些收益的代價現在才剛剛變得清晰起來。也就是說,像Stack Overflow這樣的公司的成本,歷來是生產力提高的來源。
就像Similarweb詳述地那樣,自2022年1月以來,Stack Overflow的流量平均每月下降6%,2023年3月急劇下降13.9%。將這種下降歸咎于ChatGPT和其他GenAI驅動的工具可能過于簡單,但如果認為它們沒有參與其中,那也過于天真。
只要問問Intentional.io的創始人、Stack Overflow 排名前2%的用戶Peter Nixey就明白了。他的答案已經惠及逾170萬名開發人員。盡管他在Stack Overflow上表現突出,但Nixey說,“我不太可能再在那里寫任何東西了。為什么?因為像ChatGPT這樣的LLM可能會耗盡Stack Overflow上的知識庫。
“當我們停止將知識匯集在一起,而是直接將其倒入機器中時,會發生什么?”Nixey提出了這樣的問題。他所說的“機器”指的是ChatGPT等GenAI工具。
例如,從像GitHub Copilot這樣的AI工具中獲得答案的確很棒,該工具在GitHub存儲庫,Stack Overflow Q&A等上面進行了訓練。但是區別于Stack Overflow,這些問題是私下里問的,不會產生公共信息存儲庫。
Nixey據此發出了靈魂一問:“如果說GPT-4(在Stack Overflow上)接受了2021年之前所有問題的訓練,那么GPT-6將在什么上面進行訓練?”
3、問題所在:單向的高速公路
看到問題所在了嗎?這不是小事,而且它可能比我們在開源領域經歷過的討價還價,更為嚴重。
“如果這種模式在其他地方復制,我們的集體知識的方向從外向到人類轉到向內進入機器,那么我們對它的依賴將取代我們以前對機器的所有依賴?!盢ixey如此說道。委婉地說,這是一個問題。他強調說:“就像快速增長的COVID-19變種一樣,人工智能將僅僅憑借增長而成為知識的主要來源。“如果我們以Stack Overflow為例,曾經屬于我們的人類知識庫可能會被簡化為模型內部的權重?!?/p>
這其中牽涉到很多利害關系,而不僅僅是不斷流入人工智能的大量現金。我們還需要評估像ChatGPT這樣的東西生成的信息的相對價值。
值得一提的是,Stack Overflow 在2022年12月禁止了ChatGPT派生的答案,因為它們文本冗長、信息貧乏?!坝捎趶腃hatGPT獲得正確答案的平均比率太低,發布ChatGPT創建的答案對網站以及尋找正確答案的用戶造成了極大的傷害。”
像ChatGPT這樣的東西并不是為了產生正確的信息而設計的,而只是簡單的符合數據模式的概率信息。換言之,開源可能充滿了“dirtbag”,但如果沒有穩定的良好的訓練數據流,LLM可能會簡單地用垃圾信息來補充自己,變得不那么有用。
整體而言,這并不是貶低LLM和GenAI的承諾。與開源、出版商等一樣,我們可以感謝OpenAI和其他公司幫助我們利用集體制作的信息,同時仍然為Reddit等貢獻者歡呼,因為他們期望為他們所扮演的角色付費。開源經歷了它的許可戰,看起來我們將在GenAI的世界里遇到類似的事件,不過其后果將影響更廣、更加不可預估。
參考鏈接:https://www.infoworld.com/article/3697733/chatgpt-s-parasitic-machine.html


2022-05-12 10:49:15




