GitHub 編程神器 Copilot被斥「盜版」大量開源代碼,面臨90億美元集體訴訟
作者:Mickey?
自誕生之日起就飽受爭議的微軟代碼工具Copilot近期又遭遇了新的問題。
一名程序員就該工具正式起訴了微軟、GitHub 和 OpenAI,尋求對微軟和其他設(shè)計(jì)部署 Copilot 的公司進(jìn)行集體訴訟,并要求賠償。目前訴訟已經(jīng)提交到了美國加州北區(qū)地方法院,要求批準(zhǔn) 9,000,000,000 美元的法定賠償金。
讓程序員們早下班的AI工具
Copilot到底何方神器?
今年6 月下旬,微軟發(fā)布了一種可以自動生成計(jì)算機(jī)代碼的新型人工智能技術(shù)。
該工具名為 Copilot,旨在讓專業(yè)程序員更快地工作。當(dāng)他們工作時,Copilot會給出代碼建議,程序員可以直接將copilot展示的建議的代碼塊直接添加到自己的代碼中,快速完成工作,這一工具也因此被很多媒體譽(yù)為“讓程序員早下班的工具”。
據(jù) Copilot 網(wǎng)站稱,Copilot基于Codex 模型產(chǎn)生,其由“互聯(lián)網(wǎng)上的公共代碼和文本”訓(xùn)練,“既能理解編程,也能理解人類語言”。作為 Visual Studio Code 的擴(kuò)展,Copilot “將你的評論和代碼發(fā)送到 GitHub Copilot 服務(wù),然后它會使用 OpenAI Codex 來合成并建議個別行和整個函數(shù)”。
許多程序員喜歡這個新工具,有開發(fā)者表示: “使用 Copilot,我能盡量少把精力浪費(fèi)在枯燥重復(fù)的工作身上。它點(diǎn)燃的靈感火花,讓我感到編碼過程更有趣、更高效了?!钡灿胁簧偃瞬毁I賬,洛杉磯的程序員、設(shè)計(jì)師、作家和律師Matthew Butterick就是其中之一。本月,他和其他律師團(tuán)隊(duì)提起訴訟,尋求對微軟和其他設(shè)計(jì)和部署 Copilot 的知名公司的集體訴訟地位。
前程序員律師發(fā)起集體訴訟:與盜版無異
與許多尖端人工智能技術(shù)一樣,Copilot通過分析大量數(shù)據(jù)來發(fā)展其技能。在這種情況下,它依賴于發(fā)布到互聯(lián)網(wǎng)上的數(shù)十億行計(jì)算機(jī)代碼。52 歲的 Butterick認(rèn)為此過程等同于盜版,因?yàn)樵撓到y(tǒng)不會展示任何版權(quán)來源。他的訴訟聲稱微軟及其合作者侵犯了數(shù)百萬、花費(fèi)數(shù)年時間敲下原始代碼的程序員的合法權(quán)利。
這起訴訟被認(rèn)為是對稱為“AI訓(xùn)練”類技術(shù)的首次法律訴訟。通過大量公開數(shù)據(jù)進(jìn)行訓(xùn)練,讓ai學(xué)習(xí)并生成自己的產(chǎn)物,這是一種構(gòu)建人工智能的方式,有望重塑科技行業(yè)。這些所謂產(chǎn)物包括畫作、文字、和代碼。近年來,許多藝術(shù)家、作家、專家和隱私活動家抱怨說,公司正在使用不屬于他們的數(shù)據(jù)來訓(xùn)練他們的人工智能系統(tǒng)。
程序員兼律師馬修·巴特里克 (Matthew Butterick) 表示,他擔(dān)心自己所做的工作在新的人工智能系統(tǒng)中被不當(dāng)使用。
在過去幾十年的技術(shù)發(fā)展中,這一訴訟并不是首例。在 1990 年代和 2000 年代,微軟與開源軟件的興起作斗爭,將其視為對公司業(yè)務(wù)未來的生存威脅。隨著開源的重要性與日俱增,微軟欣然接受它,后來還收購了開源程序員的家園——GitHub。
幾乎每一代新技術(shù),甚至是在線搜索引擎,都面臨著類似的法律挑戰(zhàn)。通常,“沒有任何成文法或判例法對其有效,”專門研究這一法律領(lǐng)域的知識產(chǎn)權(quán)律師Bradley J. Hulbert說。
這起訴訟是人工智能發(fā)展途中的重要里程碑。藝術(shù)家、作家、作曲家和其他創(chuàng)意類型越來越擔(dān)心公司和研究人員在未經(jīng)他們同意且不提供報酬的情況下使用他們的作品來創(chuàng)造新技術(shù)。公司以這種方式訓(xùn)練各種各樣的系統(tǒng),包括藝術(shù)生成器、 Siri 和 Alexa 等語音識別系統(tǒng),甚至無人駕駛汽車。
Copilot 基于由 OpenAI 構(gòu)建的技術(shù),在微軟和 GitHub 發(fā)布 Copilot 后,GitHub 的首席執(zhí)行官 Nat Friedman 在推特上表示,根據(jù)版權(quán)法,使用現(xiàn)有代碼來訓(xùn)練系統(tǒng)是對材料的“合理使用”,構(gòu)建這些系統(tǒng)的公司和研究人員經(jīng)常使用這一論點(diǎn)。但目前還沒有法庭案件檢驗(yàn)過這一論點(diǎn)。
“微軟和 OpenAI 的野心遠(yuǎn)遠(yuǎn)超出了 GitHub 和 Copilot,”Butterick在接受采訪時說。“他們想在任何地方免費(fèi)訓(xùn)練任何數(shù)據(jù),無需同意,永遠(yuǎn)?!?/p>
從GPT-3到Copilot,AI用開源數(shù)據(jù)訓(xùn)練是否合法?
2020 年,OpenAI推出了一個名為 GPT-3 的系統(tǒng)。研究人員使用大量數(shù)字文本對系統(tǒng)進(jìn)行訓(xùn)練,其中包括數(shù)千本書籍、維基百科文章、聊天記錄和其他發(fā)布到互聯(lián)網(wǎng)上的數(shù)據(jù)。
通過精確定位所有文本中的模式,該系統(tǒng)學(xué)會了預(yù)測序列中的下一個單詞。當(dāng)有人在這個“大型語言模型”中輸入幾個單詞時,它可以用整段文本來完成這個想法。通過這種方式,系統(tǒng)可以編寫自己的 Twitter 帖子、演講、詩歌和新聞文章。
令構(gòu)建該系統(tǒng)的研究人員大吃一驚的是,它甚至可以編寫計(jì)算機(jī)程序,顯然是從互聯(lián)網(wǎng)上發(fā)布的無數(shù)程序中學(xué)到的。
因此,OpenAI 更進(jìn)一步,在專門存儲代碼的新數(shù)據(jù)集合上訓(xùn)練新系統(tǒng)Codex 。該實(shí)驗(yàn)室后來在一份詳細(xì)介紹該技術(shù)的研究論文中表示,至少部分代碼來自 GitHub。
這個新系統(tǒng)成為 Copilot 的底層技術(shù),微軟通過 GitHub 分發(fā)給程序員。在與相對較少的程序員進(jìn)行了大約一年的測試后,Copilot 于 7 月在 GitHub 上向所有程序員推出。
目前,Copilot 生成的代碼很簡單,可能對更大的項(xiàng)目有用,但必須進(jìn)行修改、擴(kuò)充和審查,許多使用過該技術(shù)的程序員表示。有些程序員發(fā)現(xiàn)它只有在學(xué)習(xí)編碼或試圖掌握一門新語言時才有用。
盡管如此,Butterick還是擔(dān)心 Copilot 最終會摧毀全球程序員社區(qū)。系統(tǒng)發(fā)布幾天后,他發(fā)表了一篇博文,標(biāo)題為:“這個Copilot很蠢,它想殺了我”。
Butterick 先生自稱為開源程序員,是與世界公開分享代碼的程序員社區(qū)的一員。在過去的 30 年里,開源軟件幫助推動了消費(fèi)者每天使用的大多數(shù)技術(shù)的興起,包括網(wǎng)絡(luò)瀏覽器、智能手機(jī)和移動應(yīng)用程序。
盡管開源軟件旨在在編碼人員和公司之間自由共享,但這種共享受許可證約束,旨在確保它的使用方式使更廣泛的程序員社區(qū)受益。Butterick 先生認(rèn)為,Copilot 違反了這些許可證,并且隨著它的不斷改進(jìn),將使開源編碼器變得過時。
在公開吐槽這個問題幾個月后,他向其他幾位律師提起訴訟。該訴訟仍處于早期階段,尚未被法院授予集體訴訟地位。
令許多法律專家感到意外的是,Butterick的訴訟并未指控微軟、GitHub 和 OpenAI 侵犯版權(quán)。他的訴訟采取了不同的策略,認(rèn)為這些公司違反了 GitHub 的服務(wù)條款和隱私政策,同時也違反了要求公司在使用材料時顯示版權(quán)信息的聯(lián)邦法律。
Butterick和訴訟背后的另一位律師喬·薩維里 (Joe Saveri) 表示,訴訟最終可能會解決版權(quán)問題。
當(dāng)被問及公司是否可以討論這起訴訟時,GitHub 發(fā)言人拒絕了采訪,然后在一封電子郵件聲明中表示,該公司“從一開始就致力于通過 Copilot 進(jìn)行負(fù)責(zé)任的創(chuàng)新,并將繼續(xù)改進(jìn)產(chǎn)品,為全球開發(fā)人員提供最好的服務(wù)” 微軟和 OpenAI 拒絕就訴訟發(fā)表評論。
大多數(shù)專家認(rèn)為,根據(jù)現(xiàn)行法律,在受版權(quán)保護(hù)的材料上訓(xùn)練人工智能系統(tǒng)不一定違法。但這樣做可能是因?yàn)橄到y(tǒng)最終創(chuàng)建的材料與它所訓(xùn)練的數(shù)據(jù)基本相似。
Copilot 的一些用戶表示,它生成的代碼似乎與現(xiàn)有程序相同(或幾乎相同),這一觀察結(jié)果可能成為 Butterick 先生和其他人案例的核心部分。
加州大學(xué)伯克利分校教授帕姆·薩繆爾森專門研究知識產(chǎn)權(quán)及其在現(xiàn)代技術(shù)中的作用,他說法律思想家和監(jiān)管機(jī)構(gòu)在技術(shù)出現(xiàn)之前的 80 年代簡要探討了這些法律問題。她說,現(xiàn)在需要進(jìn)行法律評估。
“這不再是玩具問題,”薩繆爾森博士說。
Butterick還創(chuàng)建了一個網(wǎng)站,跟進(jìn)訴訟情況,也呼吁更多人的支持,在網(wǎng)站文章中他強(qiáng)調(diào):“我們反對的絕不是 AI 輔助編程工具,而是微軟在 Copilot 當(dāng)中的種種具體行徑。微軟完全可以把 Copilot 做得更開發(fā)者友好——比如邀請大家自愿參加,或者由編程人員有償對訓(xùn)練語料庫做出貢獻(xiàn)。但截至目前,口口聲聲自稱熱愛開源的微軟根本沒做過這方面的嘗試。另外,如果大家覺得 Copilot 效果挺好,那主要也是因?yàn)榈讓娱_源訓(xùn)練數(shù)據(jù)的質(zhì)量過硬。Copilot 其實(shí)是在從開源項(xiàng)目那邊吞噬能量,而一旦開源活力枯竭,Copilot 也將失去發(fā)展的依憑?!?/p>
相關(guān)素材:
https://archive.ph/3tuU0
https://githubcopilotinvestigation.com/