GitHub遭炮轟:Copilot“抄襲”已經(jīng)失控,為訓(xùn)練AI侵權(quán)整個社區(qū)
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
7月7日,一位網(wǎng)友在推特上公開炮轟GitHub:

這位用戶貼出了一封GitHub的郵件回復(fù)。
郵件中,GitHub官方確認了他們會使用所有GitHub公開代碼來訓(xùn)練Copilot,并且不區(qū)分License類別。
而在之前,明明官方有過“Copilot是在GPL代碼的基礎(chǔ)上訓(xùn)練出來的”這種說法,但之后GitHub的CEO又表示:
每天都有數(shù)百名GitHub的開發(fā)者在使用Copilot,如果預(yù)覽版進展順利的話,我們將計劃在未來某個時候?qū)⑵鋽U展為付費產(chǎn)品。
完全就是一副視General Public License如無物的樣子。
這位博主諷刺到,遵守版權(quán)的只有窮人和無產(chǎn)者,富人和大公司想怎么做都可以。

這個消息一出,網(wǎng)友們直接炸了。
“我們不區(qū)分License”
不區(qū)分License類別,這意味著什么?
不管是使用了以下哪一份協(xié)議的代碼,GitHub都有可能拿來訓(xùn)練Copilot。

△圖源博客《如何選擇開源許可證?》
如果未來Copilot真的變成付費商品,那么對于很多并不允許被修改后拿去商用的源代碼來說,這毫無疑問是一種侵權(quán)行為。
更何況還包括了整個GitHub里的所有代碼!
在GitHub自己的服務(wù)協(xié)議(ToS)里,他們可都表示“這份協(xié)議并沒有給GitHub出售您內(nèi)容的權(quán)利”:

不過有人覺得事情沒那么嚴重:
他們沒有真正出售代碼,他們賣的是一種代碼組合的模式。

確實,GitHub官方有說過Copilot“通常不會精確復(fù)制代碼塊”。
但馬上就有人反駁:
可是大量的例子表明Copilot就是在逐字復(fù)制-粘貼代碼塊,實質(zhì)上不就是在出售別人的代碼嗎?

而且,要是Copilot自動生成的代碼就是從別處一字不差的照搬來的呢?
又或者來自某個不允許被商用的源代碼,而用戶又拿著這些自動生成的代碼去商用了呢?
不僅是GitHub自己違背版權(quán),這種不顧License的商用也有可能讓用戶在無意識間面臨被起訴的風(fēng)險。
而GitHub Copilot的下載頁面中,并沒有與此相關(guān)的法律風(fēng)險的提示。
最開始曝出這一事件的博主表示:
GitHub以及微軟認為,個人和小型社區(qū)項目的版權(quán)是沒有價值的。這也就是為什么他們會和自由軟件們打成一片;他們從來都沒打算尊重過我們的權(quán)利。

而目前,GitHub還沒有對這件事作出回應(yīng)。
抄襲可恥,AI無罪?
Copilot上周二由GitHub和OpenAI聯(lián)合發(fā)布。
至此,發(fā)布不到兩周,Copilot就深陷“版權(quán)侵犯”的質(zhì)疑之中。
在發(fā)布之初時,GitHub稱:
Copilot可以分析文檔中的字符串、注釋、函數(shù)名稱以及代碼本身,從而生成新的匹配代碼,包括之前調(diào)用的特定函數(shù)。
簡單來說,這就是個“自動代碼生成器”。
剛剛發(fā)布時有人把Copilot拉去刷Leetcode的題庫,結(jié)果這位“AI程序員”每次都能通過Leetcode的測試,代碼生成速度還近乎實時:

只要寫下一段注釋,Copilot就能補全剩下的代碼,并提出改進的建議。
不僅能為真的程序員節(jié)省查找時間,還能提高編程效率,看起來好像真的很美好。
但GitHub的CEO的那句要把Copilot商用的未來期望馬上就引來了滿城風(fēng)雨。
馬上就有一位網(wǎng)友表示:
根據(jù)他們自己的說法,Github Copilot是在GPL代碼的基礎(chǔ)上訓(xùn)練出來的,這不就是把開源代碼洗成商業(yè)產(chǎn)品嗎。

而這位程序員也提到,Copilot并沒有做到它說的“不會精準復(fù)制某個代碼塊”。
兩天后,另一位網(wǎng)友就驗證了這一說法。
在這段網(wǎng)友放出的視頻中,只打出Fast Inverse Square Root(平方根倒數(shù)速算法)四個字,Copilot就“完美復(fù)刻”《雷神之錘3》里的那段著名的算法:

甚至連那句WTF的經(jīng)典注釋都沒有放過。
隨后,矛盾進一步深化。
7月3日,有開發(fā)者站出來抵制GitHub Copilot,表示自己再也不會使用GitHub來托管代碼:

這位抵制者認為:
我不同意GitHub在未經(jīng)授權(quán)和未經(jīng)許可的情況下,使用受版權(quán)保護的源代碼作為其Copilot產(chǎn)品的訓(xùn)練數(shù)據(jù)。該產(chǎn)品將受版權(quán)保護的源代碼放入使用者的軟件中,而不告知他們源代碼的許可,這導(dǎo)致了對版權(quán)所有者作品的未經(jīng)授權(quán)和未經(jīng)許可的不當使用。
而現(xiàn)在,官方確認的“不顧開源許可證,以GitHub上所有開源代碼來訓(xùn)練”這一事實,更是引爆了整個社區(qū)。

現(xiàn)在,已經(jīng)有科技公司明確表示:禁止員工使用GitHub Copilot。