開發的AI程序員“抄”代碼,被罵慘的GitHub到底冤不冤?
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
Copilot“抄襲”風波,大家想必瓜吃得夠飽了。
這回我們來聊點嚴肅的。
GitHub在沒有版權持有者許可的情況下,用托管在GitHub上的開源代碼訓練Copilot——這合法嗎?
托管在GitHub上的代碼,需要受到GitHub服務條款的約束。

所以用托管在GitHub上的開源代碼訓練Copilot,GitHub是不是就理所當然地不會有侵犯版權的問題?
不然不然,據國外網友的吃瓜討論,這當中至少存在以下兩條爭議。
咱們一條一條地擼。
GitHub的就是微軟的?
雖然Copilot是GitHub聯合OpenAI發布的產品,但它卻不是GitHub的一部分,反而卻是VS Code編輯器的一個插件。
沒有VS Code,你根本使用不了Copilot!
利用GitHub上開源代碼訓練出來的Copilot,卻在VS Code編輯器上幫用戶自動生成代碼,這豈不是Copilot在GitHub之外分發GitHub上的代碼嗎?
難怪有國外網友大呼:
這怎么可能不是微軟寄生在GitHub上所有代碼上,讓VS Code變得更好呢?
有人會駁道,VS Code不是微軟推出的開發工具嗎?而在微軟2018年6月斥75億美元買下GitHub后,GitHub不就已經是微軟的了?
自家人開發的AI程序員插件,怎么不能裝在自家推出的代碼編輯器上了?
一位國外網友表示,這完全取決于服務條款中的人稱主語的界定。
在GitHub的服務條款里,GitHub對“GitHub”、“We”、“Us”作出了明確界定。
其中,包括GitHub公司,以及它們的聯屬公司、董事、子公司、承包商、許可方、管理人員、代理和員工。

這位國外網友憤怒地質問:
這里面包括OpenAI嗎?包括VS Code開發團隊嗎?包括微軟的所有人嗎?

訓練Copilot是合理使用?
網友認為,GitHub用托管于其上的開源代碼訓練Copilot合不合法,最大的爭執點在于服務條款上對代碼托管和許可使用范圍的界定。
按知識產權律師Kate Downing的說法,不管你使用了什么樣的許可證,你都同意了GitHub托管你的代碼,并使用你的代碼來提升它們的產品和服務。
但很明顯,訓練Copilot不在向托管代碼的用戶提供的服務之內,也沒有用來幫助GitHub改進它們的代碼托管服務。
在這種情況下,版權侵權的問題將在很大程度上取決于合理使用的概念。
如果GitHub能證明Copilot的出現對編程行業具有很大的變革性,進而證明用開源代碼訓練Copilot是一種合理使用,那么法院很有可能會支持GitHub的這一行為。
這種情況也有過先例。
谷歌從2004年開始對圖書進行了大規模數字化,為研究人員提供了搜索書籍的服務,用戶可以迅速搜索到書中自己想要的內容。
沒有取代書本身的作用,也沒有從版權人那里拿走任何東西。
谷歌圖書讓讀者更容易接觸到作品,也為圖書作者開辟了更廣闊的市場。
法庭確實認為這是合理使用,谷歌圖書的出現非常有變革性。
2013年11月,在與美國作家協會歷經8年纏斗后,谷歌取得突破性進展——美國曼哈頓巡回法院宣布谷歌的數字圖書館計劃合法。
不過也有網友認為谷歌圖書和Copilot有巨大不同,無法相提并論。
如果你從谷歌圖書中復制了一段引文,這段文字仍然歸屬原作者。它不會因為托管在谷歌圖書上就歸你所有了。
谷歌圖書沒有聲稱你擁有搜索結果的一絲版權,但Copilot卻聲稱你擁有100%生成代碼的版權。

如果Copilot生成的代碼復制自被強copyleft許可證(即 GPL v2,GPL v3)覆蓋的代碼,沒有署名,也沒有許可證,這樣也算是合理使用嗎?
而且,GitHub的服務條款明確規定了它們沒有將用戶托管的代碼片段出售給其他人的權利。
如果未來Copilot真地變成了付費產品,對于很多并不允許被修改后拿去商用的開源代碼來說,這肯定是一種侵權行為。

還能白嫖Copilot嗎?
除了瞧著GitHub從屠龍少年終成惡龍,廣大吃瓜群眾最關心的還是——我能繼續白嫖Copilot給我寫代碼嘛?
Kate Downing提醒,Copilot建議的代碼越長越復雜,就越有可能是從大神那里抄過來的。
不開源的商用軟件搬用Copilot抄來的代碼,而沒有按照開源許可證的要求執行,就會給公司招來法律風險。
偷懶需謹慎,抄襲誤一生!
還是自己寫來得穩當!