這款Linux發行版發起AI禁令!生成代碼質量堪憂!阿里也被大模型幻覺愚弄了!網友:人比生產力更重要! 原創
撰稿 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
Gentoo Linux是一套通用的、快捷的、完全免費的Linux發行版,因出色的包管理系統Portage而被開發人員廣為喜愛。最近,GentooLinux社區宣布:發行版將不再允許人工智能生成和輔助代碼貢獻。
一、Gentoo Linux禁AI令:AI生成的代碼貢獻要分叉
Gentoo理事會成員Micha?Górny最初于2月27日提出了對人工智能代碼的禁令,Gentoo是一個管理Linux發行版的民選委員會。Górny主張禁止人工智能有三個主要原因:潛在的版權侵權、質量控制問題、對人工智能高功耗的道德考慮以及大公司在技術塑造中的作用。
首先是版權問題。當下,有關AI生成內容的版權情況尚不明朗。但有一點確認的是,幾乎所有LLM都是在龐大的版權材料語料庫上進行培訓的,以及所有花哨的“人工智能”公司都不會對侵犯版權的行為嗤之以鼻。
特別是,這些工具很有可能產生我們不能合法使用的東西。
其次是質量問題。LLM非常擅長生成看似合理實則胡說八道的內容。如果你足夠小心,LLM可以提供不錯的幫助,但我們總不能真的依賴于我們所有的貢獻者都能意識到全部風險。2月25日,Github用戶就發現了一個沒有任何描述的奇怪代碼包。
圖片
圖片
問題描述:“pantry倉庫中列出的項目描述來源于每個項目的package.yml文件。這些YAML文件包含了項目的元數據,包括項目的名稱、版本、作者、描述等。你可以在pantry倉庫中的twine package.yml文件中看到這樣的例子。
然而,我并未找到關于這些描述如何生成或是否涉及自動過程的具體信息。可能你在pkgx.dev上看到的描述是占位符,或者是以某種方式生成的,沒有準確反映項目的目的。”
最后,倫理問題。如上所述,“人工智能”企業既不重視版權,也不關心人類。人工智能泡沫正在造成巨大的能源浪費,它為裁員和加大對IT工作者的剝削提供了絕佳的借口。它正在推動互聯網的惡化,助長了各類垃圾郵件和詐騙活動。
二、英偉達被起訴,阿里被AI虛擬包坑了
這些顧慮并非空穴來風,并且已經影響到了大家生活的方方面面。
版權問題方面,無疑正在成為人工智能模型的一個長期問題,這些模型正在使用受保護材料的訓練,英偉達是最新被起訴的公司之一。
源:theRegister
Books3的三位作者在舊金山對英偉達發起了訴訟,理由是使用數據集訓練NeMo Megatron-GPT模型,該模型已知包含許多未經許可的版權作品。
再者就是,人工智能還會產生毫無意義的文本和代碼,甚至會使整個軟件包產生幻覺。最近的一個知名的例子就是阿里巴巴。
被AI愚弄過關,而誤把不存在的軟件包添加進開源項目的企業不在少數,阿里巴巴便是其中之一。幾個星期前,外媒就曾報道阿里一個名為“GraphTranslator”的github項目中,在安裝說明里包含下載Python軟件包huggingface cli的pip命令。
然而事實上,pip-install huggingfaces cli并不合法,是人工智能想象出來的,正確的命令應該是pip install -U "huggingface_hub[cli]".
源:theRegister
但是,通過PyPI分發并由阿里巴巴的GraphTranslator要求的huggingface cli(使用pip-install huggingfaces cli安裝)是假的,是人工智能想象的。據悉,huggingface cli是一位代碼安全研究員Lanyado用AI虛構的一場釣魚實驗。
在看到生成人工智能反復產生幻覺后,Lanyado于去年12月創建了huggingface-cli;到今年2月,阿里巴巴在GraphTranslator的README指令中提到了它,而不是真正的Hugging Face CLI工具。
這也就說明:在項目開發過程中由生成式人工智能發明的包名是會隨著時間的推移而持續存在,這種虛假的依賴包,甚至可以通過AI虛構的代碼名稱來編寫實際包來分發惡意代碼。
這還沒完,據Lanyado試驗顯示,GPT-3.5-Turbo、GPT-4、Gemini Pro aka、Bard和Command(Cohere),這些模型在五種不同編程語言/運行時(Python、Node.js、Go、.Net和Ruby)中,每種語言都有各自的打包系統。事實證明,這些聊天機器人憑空提取的一部分名字是持久的,有些是別名或衍生版本。
現在,小編發現GraphTranslator的安裝引導說明中已經沒有了上述AI造假的包名。
至于生成式AI模型所需要的水和能源的問題,相信大家已有耳聞。據《紐約客》雜志引援國外研究機構報告,ChatGPT每天要響應大約2億個請求,在此過程中消耗超過50萬度電力,也就是說,ChatGPT每天用電量相當于1.7萬個美國家庭的用電量。而隨著生成式AI的廣泛應用,預計到2027年,整個人工智能行業每年將消耗85至134太瓦時(1太瓦時=10億千瓦時)的電力。
除了耗電,和ChatGPT或其他生成式AI聊天,也會消耗水資源。加州大學河濱分校研究顯示,ChatGPT每與用戶交流25-50個問題,就可消耗500毫升的水。
我們也許在驚嘆大模型給出問題答案的同時,并沒有想到背后環境資源做出了怎樣的“犧牲”。
話說回來,版權、質量和倫理,AI明顯還沒有很好的方法來規避。這也是為什么Gentoo最后決定禁止AI代碼提交的原因。
三、Linux社區需要預防AI
除了禁止人工智能代碼提交,Górny說他還希望Gentoo為Linux社區提供一些獨特的東西。
圖片
“Gentoo 一直以來都是與眾不同的存在,它滿足了主流發行版所無法滿足的人群的需求。我認為,將“由真實的人制作”納入我們的優勢列表中是一個不錯的想法——但我們需要制定相關政策,以確保不良內容不會涌入。”
“我認為這對Gentoo來說是一個很好的公關舉措,”Górny表示。“當很多項目都對‘人工智能’充滿熱情時,我覺得許多Gentoo用戶真的很欣賞老式的軟件工程方法,在這種方法中,人比‘生產力’更重要。”
這項禁令及其提議是先發制人的,不是Gentoo社區任何特定事件的結果。“我們正在采取早期預防措施,”Górny解釋道。
四、人工智能被全面禁止,但可能不會永遠禁止
理事會最初在3月10日預定的月度會議上討論了Górny提出的禁令。然而,由于禁令的措辭尚未制定,許多理事會成員希望討論更多細節,因此沒有采取任何行動。該禁令最終在4月14日的理事會會議上頒布,以6比0通過,其中一名成員缺席投票。
“我個人的觀點是,我們只是從這個話題開始,”Górny說。“我懷疑,當我們真正正確地宣布它,并讓用戶了解它時,我們會看到更多的用戶反饋。”
Gentoo社區已經討論了在電子郵件線程和IRC聊天室中的潛在禁令,Górny表示,人們一致認為應該實施“一些限制”。隨著禁令的全面生效,它可以鼓勵更多Gentoo社區成員分享他們對人工智能的看法。
當然,執行禁令將是一項挑戰;一個人如何區分由真人編寫的代碼和由機器編寫的代碼?在Górny看來,禁令的有效性并不是真正的重點。
他說:“我們的主要目標是明確哪些是可以接受的,哪些是不可以的,并禮貌地要求我們的貢獻者尊重這一點。”他補充道,人工智能禁令主要是對當前受版權保護代碼規則的延伸。
Górny補充道:“如果我們收到的文件中包含非常‘奇怪’的錯誤,這種錯誤似乎不太可能是人為錯誤造成的,我們會提出問題,但我認為這(禁令)是我們能做的最好的事情。”
五、或為AI破例:為Linux單獨訓練自身的大模型
然而,該禁令明確包括一項條款,規定未來可以重新審視該政策,這是一些理事會成員明確要求的。理事會成員Sam James說,隨著事態的迅速發展,一年后情況可能會發生很大變化(或者根本沒有變化)。
該委員會已經預見到未來的情況,他們將為人工智能破例——一種專門針對Gentoo訓練的模型。這將(在理論上)消除對侵犯版權的擔憂,并可能產生更高質量的代碼。
本文轉載自??51CTO技術棧??,作者:言征
