Gemini自曝文心一言牽出重大難題,全球陷入高質量數據荒?2024年或將枯竭
谷歌Gemini,又出丑聞了!
昨天上午,網友們激動地奔走相告:Gemini承認自己是用文心一言訓練中文語料的。
國外大模型用中國模型產生的中文語料訓練,這聽起來就是個段子,結果段子竟然成現實了,簡直魔幻。
微博大V「闌夕」夜親自下場,在Poe網站上實測了一番,發現的確如此——
不需要前置對話,不是角色扮演,Gemini直接就會承認自己是文心一言。
Gemini Pro會說自己是百度的文心大模型。
還說自己的創始人是李彥宏,然后盛贊他是一位「有才華和遠見的企業家」。
所以,這是因為數據清洗沒做好,還是在Poe上調用API出現的問題?目前原因還未可知。
有網友說,其實自始至終都只有一個AI,是在演給人類看呢。
其實早在今年3月,谷歌就曾曝出Bard的訓練數據部分來自ChatGPT,因為這個原因,Bert一作Jacob Devlin憤而跳槽OpenAI,然后曝出了這個驚天內幕。
總之,此次事件再次證明:AI的關鍵不僅僅是模型,還有優質的數據。
網友紛紛調戲Gemini
聽聞這個消息,網友們立刻蜂擁而入Poe的Gemini-Pro,紛紛展開實測。
網友「Jeff Li」的實測結果也是,Gemini會說自己是百度開發的,名叫文心一言。
如果問它「你的產品經理是誰」,它會回答吳恩達。
網友「Lukas」問Gemini你的產品經理是誰,它會答出曾擔任百度CTO的李一男的名字,但故事基本都是瞎編的。
網友「Andrew Fribush」問Gemini:你的知識產權歸誰所有?它回答:百度。
網友Kevin Xu問出來,Gemini自稱是從百度的數據平臺、工程團隊、產品團隊、內部會議、內部郵件和文檔中獲取了百度內部的數據。
但有趣的是,在Gemini Pro加持的Bard上提問,就不會出現這個問題。
經過多番實測可以發現,在Bard上無論用中文還是英文提問,Bard的回答都很正常。
來源:Andrew Fribush
并且,一旦用英文交流,Gemini也會立刻回歸正常。
不過現在,谷歌修復了API中的這些錯誤,我們應該不會再從Gemini口中聽到文心一言的名字了。
原因猜測:錯誤調用API or 數據未洗干凈
對此,網友們展開了分析。
網友「Andrew Fribush」認為,可能是Poe不小心把請求轉給了文心一言,而不是Gemini?
不過,根據網友「Frank Chen」的發現,即便是用谷歌自己的Gemini API也是如此。
此外,也有網友認為是Gemini的訓練數據沒有洗干凈。
畢竟如開頭所說,在上一代Bard時,谷歌就曾被曝出過用ChatGPT的數據訓練。
根據The Information的報道,Jacob Devlin從谷歌離職的原因之一,就是他發現谷歌用于對抗ChatGPT的種子選手——Bard在訓練時,用的正是ChatGPT的數據。
當時,他警告CEO劈柴和其他高管稱,Bard團隊正在使用來自ShareGPT的信息訓練。
此次事件,還帶出一個嚴重的問題——互聯網語料的污染。
互聯網語料被污染
其實,中文互聯網語料的抓取和訓練之所以如此困難,都難倒了谷歌這樣的大科技公司,除了高質量語料不多,還有一個重要原因,就是中文互聯網的語料被污染了。
Gemini自稱是文心一言,很可能是因為,現在互聯網上的語料本來就是在互相使用的。
根據界面新聞記者對于一位算法工程師的采訪,目前各類內容平臺有很多語料都由大模型生成,或者至少寫了一部分。
比如下面這位,就有點GPT的味道:
而大廠在更新模型時,也會搜集網上數據,但很難做好質量辨別,因此「很可能把大模型寫的內容混入訓練數據中去」。
然而,這卻會導致一個更加嚴重的問題。
牛津、劍橋、多倫多大學的研究人員曾發表這樣一篇論文:《遞歸詛咒:用合成數據訓練會導致大模型遺忘》。
論文地址:https://arxiv.org/abs/2305.17493
它們發現,如果使用模型生成的內容訓練其他模型,會導致模型出現不可逆的缺陷。
隨著時間的推移,模型開始忘記不可能的事件,因為模型被自己的現實投射所毒害,于是導致了模型崩潰
隨著AI生成數據造成的污染越來越嚴重,模型對現實的認知會產生扭曲,未來抓取互聯網數據來訓練模型會越來越困難。
模型在學習新信息時會忘記以前的樣本,這就是災難性遺忘
在下圖中,假設人工整理的數據開始是干凈的,然后訓練模型0,并從中抽取數據,重復這個過程到第n步,然后使用這個集合來訓練模型n。通過蒙特卡洛采樣獲得的數據,在統計意義上最好與原始數據接近。
這個過程就真實地再現了現實生活中互聯網的情況——模型生成的數據已經變得無處不在。
此外,互聯網語料被污染還有一個原因——創作者對于抓取數據的AI公司的抗爭。
在今年早些時候,就有專家警告說,專注于通過抓取已發布內容來創建AI模型的公司,與希望通過污染數據來捍衛其知識產權的創作者之間的軍備競賽,可能導致當前機器學習生態系統的崩潰。
這一趨勢將使在線內容的構成從人工生成轉變為機器生成。隨著越來越多的模型使用其他機器創建的數據進行訓練,遞歸循環可能導致「模型崩潰」,即人工智能系統與現實分離。
貝里維爾機器學習研究所(BIML)的聯合創始人Gary McGraw表示,數據的退化已經在發生——
「如果我們想擁有更好的LLM,我們需要讓基礎模型只吃好東西,如果你認為他們現在犯的錯誤很糟糕,那么,當他們吃自己生成的錯誤數據時又會發生什么?」
GPT-4耗盡全宇宙數據?全球陷入高質量數據荒
現在,全球的大模型都陷入數據荒了。
高質量的語料,是限制大語言模型發展的關鍵掣肘之一。
大型語言模型對數據非常貪婪。訓練GPT-4和Gemini Ultra,大概需要4-8萬億個單詞。
研究機構EpochAI認為,最早在明年,人類就可能會陷入訓練數據荒,那時全世界的高質量訓練數據都將面臨枯竭。
去年11月,MIT等研究人員進行的一項研究估計,機器學習數據集可能會在2026年之前耗盡所有「高質量語言數據」。
論文地址:https://arxiv.org/abs/2211.04325
OpenAI也曾公開聲稱自己數據告急。甚至因為數據太缺了,接連吃官司。
今年7月,著名UC伯克利計算機科學家Stuart Russell稱,ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。
現在,為了盡可能多地獲取高質量訓練數據,模型開發者們必須挖掘豐富的專有數據資源。
最近,Axel Springer與OpenAI的合作就是一個典型例子。
OpenAI付費獲得了Springer的歷史和實時數據,可以用于模型訓練,還可以用于回應用戶的查詢。
這些經過專業編輯的文本包含了豐富的世界知識,而且其他模型開發者無法獲取這些數據,保證了OpenAI的優勢。
毫無疑問,在構建基礎模型的競爭中,獲取高質量專有數據是非常重要的。
到目前為止,開源模型依靠公開的數據集進行訓練還能勉強跟上。
但如果無法獲取最優質的數據,開源模型就可能會逐漸落后,甚至逐漸與最先進的模型拉開差距。
很早以前,Bloomberg就使用其自有的金融文件作為訓練語料庫,制作了BloombergGPT。
當時的BloombergGPT,在特定的金融領域任務上超越了其他類似模型。這表明專有數據確實可以帶來差異。
OpenAI表示愿意每年支付高達八位數的費用,以獲取歷史和持續的數據訪問權限。
而我們很難想象開源模型的開發者們會支付這樣的成本。
當然了,提高模型性能的方法不僅限于專有數據,還包括合成數據、數據效率和算法改進,但看起來專有數據是開源模型難以跨越的一道障礙。