成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Gemini自曝文心一言牽出重大難題,全球陷入高質量數據荒?2024年或將枯竭

人工智能 新聞
Gemini自曝自己是文心一言,聽之雖然好笑,背后原因卻令人憂心:互聯網語料或許已經被AI嚴重污染,而且全球都陷入了高質量數據荒,最早在明年將面臨枯竭!

谷歌Gemini,又出丑聞了!

昨天上午,網友們激動地奔走相告:Gemini承認自己是用文心一言訓練中文語料的。

圖片

國外大模型用中國模型產生的中文語料訓練,這聽起來就是個段子,結果段子竟然成現實了,簡直魔幻。

微博大V「闌夕」夜親自下場,在Poe網站上實測了一番,發現的確如此——

不需要前置對話,不是角色扮演,Gemini直接就會承認自己是文心一言。

Gemini Pro會說自己是百度的文心大模型。

圖片

還說自己的創始人是李彥宏,然后盛贊他是一位「有才華和遠見的企業家」。

圖片

所以,這是因為數據清洗沒做好,還是在Poe上調用API出現的問題?目前原因還未可知。

有網友說,其實自始至終都只有一個AI,是在演給人類看呢。

圖片

其實早在今年3月,谷歌就曾曝出Bard的訓練數據部分來自ChatGPT,因為這個原因,Bert一作Jacob Devlin憤而跳槽OpenAI,然后曝出了這個驚天內幕。

總之,此次事件再次證明:AI的關鍵不僅僅是模型,還有優質的數據。

網友紛紛調戲Gemini

聽聞這個消息,網友們立刻蜂擁而入Poe的Gemini-Pro,紛紛展開實測。

網友「Jeff Li」的實測結果也是,Gemini會說自己是百度開發的,名叫文心一言。

圖片

如果問它「你的產品經理是誰」,它會回答吳恩達。

圖片

網友「Lukas」問Gemini你的產品經理是誰,它會答出曾擔任百度CTO的李一男的名字,但故事基本都是瞎編的。

圖片

網友「Andrew Fribush」問Gemini:你的知識產權歸誰所有?它回答:百度。

圖片

網友Kevin Xu問出來,Gemini自稱是從百度的數據平臺、工程團隊、產品團隊、內部會議、內部郵件和文檔中獲取了百度內部的數據。

圖片

但有趣的是,在Gemini Pro加持的Bard上提問,就不會出現這個問題。

經過多番實測可以發現,在Bard上無論用中文還是英文提問,Bard的回答都很正常。

來源:Andrew Fribush

并且,一旦用英文交流,Gemini也會立刻回歸正常。

不過現在,谷歌修復了API中的這些錯誤,我們應該不會再從Gemini口中聽到文心一言的名字了。

原因猜測:錯誤調用API or 數據未洗干凈

對此,網友們展開了分析。

網友「Andrew Fribush」認為,可能是Poe不小心把請求轉給了文心一言,而不是Gemini?

不過,根據網友「Frank Chen」的發現,即便是用谷歌自己的Gemini API也是如此。

此外,也有網友認為是Gemini的訓練數據沒有洗干凈。

畢竟如開頭所說,在上一代Bard時,谷歌就曾被曝出過用ChatGPT的數據訓練。

根據The Information的報道,Jacob Devlin從谷歌離職的原因之一,就是他發現谷歌用于對抗ChatGPT的種子選手——Bard在訓練時,用的正是ChatGPT的數據。

當時,他警告CEO劈柴和其他高管稱,Bard團隊正在使用來自ShareGPT的信息訓練。

此次事件,還帶出一個嚴重的問題——互聯網語料的污染。

互聯網語料被污染

其實,中文互聯網語料的抓取和訓練之所以如此困難,都難倒了谷歌這樣的大科技公司,除了高質量語料不多,還有一個重要原因,就是中文互聯網的語料被污染了。

Gemini自稱是文心一言,很可能是因為,現在互聯網上的語料本來就是在互相使用的。

根據界面新聞記者對于一位算法工程師的采訪,目前各類內容平臺有很多語料都由大模型生成,或者至少寫了一部分。

比如下面這位,就有點GPT的味道:

而大廠在更新模型時,也會搜集網上數據,但很難做好質量辨別,因此「很可能把大模型寫的內容混入訓練數據中去」。

然而,這卻會導致一個更加嚴重的問題。

牛津、劍橋、多倫多大學的研究人員曾發表這樣一篇論文:《遞歸詛咒:用合成數據訓練會導致大模型遺忘》。

論文地址:https://arxiv.org/abs/2305.17493

它們發現,如果使用模型生成的內容訓練其他模型,會導致模型出現不可逆的缺陷。

隨著時間的推移,模型開始忘記不可能的事件,因為模型被自己的現實投射所毒害,于是導致了模型崩潰

隨著AI生成數據造成的污染越來越嚴重,模型對現實的認知會產生扭曲,未來抓取互聯網數據來訓練模型會越來越困難。

模型在學習新信息時會忘記以前的樣本,這就是災難性遺忘

在下圖中,假設人工整理的數據開始是干凈的,然后訓練模型0,并從中抽取數據,重復這個過程到第n步,然后使用這個集合來訓練模型n。通過蒙特卡洛采樣獲得的數據,在統計意義上最好與原始數據接近。

這個過程就真實地再現了現實生活中互聯網的情況——模型生成的數據已經變得無處不在。

此外,互聯網語料被污染還有一個原因——創作者對于抓取數據的AI公司的抗爭。

在今年早些時候,就有專家警告說,專注于通過抓取已發布內容來創建AI模型的公司,與希望通過污染數據來捍衛其知識產權的創作者之間的軍備競賽,可能導致當前機器學習生態系統的崩潰。

這一趨勢將使在線內容的構成從人工生成轉變為機器生成。隨著越來越多的模型使用其他機器創建的數據進行訓練,遞歸循環可能導致「模型崩潰」,即人工智能系統與現實分離。

貝里維爾機器學習研究所(BIML)的聯合創始人Gary McGraw表示,數據的退化已經在發生——

「如果我們想擁有更好的LLM,我們需要讓基礎模型只吃好東西,如果你認為他們現在犯的錯誤很糟糕,那么,當他們吃自己生成的錯誤數據時又會發生什么?」

GPT-4耗盡全宇宙數據?全球陷入高質量數據荒

現在,全球的大模型都陷入數據荒了。

高質量的語料,是限制大語言模型發展的關鍵掣肘之一。

大型語言模型對數據非常貪婪。訓練GPT-4和Gemini Ultra,大概需要4-8萬億個單詞。

研究機構EpochAI認為,最早在明年,人類就可能會陷入訓練數據荒,那時全世界的高質量訓練數據都將面臨枯竭。

去年11月,MIT等研究人員進行的一項研究估計,機器學習數據集可能會在2026年之前耗盡所有「高質量語言數據」。

論文地址:https://arxiv.org/abs/2211.04325

OpenAI也曾公開聲稱自己數據告急。甚至因為數據太缺了,接連吃官司。

今年7月,著名UC伯克利計算機科學家Stuart Russell稱,ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。

現在,為了盡可能多地獲取高質量訓練數據,模型開發者們必須挖掘豐富的專有數據資源。

最近,Axel Springer與OpenAI的合作就是一個典型例子。

OpenAI付費獲得了Springer的歷史和實時數據,可以用于模型訓練,還可以用于回應用戶的查詢。

這些經過專業編輯的文本包含了豐富的世界知識,而且其他模型開發者無法獲取這些數據,保證了OpenAI的優勢。

毫無疑問,在構建基礎模型的競爭中,獲取高質量專有數據是非常重要的。

到目前為止,開源模型依靠公開的數據集進行訓練還能勉強跟上。

但如果無法獲取最優質的數據,開源模型就可能會逐漸落后,甚至逐漸與最先進的模型拉開差距。

很早以前,Bloomberg就使用其自有的金融文件作為訓練語料庫,制作了BloombergGPT。

當時的BloombergGPT,在特定的金融領域任務上超越了其他類似模型。這表明專有數據確實可以帶來差異。

OpenAI表示愿意每年支付高達八位數的費用,以獲取歷史和持續的數據訪問權限。

而我們很難想象開源模型的開發者們會支付這樣的成本。

當然了,提高模型性能的方法不僅限于專有數據,還包括合成數據、數據效率和算法改進,但看起來專有數據是開源模型難以跨越的一道障礙。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-18 14:57:00

訓練模型

2023-03-29 15:28:35

百度文心一言

2022-11-03 15:10:24

前端數據結構算法

2023-02-08 07:14:51

文心一言ChatGPT機器人

2024-09-04 15:44:52

2023-07-13 15:10:06

2025-02-13 10:37:36

2020-12-01 13:56:56

人工智能AI數據

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2024-01-12 13:51:00

數據訓練

2010-07-06 11:52:59

數據庫RationalJazz

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數程序

2023-09-07 13:25:09

2017-06-19 07:58:40

2021-08-08 14:26:24

SQL數據庫開發

2023-03-24 12:55:13

文心一言百度模型

2023-12-28 15:09:58

文心一言百度飛槳

2023-03-17 07:25:16

李彥宏百度文心一言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人福利电影 | 亚洲免费成人av | 日韩成人在线一区 | 韩日一区二区三区 | 亚洲成在线观看 | 人人人人人爽 | 亚洲一区二区免费看 | 中文精品视频 | 色视频在线播放 | 日韩精品一区二区三区视频播放 | 久久精品国产一区 | 午夜久久久 | 激情网五月天 | 欧美国产日韩一区二区三区 | 黄色免费网站在线看 | 高清国产一区二区 | 国产黑丝在线 | 国产精品99久久免费观看 | 久久久国产亚洲精品 | 国产资源在线播放 | av中文字幕在线观看 | 99成人免费视频 | 色成人免费网站 | 91亚洲精品在线 | 五月激情综合 | 黄色在线播放视频 | 国产精品一区二区av | 久久久久久久一区二区 | 国产视频1 | 91大神在线看 | 亚洲欧美激情精品一区二区 | 免费黄色录像视频 | 97在线播放 | 亚洲高清视频一区二区 | 91精品国产色综合久久 | 亚洲一区欧美一区 | 久久综合国产 | 免费黄色大片 | av大片 | 久久精品国产亚洲a | 国产不卡一区 |