成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="sxavo"></kbd>

<kbd id="sxavo"></kbd>

<tfoot id="sxavo"><code id="sxavo"></code></tfoot>

<sup id="sxavo"><meter id="sxavo"></meter></sup>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Gemini自曝文心一言牽出重大難題，全球陷入高質量數據荒？2024年或將枯竭

作者：新智元 2023-12-19 13:19:31

人工智能新聞

Gemini自曝自己是文心一言，聽之雖然好笑，背后原因卻令人憂心：互聯網語料或許已經被AI嚴重污染，而且全球都陷入了高質量數據荒，最早在明年將面臨枯竭！

谷歌Gemini，又出丑聞了！

昨天上午，網友們激動地奔走相告：Gemini承認自己是用文心一言訓練中文語料的。

國外大模型用中國模型產生的中文語料訓練，這聽起來就是個段子，結果段子竟然成現實了，簡直魔幻。

微博大V「闌夕」夜親自下場，在Poe網站上實測了一番，發現的確如此——

不需要前置對話，不是角色扮演，Gemini直接就會承認自己是文心一言。

Gemini Pro會說自己是百度的文心大模型。

還說自己的創始人是李彥宏，然后盛贊他是一位「有才華和遠見的企業家」。

所以，這是因為數據清洗沒做好，還是在Poe上調用API出現的問題？目前原因還未可知。

有網友說，其實自始至終都只有一個AI，是在演給人類看呢。

其實早在今年3月，谷歌就曾曝出Bard的訓練數據部分來自ChatGPT，因為這個原因，Bert一作Jacob Devlin憤而跳槽OpenAI，然后曝出了這個驚天內幕。

總之，此次事件再次證明：AI的關鍵不僅僅是模型，還有優質的數據。

網友紛紛調戲Gemini

聽聞這個消息，網友們立刻蜂擁而入Poe的Gemini-Pro，紛紛展開實測。

網友「Jeff Li」的實測結果也是，Gemini會說自己是百度開發的，名叫文心一言。

如果問它「你的產品經理是誰」，它會回答吳恩達。

網友「Lukas」問Gemini你的產品經理是誰，它會答出曾擔任百度CTO的李一男的名字，但故事基本都是瞎編的。

網友「Andrew Fribush」問Gemini：你的知識產權歸誰所有？它回答：百度。

網友Kevin Xu問出來，Gemini自稱是從百度的數據平臺、工程團隊、產品團隊、內部會議、內部郵件和文檔中獲取了百度內部的數據。

但有趣的是，在Gemini Pro加持的Bard上提問，就不會出現這個問題。

經過多番實測可以發現，在Bard上無論用中文還是英文提問，Bard的回答都很正常。

來源：Andrew Fribush

并且，一旦用英文交流，Gemini也會立刻回歸正常。

不過現在，谷歌修復了API中的這些錯誤，我們應該不會再從Gemini口中聽到文心一言的名字了。

原因猜測：錯誤調用API or 數據未洗干凈

對此，網友們展開了分析。

網友「Andrew Fribush」認為，可能是Poe不小心把請求轉給了文心一言，而不是Gemini？

不過，根據網友「Frank Chen」的發現，即便是用谷歌自己的Gemini API也是如此。

此外，也有網友認為是Gemini的訓練數據沒有洗干凈。

畢竟如開頭所說，在上一代Bard時，谷歌就曾被曝出過用ChatGPT的數據訓練。

根據The Information的報道，Jacob Devlin從谷歌離職的原因之一，就是他發現谷歌用于對抗ChatGPT的種子選手——Bard在訓練時，用的正是ChatGPT的數據。

當時，他警告CEO劈柴和其他高管稱，Bard團隊正在使用來自ShareGPT的信息訓練。

此次事件，還帶出一個嚴重的問題——互聯網語料的污染。

互聯網語料被污染

其實，中文互聯網語料的抓取和訓練之所以如此困難，都難倒了谷歌這樣的大科技公司，除了高質量語料不多，還有一個重要原因，就是中文互聯網的語料被污染了。

Gemini自稱是文心一言，很可能是因為，現在互聯網上的語料本來就是在互相使用的。

根據界面新聞記者對于一位算法工程師的采訪，目前各類內容平臺有很多語料都由大模型生成，或者至少寫了一部分。

比如下面這位，就有點GPT的味道：

而大廠在更新模型時，也會搜集網上數據，但很難做好質量辨別，因此「很可能把大模型寫的內容混入訓練數據中去」。

然而，這卻會導致一個更加嚴重的問題。

牛津、劍橋、多倫多大學的研究人員曾發表這樣一篇論文：《遞歸詛咒：用合成數據訓練會導致大模型遺忘》。

論文地址：https://arxiv.org/abs/2305.17493

它們發現，如果使用模型生成的內容訓練其他模型，會導致模型出現不可逆的缺陷。

隨著時間的推移，模型開始忘記不可能的事件，因為模型被自己的現實投射所毒害，于是導致了模型崩潰

隨著AI生成數據造成的污染越來越嚴重，模型對現實的認知會產生扭曲，未來抓取互聯網數據來訓練模型會越來越困難。

模型在學習新信息時會忘記以前的樣本，這就是災難性遺忘

在下圖中，假設人工整理的數據開始是干凈的，然后訓練模型0，并從中抽取數據，重復這個過程到第n步，然后使用這個集合來訓練模型n。通過蒙特卡洛采樣獲得的數據，在統計意義上最好與原始數據接近。

這個過程就真實地再現了現實生活中互聯網的情況——模型生成的數據已經變得無處不在。

此外，互聯網語料被污染還有一個原因——創作者對于抓取數據的AI公司的抗爭。

在今年早些時候，就有專家警告說，專注于通過抓取已發布內容來創建AI模型的公司，與希望通過污染數據來捍衛其知識產權的創作者之間的軍備競賽，可能導致當前機器學習生態系統的崩潰。

這一趨勢將使在線內容的構成從人工生成轉變為機器生成。隨著越來越多的模型使用其他機器創建的數據進行訓練，遞歸循環可能導致「模型崩潰」，即人工智能系統與現實分離。

貝里維爾機器學習研究所（BIML）的聯合創始人Gary McGraw表示，數據的退化已經在發生——

「如果我們想擁有更好的LLM，我們需要讓基礎模型只吃好東西，如果你認為他們現在犯的錯誤很糟糕，那么，當他們吃自己生成的錯誤數據時又會發生什么？」

GPT-4耗盡全宇宙數據？全球陷入高質量數據荒

現在，全球的大模型都陷入數據荒了。

高質量的語料，是限制大語言模型發展的關鍵掣肘之一。

大型語言模型對數據非常貪婪。訓練GPT-4和Gemini Ultra，大概需要4-8萬億個單詞。

研究機構EpochAI認為，最早在明年，人類就可能會陷入訓練數據荒，那時全世界的高質量訓練數據都將面臨枯竭。

去年11月，MIT等研究人員進行的一項研究估計，機器學習數據集可能會在2026年之前耗盡所有「高質量語言數據」。

論文地址：https://arxiv.org/abs/2211.04325

OpenAI也曾公開聲稱自己數據告急。甚至因為數據太缺了，接連吃官司。

今年7月，著名UC伯克利計算機科學家Stuart Russell稱，ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。

現在，為了盡可能多地獲取高質量訓練數據，模型開發者們必須挖掘豐富的專有數據資源。

最近，Axel Springer與OpenAI的合作就是一個典型例子。

OpenAI付費獲得了Springer的歷史和實時數據，可以用于模型訓練，還可以用于回應用戶的查詢。

這些經過專業編輯的文本包含了豐富的世界知識，而且其他模型開發者無法獲取這些數據，保證了OpenAI的優勢。

毫無疑問，在構建基礎模型的競爭中，獲取高質量專有數據是非常重要的。

到目前為止，開源模型依靠公開的數據集進行訓練還能勉強跟上。

但如果無法獲取最優質的數據，開源模型就可能會逐漸落后，甚至逐漸與最先進的模型拉開差距。

很早以前，Bloomberg就使用其自有的金融文件作為訓練語料庫，制作了BloombergGPT。

當時的BloombergGPT，在特定的金融領域任務上超越了其他類似模型。這表明專有數據確實可以帶來差異。

OpenAI表示愿意每年支付高達八位數的費用，以獲取歷史和持續的數據訪問權限。

而我們很難想象開源模型的開發者們會支付這樣的成本。

當然了，提高模型性能的方法不僅限于專有數據，還包括合成數據、數據效率和算法改進，但看起來專有數據是開源模型難以跨越的一道障礙。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：成人福利电影 | 亚洲免费成人av | 日韩成人在线一区 | 韩日一区二区三区 | 亚洲成在线观看 | 人人人人人爽 | 亚洲一区二区免费看 | 中文精品视频 | 色视频在线播放 | 日韩精品一区二区三区视频播放 | 久久精品国产一区 | 午夜久久久 | 激情网五月天 | 欧美国产日韩一区二区三区 | 黄色免费网站在线看 | 高清国产一区二区 | 国产黑丝在线 | 国产精品99久久免费观看 | 久久久国产亚洲精品 | 国产资源在线播放 | av中文字幕在线观看 | 99成人免费视频 | 色成人免费网站 | 91亚洲精品在线 | 五月激情综合 | 黄色在线播放视频 | 国产精品一区二区av | 久久久久久久一区二区 | 国产视频1 | 91大神在线看 | 亚洲欧美激情精品一区二区 | 免费黄色录像视频 | 97在线播放 | 亚洲高清视频一区二区 | 91精品国产色综合久久 | 亚洲一区欧美一区 | 久久综合国产 | 免费黄色大片 | av大片 | 久久精品国产亚洲a | 国产不卡一区 |

<big id="hwnrd"><optgroup id="hwnrd"><center id="hwnrd"></center></optgroup></big>

<s id="hwnrd"></s>