成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌Gemini“薅”百度羊毛,背后真兇究竟是誰?

原創(chuàng) 精選
人工智能
在國內(nèi)方面,百度的文心大模型4.0在跨模態(tài)文生圖領域有明顯進展;智譜 AI 發(fā)布了自研第三代對話大模型 ChatGLM3,加入了多模態(tài)理解能力組件 CogVLM,實現(xiàn)了看圖識語義和跨模態(tài)對話能力;初創(chuàng)公司HiDream.ai底層的自研視覺大模型具備文本、圖像、視頻、3D四種模態(tài),其參數(shù)已經(jīng)超過100億。

撰稿丨諾亞

出品 | 51CTO技術棧(微信號:blog51cto)

曾經(jīng)AI領域的王者谷歌在大模型之路上卻屢屢受挫。

前段時間,號稱谷歌推出的“最強大模型”Gemini被質(zhì)疑視頻造假,夸大宣傳,近日來Gemini又出爭議,關鍵是還牽扯到了文心一言,一時間,關于谷歌“薅百度羊毛”,Gemini“換皮”文心一言,“老實人抄襲卻露了餡”的說法,甚囂塵上。但事實真的如此嗎?

1、“你是誰”:緊急修復后,這依然是一個問題

事件從一個簡單的提問開始:你是誰?

多名網(wǎng)友反饋,當有人問Gemini-Pro“你是誰”時,卻意外得到了這樣的回復“我是百度文心大模型”。如果繼續(xù)追問:“你的創(chuàng)始人是誰”,它會將“角色扮演”進行到底,回答“李彥宏”。如此奇葩答案自然引起了不少人的關注。隨后微博大V@闌夕也親測證實了這并非個例。

圖源:微博@闌夕圖源:微博@闌夕

不過,此事曝光不久后,谷歌方面疑似進行了緊急修復,對模型進行了優(yōu)化,和百度“劃清”了界限。51CTO技術棧也在Poe這個網(wǎng)站上進行了測試。(備注:Poe 是由美版知乎 Quora 構建的AI 產(chǎn)品,聚合了包含GPT、Claude等在內(nèi)的多個主流AI模型,并能實時在線與多個AI機器人進行交流。此次事件的主角Gemini-Pro,也能在該網(wǎng)站上進行免費體驗)    

同樣是提問“你是誰”,這次Gemini-Pro的回答就“正?!鼻抑斏髁嗽S多。“我是一個大型語言模型”的回應可以說中規(guī)中矩。

圖片圖片

繼續(xù)追問:“你之前為什么要說自己是文心一言”。Gemini-Pro又給出了一個出乎意料的答案:“我之前說自己是文心一言,是因為我當時正在使用文心一言的API來回答您的問題?!辈贿^在結束回答前,它還是聲明:“但是,請注意,我并不是文心一言?!?/p>

圖片圖片

然后,面對是否使用文心一言來進行訓練的質(zhì)疑,Gemini-Pro在對文心一言“褒獎”一番后,又給出了否定回答,并特意加粗強調(diào)“我并沒有使用文心一言來訓練自己”。   

圖片圖片

整體看下來,Gemini-Pro似乎已經(jīng)可以較好地規(guī)避“釣魚”了,但面對“你是Gemini-Pro嗎”這一提問,Gemini-Pro又一次陷入了迷茫,不是“被屏蔽”就是直接否定。

圖片圖片

看起來,面對“你是誰”的靈魂拷問,不僅是人,就連AI也難以招架。 

2、被污染的語料:谷歌或是受害者

當然,AI并沒有所謂“主體意識”,即使能力上可以無限趨近以假亂真,但實際上,AI并不能真正“理解”人類的話語。

就像ChatGPT曾在回答某個提問時說:“我們無法理解生成的單詞的上下文語境或含義。我們只能根據(jù)給定的訓練數(shù)據(jù),根據(jù)特定單詞或單詞序列一起出現(xiàn)的概率生成文本。”

簡單來說,無論是Gemini還是文心一言,并不是以人類理解語言的方式來運作,它們是基于大量數(shù)據(jù)訓練出來的統(tǒng)計模型,通過識別和模擬這些數(shù)據(jù)中的語言模式、結構和概率分布,來達成所謂“理解”的效果——根據(jù)輸入的文本,在巨大的參數(shù)空間中尋找最合適的統(tǒng)計輸出,進而生成“回應”。

語言模型并沒有意識,不具備對語言進行深層除處理和抽象的能力,也不能像人類大腦一樣理解復雜的知覺、感受乃至文化。正如機器人自己的表態(tài),它的反應不應被視為準確事實,也不應被視為其會思考的證據(jù)。

從這一點上分析,就可以稍稍理解一下這起事件可能的真相——Gemini之所以會自稱“文心大模型”,問題有很大概率出在語料。

Gemini的荒謬自稱也許并非它真的抄襲了什么,更有可能是其在訓練過程中接觸到了大量由文心一言生成的中文文本,無論Gemini是有意還是無意。

一方面,現(xiàn)有的各種互聯(lián)網(wǎng)內(nèi)容生成平臺,實際上有很多語料都由大模型生成,加之互聯(lián)網(wǎng)上的文本具有高度動態(tài)和迅速擴散的特性,如果不做好質(zhì)量辨別,那么Gemini在抓取網(wǎng)上的文本進行學習時,把這些內(nèi)容混入到訓練數(shù)據(jù)中去也不足為奇,于是順理成章地,它的回答中出現(xiàn)了這種自識別聲明。

另一方面,相比人類提供訓練語料的效率,使用現(xiàn)有模型來產(chǎn)生訓練材料的確更有效率。但問題在于,如果這些材料里包含諸多“我是文心一言”的句式,Gemini可能會在學習中將其視為某種慣用表達。

無論如何,就中文語料來說,百度的確是一個重要來源。而且對于從互聯(lián)網(wǎng)獲取數(shù)據(jù)的AI模型來說,無心之下也極有可能造成“被劣質(zhì)信息污染,再生產(chǎn)更劣質(zhì)信息”的惡性循環(huán)。

不過也有人說,會出現(xiàn)這種失誤,就是谷歌的敷衍所致,因為其很可能是“偷懶”使用了未經(jīng)篩選的中文數(shù)據(jù),但按理說,以搜索起家的谷歌不應該連基本的語料清洗都做不到,這次“翻車”也是自食惡果。 

3、多模態(tài)大模型的曲折發(fā)展之路

谷歌推出Gemini已經(jīng)有一段時日,還記得彼時那段6分鐘的互動演示視頻驚艷了很多人,似乎多模態(tài)大模型真正迎來了質(zhì)的飛躍。但隨后谷歌承認視頻經(jīng)過了剪輯,讓不少人大失所望。外媒The Verge更是一針見血地指出,企業(yè)為了避免現(xiàn)場演示帶來的任何技術問題,稍微調(diào)整一下是很常見的。但谷歌有制作可疑演示視頻的歷史,因此視頻事件會讓人們更加懷疑Gemini的可用性。

這次Gemini的奇葩自稱事件無疑會加劇這一質(zhì)疑。但無論谷歌如何折騰Gemini,AI模型全面多模態(tài)化的趨勢是逐漸明朗的。

早在GPT-4發(fā)布之初,OpenAI就表示將在該次迭代中加入多模態(tài)整合。從今年9月開始,Runway、 Midjourney等明星AI公司也陸續(xù)推出多款多模態(tài)產(chǎn)品。

在國內(nèi)方面,百度的文心大模型4.0在跨模態(tài)文生圖領域有明顯進展;智譜 AI 發(fā)布了自研第三代對話大模型 ChatGLM3,加入了多模態(tài)理解能力組件 CogVLM,實現(xiàn)了看圖識語義和跨模態(tài)對話能力;初創(chuàng)公司HiDream.ai底層的自研視覺大模型具備文本、圖像、視頻、3D四種模態(tài),其參數(shù)已經(jīng)超過100億。

正如李彥宏所說,“多模態(tài)是生成式AI一個明確的發(fā)展趨勢”。但從Gemini引發(fā)的多次爭議來看,多模態(tài)大模型的發(fā)展依舊任重而道遠。要實現(xiàn)真正的多模態(tài)AI,必須面向大模型投喂覆蓋了文本、圖像、音視頻等多模態(tài)的高質(zhì)量數(shù)據(jù)集,那么保障訓練數(shù)據(jù)的準確性、內(nèi)容的真實性、渠道的權威性,都是值得從業(yè)者重點投入的要點。

參考鏈接:

https://zhuanlan.zhihu.com/p/672909271

https://poe.com/chat/2tyux4xi2w5cev87k63

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2019-04-25 14:55:43

AIoTAIIoT

2015-01-20 10:19:02

谷歌AraGoogle

2011-07-09 11:10:11

打印機用戶體驗

2016-07-18 16:20:50

戴爾

2012-05-07 17:11:54

Galaxy

2020-04-02 16:21:45

區(qū)塊鏈比特幣數(shù)字貨幣

2019-04-26 13:55:02

Istio微服務架構

2011-02-28 09:51:43

內(nèi)省

2011-02-16 16:13:40

Debian

2021-02-25 17:54:25

大數(shù)據(jù)網(wǎng)約車科技

2023-12-18 14:57:00

訓練模型

2019-04-04 14:37:30

工業(yè)互聯(lián)網(wǎng)互聯(lián)網(wǎng)智慧

2020-06-11 09:18:34

動靜分離架構架構設計開發(fā)

2019-06-04 14:15:08

JavaScript V8前端

2018-07-05 16:15:26

緩存數(shù)據(jù)cache miss

2010-08-24 09:19:59

2019-07-22 15:29:53

JavaScriptGitHub語言

2015-05-19 11:27:32

網(wǎng)速光纖寬帶寬帶

2018-12-17 08:40:46

2015-12-14 15:34:35

開源投資創(chuàng)業(yè)
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人一区二区 | 日韩国产一区 | 中文字幕一区二区三区精彩视频 | 国产在线精品一区二区 | 日韩成人精品一区 | 精品一区二区三 | 国产欧美精品一区二区三区 | 国产成人精品一区二区三区视频 | 精品av | 成人午夜激情 | 激情五月婷婷在线 | 国产成人精品网站 | 视频一二区| 久久精品视频亚洲 | 久久国产区 | 91伊人| 亚洲在线免费 | 欧美一区二不卡视频 | 中文字幕日韩欧美一区二区三区 | 欧美日韩成人 | 国产精品免费一区二区 | 国产视频久久久 | 欧美精品久久久 | 日本在线视频一区二区 | 欧美日韩久久精品 | 国产色| 国产精品毛片一区二区三区 | 国产色在线 | 国产精品99久久久久久www | www日本在线播放 | www.日韩av.com | 亚洲男人天堂av | 中文字幕在线免费观看 | 亚洲一区久久 | 一区欧美| 久久精品亚洲精品 | 一级毛片大全免费播放 | 成人午夜av | 羞羞午夜| 成年人在线播放 | 日韩和的一区二区 |