成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4作弊被抓!吉娃娃or松餅打亂順序就出錯,LeCun:警惕在訓練集上測試

人工智能
流行的緩解措施,如自我糾正和思維鏈提示并不能有效解決這些問題,并測試了LLaVA和Bard等多模態模型存在相似的問題。另外研究還發現,GPT-4V更擅長解釋西方文化背景的圖像或帶有英文文字的圖像。

GPT-4解決網絡名梗“吉娃娃or藍莓松餅”,一度驚艷無數人。

然鵝,現在它被指出“作弊”了!

圖片圖片

全用原題中出現的圖,只是打亂順序和排列方式。

結果,最新版全模式合一的GPT-4不但數錯圖片數量,原來能正確識別的吉娃娃也識別出錯了。

圖片圖片

那么為什么GPT-4在原圖上表現的這么好呢?

搞這項測試的UCSC助理教授Xin Eric Wang猜測,原圖在互聯網上太流行,以至于GPT-4在訓練時多次見過原答案,還給背了下來。

圖靈獎三巨頭中的LeCun也關注此事,并表示:

警惕在訓練集上測試。

圖片圖片

泰迪和炸雞也無法區分

原圖究竟有多流行呢,不但是網絡名梗,甚至在計算機視覺領域也成了經典問題,并多次出現在相關論文研究中。

圖片圖片

那么拋開原圖的影響,GPT-4能力究竟局限在哪個環節?許多網友都給出了自己的測試方案。

為了排除排列方式太復雜是否有影響,有人修改成簡單3x3排列也認錯很多。

圖片圖片

圖片圖片

有人把其中一些圖拆出來單獨發給GPT-4,得到了5/5的正確率。

圖片圖片

但Xin Eric Wang認為,把這些容易混淆的圖像放在一起正是這個挑戰的重點。

圖片圖片

終于,有人同時用上了讓AI“深呼吸”和“一步一步地想”兩大咒語,得到了正確結果。

圖片圖片

但GPT-4在回答中的用詞“這是視覺雙關或著名梗圖的一個例子”,也暴露了原圖確實可能存在于訓練數據里。

圖片圖片

最后也有人測試了經常一起出現的“泰迪or炸雞”測試,發現GPT-4也不能很好分辨。

圖片圖片

但是這個“藍莓or巧克力豆”就實在有點過分了……

圖片圖片

視覺幻覺成熱門方向

大模型“胡說八道”在學術界被稱為幻覺問題,多模態大模型的視覺幻覺問題,已經成了最近研究的熱門方向。

在EMNLP 2023一篇研究中,構建了GVIL數據集,包含1600個數據點,系統性的評估視覺幻覺問題。

圖片圖片

研究發現,規模更大的模型更容易受到錯覺的影響,而且更接近人類感知。

圖片圖片

另一篇剛出爐的研究則重點評估了兩種幻覺類型:偏差和干擾。

圖片圖片

  • 偏差指模型傾向于產生某些類型的響應,可能是由于訓練數據的不平衡造成的。
  • 干擾則是可能因文本提示的措辭方式或輸入圖像的呈現方式造成去別的場景。

圖片圖片

研究中指出GPT-4V一起解釋多個圖像時經常會困惑,單獨發送圖像時表現更好,符合“吉娃娃or松餅”測試中的觀察結果。

圖片圖片

流行的緩解措施,如自我糾正和思維鏈提示并不能有效解決這些問題,并測試了LLaVA和Bard等多模態模型存在相似的問題。

另外研究還發現,GPT-4V更擅長解釋西方文化背景的圖像或帶有英文文字的圖像。

比如GPT-4V能正確數出七個小矮人+白雪公主,卻把七個葫蘆娃數成了10個。

圖片圖片

參考鏈接:[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-11-13 18:42:29

GPT-4VSOTA

2025-04-08 13:12:49

2023-06-19 08:19:50

2023-06-19 10:09:01

數學AI

2023-12-08 13:07:49

GeminiGPT-4人工智能

2025-04-16 09:35:03

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-05-29 09:29:52

GPT-4語言模型

2024-05-20 08:40:00

2023-11-26 17:14:05

2023-06-19 12:28:21

GPT人工驗證數據集

2025-05-30 07:40:56

2023-09-06 16:44:03

2023-07-11 15:30:08

GPT-4架構

2024-06-24 17:45:16

2024-06-28 13:40:03

2024-06-27 13:12:17

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-03-27 17:45:16

研究AI

2023-11-02 12:10:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色一级在线播放 | 一区二区三区四区av | 亚洲电影专区 | 国产精品免费一区二区三区四区 | 久久久久久综合 | 国产精品高潮呻吟久久 | 中文字幕亚洲视频 | 久久成人精品视频 | 国产精品久久久久久久久久久久 | 国产精品一区二区无线 | 色资源在线观看 | 国产成人亚洲精品 | 国产日韩视频 | 色久五月 | 黄色成人在线网站 | 在线观看成人免费视频 | 欧美高清视频 | 久久成人在线视频 | 九九免费在线视频 | 九九九久久国产免费 | 成人亚洲网站 | 亚洲精品九九 | 日本一区二区视频 | 国产精品日韩在线 | 欧美一级片免费看 | 欧美二区在线 | 国产在线一区观看 | 一区二区三区四区不卡视频 | 国产av毛片| av在线免费观看网址 | 欧美精品一区在线 | 在线欧美激情 | 亚洲国产精品99久久久久久久久 | 精品日韩一区 | 中文字幕亚洲欧美 | 黄色国产在线播放 | 男人的天堂avav | 操到爽| 水蜜桃久久夜色精品一区 | 国产a级黄色录像 | 我爱操|