成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4和GPT-4V能否像人類一樣進行抽象推理

發布于 2024-11-25 16:24
瀏覽
0收藏

有關類似GPT-4這樣的大型語言模型(LLM)是否真正模擬人類邏輯和推理的辯論正在進行中。一些研究人員認為,隨著規模的擴大,LLM可能會發展出對抽象推理、模式識別和類比制作的新能力。

另一方面,一些人認為促使這些能力的內部機制尚未被解釋清楚。一些實驗證明,這些模型在其訓練數據范圍之外難以推廣。

"在創建和推理抽象表示方面的能力對于強大的泛化至關重要,因此有必要了解LLM在這方面已經取得了多大的能力," 圣塔菲研究所的科學家在最近的一篇論文中寫道。

在他們的研究中,研究人員深入探討了抽象推理的含義,并提供了在LLM中評估其能力的框架。研究結果表明,盡管GPT-4及其多模態版本GPT-4V非常復雜,但它們都未達到人類水平的抽象推理能力。

什么是抽象推理

抽象推理是從有限數據中識別規律或模式,并將其推廣到新場景的能力。這種特質是人類智能的基石,兒童展示了從最少的例子中學習抽象規則的熟練技能。

評估抽象推理能力是一項困難的任務。弗朗索瓦·紹萊(Francois Chollet)提出的抽象與推理語料庫(ARC)是一個公正的衡量工具。ARC是一個評估人類和人工智能抽象推理能力的框架。該測試包含1,000個手工制作的類比謎題,每個謎題呈現一些網格轉換的例子和一個最終不完整的網格,解題者必須正確填充。這些謎題旨在消除任何不公平的優勢,如與訓練數據的相似性或對外部知識的依賴。

GPT-4和GPT-4V能否像人類一樣進行抽象推理-AI.x社區

為了解決這些謎題,必須從少數示例中推斷出總體的抽象規律,并將其應用于測試網格。解決ARC謎題所需的基礎知識被認為是人類天生具備的,包括物體識別、數量評估以及幾何和拓撲的基本原理等概念。

研究人員在他們的論文中寫道:“[ARC] 的目標是捕捉抽象推理的核心:從少量示例中歸納出一般規則或模式,并靈活地應用于新的、以前未見過的情境。”

人類在ARC上的表現大約在84%左右。相比之下,利用當前人工智能系統嘗試解決ARC的努力表現不佳。在一場著名的Kaggle競賽中,使用了程序合成技術的頂級參賽作品僅成功解決了這些謎題的21%,而且無法超越其狹窄的范圍進行泛化。作為通用問題解決者的LLM表現甚至更差,在最近的實驗中只解決了10-12%的ARC挑戰。

對GPT-4進行推理任務的測試

GPT-4和GPT-4V能否像人類一樣進行抽象推理-AI.x社區

圣塔菲研究所的科學家們進行了一系列新的實驗,使用了ConceptARC,這是ARC的一種變體,旨在更易于人類參與,并促進對特定概念理解的評估。為了適應基于文本的GPT-4,視覺謎題被轉化為字符序列。模型接收到一個包含說明、一個已解決的例子和一個新問題的提示。GPT-4的任務是生成表示解決方案的字符序列,允許最多三次嘗試。

先前的測試顯示,GPT-4在不同溫度下在ConceptARC上的得分分別為19%和25%。但通過新的更全面的提示技術,結果有所改善。在進行了480個ConceptARC任務的全面測試中,將模型的溫度設置調整為0和0.5時,GPT-4的平均表現約為33%。

盡管取得了一些進展,但GPT-4的能力明顯落后于人類表現,人類在ConceptARC上的表現令人印象深刻,達到了91%。圣塔菲科學家指出:“盡管有更詳細的提示,GPT-4的表現仍然遠遠低于人類的高水平,這支持了一個結論,即即使有更多的信息提示,該系統仍然缺乏由這個語料庫測試的基本抽象推理能力。”

GPT-4和GPT-4V能否像人類一樣進行抽象推理-AI.x社區

多模態是否可以提高GPT-4的性能

研究人員還在GPT-4V上測試了ConceptARC,這是GPT-4的多模態版本,除了文本外還能處理圖像。普遍的假設是,由于其增強的能力,GPT-4V將超越其僅文本的對應版本。然而,由于全面測試的高昂成本,研究人員將對GPT-4V的評估限制在ConceptARC謎題的一個被稱為“注意力檢查”的特定組別上,人類通常在這里達到95%的成功率。

有趣的是,當這些注意力檢查被轉換為GPT-4的純文本格式時,該模型獲得了65-69%的分數,表明這些任務比完整集合的任務更容易。然而,GPT-4V在這些任務上的表現平均為23-25%,不及僅文本版本的成績。

論文對GPT-4V的回應進行了有趣的觀察:“GPT-4V經常在其解決方案中包含對抽象變換規則的描述...在某些情況下,盡管識別了錯誤的抽象規則,該模型準確地描述了輸出網格,我們將其歸類為成功。另一方面,我們將模型正確識別了抽象規則但未能準確描述輸出網格的情況歸類為失敗。”

這個對LLM申請意味著什么

GPT-4V在完整的ConceptARC語料庫上的表現可能會比注意力檢查子集更差。這個結果表明,多模態能力并不一定會為LLM提供卓越的抽象推理能力。

圣塔菲研究所的研究結果強調了人類與當前最先進的人工智能系統之間在抽象推理方面存在的顯著差異。

研究人員寫道:“我們的結果支持這樣的假設,即GPT-4,也許是目前最具“通用”性的LLM,仍然無法穩健地形成抽象概念并推理有關其訓練數據中先前未見過的基本核心概念。其他提示或任務表示的方法可能會提高GPT-4和GPT-4V的性能;這是未來研究的一個課題。”

因此,在將這些模型整合到需要精確邏輯的決策過程中時,最好保持謹慎。在人工智能應用中,尤其是在敏感領域,人類監督仍然至關重要。

本文轉載自 ??MoPaaS魔泊云??,作者: Ben Dickson

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91免费在线视频 | 亚洲一区二区av | 中文字幕成人av | 日本在线视频不卡 | 国产一区91精品张津瑜 | 日韩成人中文字幕 | 欧美电影一区 | 日本不卡一区二区三区在线观看 | 国产精品一区二区在线观看 | 国产我和子的乱视频网站 | 天天草夜夜骑 | 欧美亚州 | 欧美一区在线视频 | 一区二区三区免费 | 国产成人网 | 波多野结衣电影一区 | 国产精品1区| 午夜在线影院 | 色香蕉在线 | 久久久久综合 | 欧美日韩国产精品一区 | 亚洲精品久久久久中文字幕欢迎你 | 国产精品欧美一区二区 | 亚洲精品成人在线 | 久久婷婷国产麻豆91 | 久久高清免费视频 | 国产欧美日韩综合精品一 | 91精品久久久 | 91国语清晰打电话对白 | 久久精品欧美电影 | 五月激情婷婷六月 | 日韩欧美亚洲综合 | 国产成人久久精品一区二区三区 | 99久久免费精品国产男女高不卡 | 久久av一区二区三区 | 亚洲视频在线一区 | 毛片区| 97精品国产一区二区三区 | 亚洲一区中文字幕 | 日韩欧美三区 | 久久久久久一区 |