成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型版“5年高考3年模擬”來了!6141道數學題,還是多模態的那種

人工智能 新聞
微軟、加州大學洛杉磯分校(UCLA)、華盛頓大學(UW)聯合打造全新多模態數學推理基準數據集。

大模型的“5年高考3年模擬”數學題來了,還是加強強強版!

微軟、加州大學洛杉磯分校(UCLA)、華盛頓大學(UW)聯合打造全新多模態數學推理基準數據集。

名為“MathVista”。

涵蓋各種題型共6141個問題,來源于28個現有的多模態數據集3個新標注的數據集

這下想要知道一個大模型數學水平怎么樣,直接讓它來做這份試卷。

12個最新的大模型已經搶先體驗了一把試題難度。

一份112頁的詳細評測報告連同數據集一起發布。

報告顯示,面對MathVista中豐富的任務類型、推理方式和圖像類型,即使是當前最先進的GPT-4V做起來都有“挫敗感”,準確率為49.9%,和人類還有10.4%的差距。

Bard排名第二,準確率為34.8%,差距再次拉大。

圖片

此外,報告中還深入分析了GPT-4V自我驗證、自洽性多輪對話能力的研究潛力等。

詳細內容我們接著往下看。

MathVista基準數據集

數學推理能力被視為實現AGI關鍵一步。除了傳統的純文字場景,許多數學研究和應用還涉及到豐富的圖形內容。

然而,大模型在視覺場景下的數學推理能力尚未被系統地研究。

因此,微軟聯合加州大學洛杉磯分校(UCLA)和華盛頓大學(UW)共同開發了這一多模態數學推理基準數據集——MathVista,聚焦于視覺場景下的數學問答任務。

圖片

正如上文提到的,MathVista包含6141個數學問題,來自于28個現有數據集3個新標注數據集。

圖片

其中三個新標注的數據集是IQTest、FunctionQAPaperQA,各有特色。

IQTest側重于智力測試題,FunctionQA專注于函數圖形的推理,而PaperQA則關注于對文獻中的圖表進行深入理解,有效地彌補了現有數據集的不足。

圖片

此外,MathVista覆蓋了兩種主要的任務類型:多選題(占比55.2%)和數值型開放題(占比44.8%)。

包括五大任務類別:圖形問答(FQA)、幾何解題(GPS)、數學應用題(MWP)、教材問答(TQA)和視覺問答(VQA)。

這些任務類別代表了當前數學推理領域的前沿挑戰。

圖片

細分來看,MathVista定義了數學推理的七大能力領域,包括算術、統計、代數、幾何、數值常識、科學和邏輯。

圖片

這些領域涵蓋了數學推理的核心要素,體現了MathVista在數學認知范圍的全面覆蓋。

圖片

在圖像類型的多樣性方面,MathVista也展現了其獨特的廣度和深度。

該數據集包含了十余種不同的圖像類型。

自然圖像幾何圖表 :

圖片

抽象場景合成場景

圖片
圖片

以及各種圖形、圖表和繪圖

圖片

這種豐富的圖像類型不僅增加了數據集的復雜性,也為多模態大模型在處理不同類型的視覺信息時提供了全面的挑戰。

全面量化評估

研究報告中,首次對當前大型模型在視覺場景下的數學推理能力進行了全面量化評估。

報告中使用的MathVista數據集分為兩個子集:minitest和test。

minitest子集含有1000個問題,主要用于快速評估模型性能

而test子集則包含剩余的5141個問題,旨在進行模型的標準化評估,為了避免測試數據污染,該子集的答案標簽數據不對外公開。

模型評估過程分為三個關鍵階段:生成回答抽取答案計算分數

在生成回答階段,根據測試問題的類型,研究團隊使用了特定的模板來引導模型輸出答案。

圖片

考慮到當前大型模型通常以對話形式輸出長文本回答,報告中的實驗設計了一個基于GPT-4的答案抽取器

這個抽取器通過幾個實例提示GPT-4,從模型的長文本回答中抽取出符合題目類型的短答案。這種方法有效地克服了傳統人工評估的高成本問題和基于規則的答案抽取可能導致的不準確性。

隨后,這些抽取出來的短文本答案被用于計算模型的總體準確率以及在不同子分類別下的準確率。

圖片

大模型們表現如何?

實驗在testmini子集上評估了12種大模型:包括ChatGPT、GPT-4和Claude-2三個大語言模型,以及LLaVA、LLaMA-Adapter、miniGPT-4、Bard和GPT-4V等九種多模態大模型

對于大語言模型,實驗設計了兩種形式:

第一種只利用問題的文字信息;

第二種是使用圖片的Captioning描述和OCR文作為外部增強信息。

此外,實驗還完成了兩種隨機基準和人類表現基準。

圖片

實驗結果顯示,當前的大模型在MathVista上的整體表現仍有待提升。

表現最佳的GPT-4V模型達到了49.9%的準確率,但這與人類的60.3%表現相比還有顯著差距。

其次是Bard模型,準確率為34.8%,而目前最好的開源模型LLaVA的準確率則為26.1%。

這些數據表明,大模型在視覺背景下的數學推理能力還有很大的提升空間。

有趣的是,當結合圖像OCR和Captioning信息時,大語言模型GPT-4的表現(33.9%)接近于多模態模型Bard(34.8%)。這一發現顯示,通過適當的工具增強,大型語言模型在多模態領域具有巨大的潛力。

實驗還對主要模型在不同數學推理能力和圖像類型子類上的表現進行了量化評估。

結果顯示,GPT-4V在諸如代數、幾何和科學領域的推理能力上,以及在處理表格、函數圖、幾何圖像、散點圖和科學圖形等圖像類型時,其表現接近甚至超過了人類。

圖片

在test子集的評估中,實驗比較了最佳的兩個大語言模型(CoT/PoT GPT-4)和最好的開源大型多模態模型(LLaVA),提供了一個全面的模型性能概覽。

圖片

下面是更為詳細的分析。

Bard在MathVista中的表現

在MathVista上的評估顯示,Bard模型的總體表現緊隨GPT-4之后。通過具體案例分析,報告發現Bard模型經常產生所謂的“幻覺現象”,即在生成的答案中引入了問題文本和圖片中不存在的信息。

此外,Bard在進行數學運算時也容易出現錯誤

圖片

例如,在下面的例子中,Bard在簡化分式8/10的過程中犯了計算錯誤。這種問題突顯了模型在處理數學問題時的局限性。

圖片

GPT-4在MathVista上的表現

雖然GPT-4本質上是一種語言模型,但通過工具增強(例如OCR文字和captioning描述的結合),它在MathVista上的性能可以達到與多模態模型Bard相當的水平。

具體來說,當引入這些圖片的OCR文字和Captioning描述作為輔助輸入信息時,GPT-4能夠成功解決許多多模態數學問題。這一發現顯示了GPT-4在多模態問題處理方面的潛力。

然而,GPT-4對這些增強信息的準確性有著極高的依賴性。

如果這些OCR文字或Captioning描述存在錯誤或不準確性,GPT-4在推理過程中就很容易走向錯誤的方向,從而導致不正確的結果。

這一點凸顯了在使用工具增強大型語言模型時,輸入信息質量的重要性。

圖片

GPT-4V在MathVista上的全方位分析

GPT-4V作為目前最先進的多模態大模型,對其能力的深入分析對未來的研究具有重要意義。報告通過大量實例詳盡分析了GPT-4V在不同維度的能力,特別是在自我驗證、自洽性多輪對話方面的巨大潛力。

  • 代數推理能力:

在MathVista的代數問題中,GPT-4V展現了理解圖像中函數并推斷其性質的出色能力,甚至超過了其他大型模型和人類。但在處理低分辨率圖像和多函數圖像時,GPT-4V仍面臨挑戰。

圖片

圖片

  • 數值計算能力:

MathVista中的算術問題不僅需要準確的基礎運算,還需理解多樣化視覺場景。如下圖所示,GPT-4V在此方面相比現有模型表現出顯著的提升。

圖片

  • 幾何推理能力:

在幾何推理方面,GPT-4V在MathVista上的表現與人類相當。在以下兩個例子中,無論是小學難度還是高年級難度的問題,GPT-4V均能給出正確答案,并附有詳細解釋。

圖片
圖片
圖片

  • 邏輯推理能力:

在MathVista的邏輯推理問題中,模型需從抽象圖形中推導出數字或形狀的隱含規律。GPT-4V在這方面遇到了挑戰,其準確率僅為21.6%,僅略高于隨機猜測的8.1%。

圖片
圖片

  • 數值常識推理能力:

MathVista中的數值常識推理涉及日常物品和名人知識。這類問題對大型模型是一大挑戰。例如,下圖所示的問題中,只有GPT-4V能正確理解圖像中的光學錯覺現象。

圖片

然而,某些情況下,例如識別燒杯的最大容量,GPT-4V與Bard模型均表現不佳。

圖片

  • 科學推理能力:

在MathVista的科學推理問題上,GPT-4V顯著優于其他大型模型。它經常能準確解析涉及特定科學領域的圖中信息,并進行后續推理。

圖片圖片

然而,某些基本概念的應用,如相對運動,仍是GPT-4V的弱點。

圖片
圖片

  • 統計推理能力:

GPT-4V在理解MathVista中的各種圖表、繪圖和圖形方面展現出強大的統計推理能力。它能準確解答涉及圖表分析的數學問題,超過了其他大型模型。

圖片圖片圖片

GPT-4V的自我驗證能力探究

自我驗證(self-verification)是一種社會心理學概念,其核心觀點是個體希望他人按照他們自我感知的方式來理解他們。這導致個體主動采取行動,確保他人能看到他們的穩定狀態(Talaifar & Swann, 2020)。

在實驗中,研究人員表示GPT-4V顯示出了一種類似的自我驗證能力。

這種能力體現在GPT-4V能夠在推理過程中自主檢查自身的行為,并主動糾正可能的錯誤。

值得注意的是,這種自我驗證能力不同于僅依賴外部反饋或多輪對話來改進模型輸出。

例如,在某些情況下,GPT-4V能夠在單次輸出中自行審核一組候選答案,從而識別出符合所有給定條件的有效答案。

圖片

在以下多步推理問題中,GPT-4V顯示出了顯著的能力。它不僅能夠進行連貫的推理,還能驗證關鍵步驟的有效性。

特別是在遇到無效的中間結果時,如發現得出的長度為負數,GPT-4V能夠主動檢測并識別這些錯誤。這種能力使得GPT-4V在識別問題后,能夠嘗試采用不同的方法來解決問題,從而優化其推理過程。

圖片圖片

GPT-4V的自洽性應用及其局限性

自洽性(self-consistency)是在大型語言模型中廣泛使用的一種技術,目的是提升模型在處理復雜推理任務時的準確性。這種方法通常包括采樣多種推理路徑,并選擇出現頻次最高的答案作為最終解。

研究人員的實驗驗證了自洽性技術在提高GPT-4V在MathVista上的性能方面的有效性。

實驗表明,自洽性對于糾正GPT-4V在視覺感知和計算中的錯誤,以及減少幻覺現象方面起到了顯著作用。

圖片
圖片
圖片

然而,實驗也揭示了自洽性的局限性。特別是在GPT-4V難以正確理解復雜的視覺場景的情況下,自洽性的改善效果并不顯著

這表明,盡管自洽性是一種有效的提升方法,但它的成功在很大程度上還是依賴于模型對視覺信息的基本理解能力。

圖片

GPT-4V在MathVista上的多輪對話能力

微軟的報告最后探討了GPT-4V在MathVista上進行多輪人機互動對話的能力。

實驗結果表明,GPT-4V擅長在多輪對話中有效地利用用戶提供的提示來優化其推理過程。

這包括根據用戶的引導來糾正視覺感知上的誤解,修正推理邏輯中的不一致,更正相關領域的知識,甚至在人類的協助下理解和處理極其復雜的圖表問題。

圖片
圖片
圖片圖片

圖片

主要華人作者簡介

Pan Lu

圖片

Pan Lu是加州大學洛杉磯分校(UCLA)的博士生,是UCLA自然語言處理實驗室(NLP Group)和視覺、認知、學習和自主中心(VCLA)的成員。

在此之前,他在清華大學獲得計算機科學碩士學位。他曾在微軟和艾倫人工智能研究院進行過實習。

他是ScienceQA和Chameleon等工作的作者。他曾榮獲亞馬遜博士獎學金、彭博社博士獎學金和高通創新獎學金。

Tony Xia

圖片

Tony Xia是斯坦福大學計算機系的碩士生。此前,他在加州大學洛杉磯分校獲得計算機本科學位。

Jiacheng Liu

圖片

Jiacheng Liu是華盛頓大學的博士生,從事常識推理、數學推理和文本生成的研究。

此前,他在伊利諾伊香檳分校取得本科學位。他曾獲高通創新獎學金。

Chunyuan Li

圖片

Chunyuan Li是微軟雷德蒙德研究院的首席研究員。

此前,他在杜克大學獲得了機器學習博士學位,師從Lawrence Carin教授。他曾擔任過NeurIPS、ICML、ICLR、EMNLP和AAAI的領域主席,以及IJCV的客座編輯。

他是LLaVA、Visual Instruction Tuning和Instruction Tuning等工作的作者。

Hao Cheng

圖片

Hao Cheng是微軟雷德蒙德研究院的高級研究員,同時也是華盛頓大學的兼職教授。

此前,他在華盛頓大學獲得了博士學位。他是2017年Alexa Prize冠軍團隊的主要成員。

論文地址:https://arxiv.org/abs/2310.02255
項目地址:https://mathvista.github.io/
HF數據集:https://huggingface.co/datasets/AI4Math/MathVista
數據可視化:https://mathvista.github.io/#visualization
Leaderboard:https://mathvista.github.io/#leaderboard

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-08 08:21:16

2022-07-26 01:11:09

AMD芯片Intel

2024-03-25 12:40:19

訓練模型

2018-06-13 09:23:30

Python爬蟲高考分數線

2023-11-13 18:19:35

AI訓練

2024-12-30 00:01:00

多模態大模型Python

2025-05-23 08:47:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2023-09-25 12:27:24

研究數據

2024-05-17 16:02:00

2024-09-25 14:53:00

2024-09-23 08:20:00

模型訓練

2013-02-22 16:08:30

易語言語言

2025-01-21 08:00:00

2024-05-10 06:59:06

2024-11-11 15:11:23

2023-09-02 12:49:01

2024-11-12 10:20:00

模型數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品揄拍一区二区 | 亚洲欧美在线免费观看 | 国产精品永久免费视频 | 中文字幕精品一区二区三区精品 | 久久久久国产一区二区三区 | 欧美日韩免费视频 | 在线91 | 91日b| 成人福利网 | 国产ts人妖系列高潮 | 亚洲午夜网 | 成人精品一区二区 | 97精品视频在线观看 | 老司机午夜性大片 | 国产99久久精品一区二区永久免费 | 中文字幕免费视频 | 国产福利免费视频 | 欧美精品在线免费观看 | 美女福利视频一区 | 久久久久久国产一区二区三区 | 精品视频一区二区三区在线观看 | 四虎影院免费在线播放 | 亚洲视频一区在线观看 | 亚洲精品久久久久久国产精华液 | 蜜桃一区| 黄片毛片在线观看 | 日韩成人精品一区二区三区 | 青青草av在线播放 | 中文字幕免费在线 | 懂色中文一区二区三区在线视频 | 黄色欧美大片 | 国产精品一区二区三 | 夜夜爽99久久国产综合精品女不卡 | 中文字幕 欧美 日韩 | 欧美日韩在线视频观看 | 精品久久久久一区二区国产 | 一区免费看| 国产精品欧美一区二区 | 欧美亚洲国产一区 | 中文字幕成人 | 国产高清在线视频 |