成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<font id="16161"></font>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實

發布于 2024-7-1 09:41

瀏覽

0收藏

大模型對話能更接近現實了！

不僅可以最多輸入20張圖像，還能支持多達27輪對話?？商幚砦谋?圖像tokens最多18k。

這就是最新開源的超長多圖多輪對話理解數據集MMDU（Multi-Turn Multi-Image Dialog Understanding）。

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實-AI.x社區

大型視覺語言模型（LVLMs）的核心能力之一是生成自然且有意義的回答，從而能夠與人類進行流暢的圖文對話。

盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力，但在具有長上下文長度，且需要多輪對話和多圖輸入的真實對話場景中，表現則相對不足。

此外，現有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式，難以全面評估LVLMs在真實世界人機互動應用中的表現。

為此，研究團隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準MMDU及大規模指令微調數據集MMDU-45k，旨在評估和提升LVLMs在多輪及多圖像對話中的性能。

目前，該研究在HuggingFace的6月18日Daily Papers中位居榜首，VQA dataset trending榜排名Top3，得到了國內外的廣泛關注。

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實-AI.x社區

可縮小開閉源模型差距

MMDU基準測試具有以下優勢：

（1）多輪對話與多圖像輸入：MMDU基準測試最多包括20幅圖像和27輪問答對話，從而超越了先前的多種benchmark，并真實地復制了復現了現實世界中的聊天互動情景。

（2）長上下文：MMDU基準測試通過最多18k文本+圖像tokens，評估LVLMs處理和理解帶有長上下文歷史的情況下理解上下文信息的能力。

（3）開放式評估：MMDU擺脫傳統基準測試依賴的close-ended問題和短輸出（例如，多項選擇題或簡短的答案），采用了更貼合現實和精細評估的方法，通過自由形式的多輪輸出評估LVLM的性能，強調了評估結果的可擴展性和可解釋性。

在構建MMDU的過程中，研究者們從開源的維基百科中選取具有較高相關程度的圖像及文本信息，并在GPT-4o模型的輔助下，由人工標注員構建問題和答案對。

具體而言，研究者將wikipedia詞條通過聚類的方法進行合并，劃分為多個不同的類別，并在同一個類別中使用不同的詞條（包含圖文）進行組合。經過InternLM-Chat-20B清洗并去除無用信息之后，交給GPT-4o進行對話生成。生成的基于單詞條和多詞條的對話進行組合，從而構建具有長上下文的多圖多輪對話。

生成的對話以的格式標記圖像位置，使用者可以將不同的多圖多輪對話進一步組合，從而構建所需長度的對話。

△MMDU和MMDU-45k數據生成pipeline

MMDU Benchmark包含的問答最長擁有18k的圖像+文本tokens、20幅圖像及27輪對話，其規模是以往同類型benchmark的至少五倍，為當前的LVLMs提出了新的挑戰。MMDU-45k包含的最長對話數據擁有超17k的圖像+文本tokens。

45k的多輪對話共包含超過410k的問答，能夠顯著提升LVLMs在長上下文理解，多圖多輪對話等方面的能力。

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實-AI.x社區

受到利用強大的LLMs作為評判的NLP研究的啟發，MMDU的研究員們開發了一個使用GPT-4o進行模型性能評估的評估流程。

具體來說，模型在MMDU Benchmark上生成輸出后，GPT-4o將根據多個維度評估這些輸出結果，并將它們與參考答案進行比較。

為確保全面和細致的評估，MMDU確定了六個評估維度：創造力、豐富度、視覺感知、邏輯連貫性、答案準確性和圖像關系理解。為了引導GPT-4o提供平衡和公正的評估，每個維度都有精心制定的評估提示。

每個維度的評分范圍為10分，分為五個區間（0-2、2-4…8-10），每個區間都設定了相應的評判標準。GPT-4o遵循這些標準進行評判過程，并為每個維度提供最終分數。

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實-AI.x社區

MMDU的評估流程中，使用GPT-4o作為評判，根據參考答案給出總體分數。在每次評估中，GPT-4o將同時參考模型的答案和參考答案。它將為每個評估標準（用藍色表示）提供相應的分數（用綠色表示），并最終以淺橙色總結結果。

通過對15個具有代表性的開源和閉源LVLMs進行深入分析，研究人員發現開源LVLMs（如LLaVa）由于缺乏足夠的對話指令微調數據，相比閉源系統（如GPT-4V）存在較大差距。研究表明，通過對開源LVLMs在MMDU-45k數據集上進行finetune，則可以顯著縮小這一差距，finetune后的模型能夠生成更長、更精確的對話，同時對于圖文交錯的多圖理解能力有了顯著的提升。

△評估不同LVLMs在MMDU上的表現

團隊報告了以下指標：創造力（C）、豐富度（R）、視覺感知（VP）、邏輯連貫性（LC）、答案準確性（AA）、圖像關系理解（IRU），以及平均（Avg.）結果。

此外，經過MMDU-45k微調之后的模型，在現有基準測試上表現也有所提升（MMStar: +1.1%，MathVista: +1.5%，ChartQA: +1.2%）。這一結果說明，MMDU-45k能夠在各種圖像文本相關的任務上提升LVLMs的能力。

△在LVLM監督微調（SFT）階段添加MMDU-45k數據的優勢。

表中報告了LLaVa和InternLM-XC2在MMDU和現有的代表性基準測試上的表現，包括M?MB（MMBench-Dev-EN）、MMMU（MMMU-Val）、MMStar 、MathVista、AI2D、HallBench（HallusionBench）、MMVet 以及ChartQA。每個部分中的最佳和次佳結果分別用綠色和紅色標記。

在多圖多輪問答及普通單圖問答情境下，經過MMDU-45k微調的模型都有顯著的性能提升。這一性能提升首先表現在對圖像內容的識別上，相比微調前的LVLMs，微調之后的模型能夠更加準確的同時理解多張圖像的主要內容，圖像的順序，以及圖像之間的關系。此外，微調之后的模型能夠生成更為詳實和豐富的輸出，并能夠輕松應對具有超長上下文長度的圖文對話情景。

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實-AI.x社區

InternLM-Xcomposer2在MMDU-45k數據集上finetune前后的表現。錯誤或幻覺描述在展示中用紅色標記，詳細且準確的描述則用綠色標記。

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/bFKBvKNEYYu_yNqPGH0ZwA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

字節提出新一代數據集COCONut，比COCO粒度分割更密集

輕薄滴假象 ? 4075瀏覽 ? 0回復
Meta 違背經典模型結構，一次預測多個token，路徑可行，大模型大幅提速指日可待！

51CTO技術棧 ? 3016瀏覽 ? 0回復
用GPT-3.5生成數據集！北大天工等團隊圖像編輯新SOTA，可精準模擬物理世界場景

Crystalcxt ? 3130瀏覽 ? 0回復
陶哲軒最新采訪：AI將顛覆數學界！用Lean規模化，成百上千條定理一次秒殺

duhorse ? 3101瀏覽 ? 0回復
對話聊天就是生成式AI最好的交互形態嗎？不一定！

Syrupup ? 3873瀏覽 ? 0回復
快手可靈團隊最新開源項目火了：大叔實時變身少女，GitHub狂攬7.5K星

Crystalcxt ? 3054瀏覽 ? 0回復
斯坦福、Salesforce等開源1萬億tokens多模態數據集

Aceryt ? 2380瀏覽 ? 0回復
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 2893瀏覽 ? 0回復
不走尋常路的面壁智能，又一次“掀桌子”了！

51CTO技術棧 ? 2530瀏覽 ? 0回復
科普神文，一次性講透AI大模型的核心概念

ermulong ? 3243瀏覽 ? 0回復
記一次ComfyUI工作流bug查找過程

AI探索時代 ? 2989瀏覽 ? 0回復
VideoLLaMB：創新開源框架，引領多模態長視頻理解

穿越時空111 ? 2636瀏覽 ? 0回復
AI耗盡水資源？冷知識： ChatGPT一次聊天中消耗的水量相當于成人一天飲用水量的 10%

51CTO技術棧 ? 2915瀏覽 ? 0回復
一次多模態大模型表格識別解析探索小實踐記錄

大模型自然語言處理 ? 2768瀏覽 ? 0回復
最新開源Auto-RAG：最低成本解決多跳問題

AIGC前沿技術追蹤 ? 4729瀏覽 ? 0回復
ChatGPT高手都在用的4個對話公式，讓人工智能更懂你

草臺AI ? 3004瀏覽 ? 0回復
新加坡國立開源Conceptrol：讓個性化圖像生成更懂你的文字提示

angel ? 1690瀏覽 ? 0回復
國產AI視頻新標桿！可靈2.0上線：一鍵生成好萊塢級特效，現實崩塌了？

算家計算 ? 1428瀏覽 ? 0回復
如何讓AI Agent在多輪對話中保持長期記憶？7種關鍵優化方法解析

AI博物院 ? 645瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成 2025-02-26 11:59:41發布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AI學會篡改獎勵函數、欺騙研究者！Claude團隊：無法根除的行為，令人不安

下一篇：靠Scaling Laws煉出4D版視頻生成模型，多倫多大學北交大等攜手開源81K高質量數據集

社區精華內容

目錄

主站蜘蛛池模板：国产电影一区二区在线观看 | 欧美黄在线观看 | 一二三四在线视频观看社区 | 天天躁天天操 | 成人精品国产免费网站 | 亚洲免费高清 | 激情在线视频网站 | 成年人网站在线观看视频 | 精品一区二区三区在线视频 | 久久免费精品 | 在线免费观看a级片 | 国内久久精品 | 日日夜夜天天 | 国产精品美女久久久久aⅴ国产馆 | 日韩精品无码一区二区三区 | 欧美日韩不卡合集视频 | 成人不卡| 国产一区91精品张津瑜 | 99久久精品国产毛片 | 中文字幕一区二区三区精彩视频 | 久草精品视频 | 亚洲欧美bt | 国产日韩欧美在线 | 亚洲最大福利网 | 日韩网站免费观看 | 成人在线电影网站 | 人人玩人人干 | 中文字幕亚洲一区二区三区 | 日日夜夜精品免费视频 | 婷婷久久精品一区二区 | 不卡一区二区三区四区 | 一级片毛片 | 亚洲欧美中文日韩在线v日本 | 欧美性tv| 超碰91在线 | 久在线 | 成人免费视频网站在线看 | 欧美性网 | 成人高清视频在线观看 | 特级毛片爽www免费版 | 国产黄色麻豆视频 |

<font id="66611"><td id="66611"><i id="66611"></i></td></font>

<video id="66611"><meter id="66611"><nobr id="66611"></nobr></meter></video>

<var id="66611"></var>