成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="iqym8"></li>

<nav id="iqym8"><dl id="iqym8"></dl></nav>

<bdo id="iqym8"></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開

發(fā)布于 2024-7-10 09:30

瀏覽

0收藏

5 月 14 日， OpenAI 發(fā)布了 GPT-4o ，支持文本、圖像、語(yǔ)音、視頻等多種形式的輸入，大幅提升了推理響應(yīng)的速度，在非英文任務(wù)上具有較大提升，并擁有比現(xiàn)有模型更強(qiáng)的視覺理解能力。我們第一時(shí)間對(duì) GPT-4o 模型的圖像-文本多模態(tài)能力進(jìn)行了評(píng)測(cè)。

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

OpenAI 官方公布的視覺理解性能

基于多模態(tài)大模型開源評(píng)測(cè)工具 VLMEvalKit，我們?cè)?Open VLM Leaderboard 中的十二個(gè)圖文多模態(tài)評(píng)測(cè)集上測(cè)試了 GPT-4o 的視覺能力。

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

GPT-4o (20240513) 與此前的 GPT-4v 版本在各個(gè)多模態(tài)測(cè)試集上的性能對(duì)比

在各個(gè)通用圖文多模態(tài)評(píng)測(cè)數(shù)據(jù)集 (MMBench, MME, SEEDBench, MMStar 等) 上，GPT-4o 相比上一版本的 GPT-4v 均有不同程度的提升。其中在更具挑戰(zhàn)性的 MMStar，中文測(cè)試集 CCBench，MMBench_CN 等上面的提升尤其顯著。

在基于GPT-4主觀打分的MMVet與LLaVABench上，GPT-4o 相比上一版本的 GPT-4v 有微小下降，目前猜測(cè)是由于 GPT-4 打分的隨機(jī)性所致。

在強(qiáng)推理的多模測(cè)試集 (MMMU, MathVista 等) 上，GPT-4o 相比上一版本的 GPT-4v 有一定提升，但比較微小。

在幻覺多模測(cè)試集 HallusionBench 上，GPT-4o 相比上一版本的 GPT-4v 有顯著提升。

總結(jié)

GPT-4o 的客觀性能相比 GPT-4v (0409) 有了更進(jìn)一步的提升，在所有測(cè)試集上的平均分提升約 3 分；
GPT-4o 顯示了更強(qiáng)的感知能力與更少的幻覺；
GPT-4o 的中文能力得到了較大的提高。

需要注意的是，由于 OpenAI 設(shè)置的規(guī)則，GPT-4o 在解答部分評(píng)測(cè)集中問題的時(shí)候，會(huì)出現(xiàn)拒答的現(xiàn)象。這一點(diǎn)導(dǎo)致 GPT-4o 的真實(shí)性能可能較我們報(bào)告的性能更強(qiáng)。

GPT-4o 的詳細(xì)評(píng)測(cè)結(jié)果已上線至Opencompass官網(wǎng)及Open-VLM-Leaderboard，歡迎大家訪問查看更詳細(xì)的評(píng)測(cè)數(shù)據(jù)！

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

Opencompass官網(wǎng)：

???https://opencompass.org.cn/??

Open-VLM-Leaderboard：

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

本文轉(zhuǎn)載自??司南評(píng)測(cè)體系??，作者： OpenCompass 司南 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Sam Altman：GPT-4o幕后揭秘，GPT-5會(huì)很特別

Aceryt ? 2794瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來(lái) MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥 ? 3515瀏覽 ? 0回復(fù)
GPT-4o熱潮來(lái)襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

魚蟲子 ? 7881瀏覽 ? 0回復(fù)
GPT-4o做Code Review可行嗎？

51CTO技術(shù)棧 ? 3708瀏覽 ? 0回復(fù)
GPT-4o與SQL：大模型改變自身架構(gòu)的能力有多強(qiáng)？

51CTO技術(shù)棧 ? 2466瀏覽 ? 0回復(fù)
GPT-4o背后可能的語(yǔ)音技術(shù)

魚蟲子 ? 3410瀏覽 ? 0回復(fù)
模型更新，評(píng)測(cè)集優(yōu)化：多模態(tài)大模型評(píng)測(cè)升級(jí)！

戀戀青鳥 ? 5651瀏覽 ? 0回復(fù)
GPT-4o們其實(shí)都是眼盲！OpenAI奧特曼自曝自家模型：推理比人弱。研究證明：多模態(tài)能力還差得遠(yuǎn)，楊立昆上大

51CTO技術(shù)棧 ? 2355瀏覽 ? 1回復(fù)
長(zhǎng)上下文能力只是吹牛？最強(qiáng)GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 3231瀏覽 ? 0回復(fù)
終于來(lái)了，OpenAI測(cè)試GPT-4o高級(jí)語(yǔ)音模式！

Aceryt ? 2512瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評(píng)測(cè)基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢(shì)

十一月雨_55 ? 9743瀏覽 ? 0回復(fù)
超GPT-4o，1240億參數(shù)！最強(qiáng)開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2551瀏覽 ? 0回復(fù)
o1的風(fēng)又吹到多模態(tài)，直接吹翻了GPT-4o-mini

PaperAgent ? 2401瀏覽 ? 0回復(fù)
LLM合集：港大利用GPT-4o生成QA對(duì)，打造大規(guī)模多模態(tài)視頻思維鏈（COT）數(shù)據(jù)集

AIPaperDaily ? 3159瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

Aceryt ? 2234瀏覽 ? 0回復(fù)
如何全面評(píng)估多模態(tài)大模型能力？MLLM評(píng)測(cè)任務(wù)與指標(biāo)總結(jié)

shizhi02 ? 7809瀏覽 ? 0回復(fù)
微軟開源最強(qiáng)小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2388瀏覽 ? 0回復(fù)
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴(kuò)散架構(gòu)？北大&中山等開源GPT-ImgEval

angel ? 2257瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 1704瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀 2024-11-12 14:54:43發(fā)布
深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析 2024-08-01 14:12:48發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測(cè)來(lái)了 0回復(fù)

上一篇：可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀

下一篇： T-Eval：大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：亚洲精选久久 | 欧美在线成人影院 | 欧美在线一区二区三区 | 黄色片a级 | 国产成人午夜高潮毛片 | 超碰520| 日本高清视频在线播放 | 久久91av| 欧洲一区在线观看 | 日韩一区二区三区在线观看 | 欧美日韩精品 | 亚洲伊人久久综合 | 亚洲麻豆 | 久久久久国产成人精品亚洲午夜 | 91福利网 | 中文字幕一区二区三区四区 | 亚洲成人三区 | 日韩免费福利视频 | 亚洲一区二区高清 | av黄色在线| 午夜精品久久久久久久久久久久久 | 欧美精品91 | 狠狠狠色丁香婷婷综合久久五月 | 欧美日韩一区二区三区四区五区 | 亚洲一级二级三级 | 五月天婷婷综合 | 日韩中文一区 | 91精品国产91久久综合桃花 | 一级黄色影片在线观看 | 三级视频在线观看电影 | 国产在线精品一区二区 | 成人在线观看网站 | 欧美国产精品一区二区 | 日本一区二区三区在线观看 | 亚洲成人三级 | 精产嫩模国品一二三区 | 97国产一区二区精品久久呦 | 免费观看一级特黄欧美大片 | 国产日韩精品视频 | 亚洲理论在线观看电影 | 亚洲系列第一页 |

<button id="eyeo8"></button>

<dl id="eyeo8"></dl>

<dl id="eyeo8"><acronym id="eyeo8"></acronym></dl>