成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

試過GPT-4V后,微軟寫了個166頁的測評報告,業(yè)內(nèi)人士:高級用戶必讀

人工智能 新聞
這篇由微軟撰寫的報告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潛力的人,都值得一讀。

一周之前,ChatGPT迎來重大更新,不管是 GPT-4 還是 GPT-3.5 模型,都可以基于圖像進行分析和對話。與之對應(yīng)的,多模態(tài)版GPT-4V模型相關(guān)文檔也一并放出。當(dāng)時 OpenAI 放出的文檔只有18頁,很多內(nèi)容都無從得知,對于想要更深入了解GPT-4V應(yīng)用的人來說,難度還是相當(dāng)大的。

短短幾天時間,當(dāng)大家還在死磕OpenAI 放出的18頁文檔時,微軟就公布了一份長達166頁的報告,定性地探討了GPT-4V的功能和使用情況。

報告地址:https://arxiv.org/pdf/2309.17421.pdf

MedARC(醫(yī)療人工智能研究中心)聯(lián)合創(chuàng)始人兼CEO Tanishq Mathew Abraham表示,「這篇報告將是GPT-4V高級用戶的必讀之作?!?/span>


圖片

該報告共分為11個章節(jié),重點是對最新模型 GPT-4V(ision)進行分析,以加深大眾對 LMM(大型多模態(tài)模型) 的理解。文章用很大篇幅介紹了GPT-4V可以執(zhí)行的任務(wù),包括用測試樣本來探索GPT-4V的質(zhì)量和通用性,現(xiàn)階段GPT-4V能夠支持的輸入和工作模式,以及提示模型的有效方法。

在探索 GPT-4V 的過程中,該研究還精心策劃組織了涵蓋各個領(lǐng)域和任務(wù)的一系列定性樣本。對這些樣本的觀察表明,GPT-4V 在處理任意交錯的多模態(tài)輸入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成為強大的多模態(tài)通用系統(tǒng)。 

此外,GPT-4V 對圖像獨特的理解能力可以催生新的人機交互方法,例如視覺參考提示(visual referring prompting)。報告最后深入討論了基于 GPT-4V 的系統(tǒng)的新興應(yīng)用場景和未來研究方向。該研究希望這一初步探索能夠激發(fā)未來對下一代多模態(tài)任務(wù)制定的研究,開發(fā)和增強 LMM 解決現(xiàn)實問題的新方法,并更好地理解多模態(tài)基礎(chǔ)模型。

下面我們逐一介紹每個章節(jié)的具體內(nèi)容。

論文概覽

論文第一章介紹了整個研究的基本情況。作者表示,他們對GPT-V4的探討主要在以下幾個問題的指導(dǎo)下進行:

1、GPT-4V 支持哪些輸入和工作模式?多模態(tài)模型的通用性必然要求系統(tǒng)能夠處理不同輸入模態(tài)的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場景文本和視覺指針方面表現(xiàn)出了前所未有的能力。他們還證明,GPT-4V 能夠很好地支持在 LLM 中觀察到的test-time技術(shù),包括指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等。

2、GPT-4V 在不同領(lǐng)域和任務(wù)中表現(xiàn)出的質(zhì)量和通用性如何?為了了解 GPT-4V 的能力,作者對涵蓋廣泛領(lǐng)域和任務(wù)的查詢進行了采樣,包括開放世界視覺理解、視覺描述、多模態(tài)知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等。GPT-4V 在許多實驗領(lǐng)域都表現(xiàn)出了令人印象深刻的人類水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能夠很好地理解像素空間編輯,例如在輸入圖像上繪制的視覺指針和場景文本。受這種能力的啟發(fā),研究者討論了「視覺參考提示」,它可以直接編輯輸入圖像以指示感興趣的任務(wù)。視覺參考提示可與其他圖像和文本提示無縫結(jié)合使用,為教學(xué)和示例演示提供了一個細致入微的界面。

4、未來的發(fā)展方向是什么?鑒于 GPT-4V 在跨領(lǐng)域和跨任務(wù)方面的強大能力,我們不禁要問,多模態(tài)學(xué)習(xí)乃至更廣泛的人工智能的下一步是什么?作者將思考和探索分為兩個方面,即需要關(guān)注的新出現(xiàn)的應(yīng)用場景,以及基于 GPT-4V 系統(tǒng)的未來研究方向。他們介紹了他們的初步探索結(jié)果,以啟發(fā)未來的研究。

GPT-4V的輸入模式

論文第二章總結(jié)了GPT-4V支持的輸入,分為純文本、單個圖像-文本對、交錯圖像-文本輸入(如圖1)三種情況。

圖片

GPT-4V的工作模式和提示技術(shù)

論文第三章總結(jié)了GPT-4V的工作模式和提示技術(shù),包括:

1、遵循文字說明:

圖片

2、視覺指向和視覺參考提示:

圖片


圖片

3、視覺+文本提示:

圖片

4、上下文少樣本學(xué)習(xí):

圖片

圖片

圖片

視覺-語言能力

論文第四章研究了如何利用 GPT-4V 來理解和解釋視覺世界。

首先4.1節(jié)探討了GPT-4V對不同域圖像的識別能力,包括識別不同的名人,并能詳細描述名人的職業(yè)、行為、背景、事件等信息。

除了識別名人外,GPT-4V能準確識別測試圖像中的地標,還能產(chǎn)生生動而詳細的敘述,從而捕捉地標的特性。

GPT-4V還可以識別各種菜肴,并給出菜肴中的特定成分,裝飾物或烹飪技術(shù)。

除此以外,GPT-4V還可以識別常見的疾病,例如其能根據(jù)肺部的CT掃描指出潛在的問題,又或者對給定的x光片中的牙齒和頜骨,解釋下頜左下方和右側(cè)部分出現(xiàn)的智齒可能需要切除;GPT-4V能正確識別徽標,并提供詳細的描述,包括其設(shè)計,顏色,形狀和符號;如果提示中出現(xiàn)的問題與照片不符,GPT-4V也能進行反事實推理。

4.2節(jié)探討了GPT-4V對目標的定位、計數(shù)和密集字幕生成。

下圖表明GPT-4V能夠理解圖像中人與物體之間的空間關(guān)系,例如識別飛盤和人之間的空間關(guān)系。

GPT-4V能夠確定圖像中指定物體的數(shù)量,下圖表明GPT-4V成功地計算出圖像中出現(xiàn)的物體的數(shù)量,如蘋果、橘子和人。

GPT-4V成功地定位和識別圖像中的個體,然后為每個個體提供簡潔的描述。

4.3節(jié)介紹了GPT-4V能夠進行多模態(tài)理解以及對常識的掌握能力。下圖展示了GPT-4V能夠解釋笑話和梗圖:

GPT-4V能夠回答科學(xué)問題:

GPT-4V還能進行多模態(tài)常識推理:

4.4節(jié)介紹了GPT-4V對場景文本、表格、圖表和文檔的推理能力。

GPT-4V可以進行數(shù)學(xué)推理:

理解流程圖:

理解表格細節(jié):

GPT-4V還能閱讀一份多頁的技術(shù)報告,理解每個部分的內(nèi)容,并對該技術(shù)報告進行總結(jié):

4.5節(jié)介紹了GPT-4V對多語言多模態(tài)的理解。

GPT-4V能夠生成不同語言的圖像描述:

GPT-4V對多語言文本識別、翻譯和描述的結(jié)果:

4.6節(jié)介紹了GPT-4V的編碼能力。

基于手寫數(shù)學(xué)方程生成LaTeX代碼的能力:

GPT-4V生成Markdown/LaTex代碼以重建圖像中表的能力:

圖片

GPT-4V編寫代碼以復(fù)制輸入圖形的能力:

圖片

與人類的互動:視覺參考提示

在與多模態(tài)系統(tǒng)的人機交互中,指向特定空間位置是一項基本能力,例如進行基于視覺的對話。第 5.1 節(jié)顯示,GPT-4V 可以很好地理解直接畫在圖像上的視覺指針。基于這一觀察結(jié)果,研究者提出了一種名為「視覺參考提示(visual referring prompting)」的新型模型交互方法。如圖 50 所示,其核心思想是直接編輯圖像像素空間,繪制視覺指針或場景文本,作為人類的參照指示。作者在第 5.2 節(jié)詳細介紹了這種方法的用途和優(yōu)勢。

圖片

圖片

圖片

圖片

最后,他們在第 5.3 節(jié)探討了如何讓 GPT-4V 生成視覺指針輸出,以便與人類互動。這些視覺指針對于人類和機器來說都能直觀地生成和理解,是人機交互的良好渠道。

時間和視頻理解

在第六章,作者討論了GPT4V 的時間和視頻理解能力。盡管 GPT4V 主要以圖像作為輸入,但評估其對時間序列和視頻內(nèi)容的理解能力仍然是對其整體評估的一個重要方面。這是因為現(xiàn)實世界中的事件會隨著時間的推移而展開,而人工智能系統(tǒng)理解這些動態(tài)過程的能力在現(xiàn)實世界的應(yīng)用中至關(guān)重要。時序預(yù)測、時序排序、時序定位、時序推理和基礎(chǔ)時序理解等能力有助于衡量模型在一系列靜態(tài)圖像中理解事件順序、預(yù)測未來事件發(fā)生和分析隨時間變化的活動的能力。

盡管 GPT-4V 以圖像為中心,但它能夠以類似人類理解的方式理解視頻和時間序列。為了提高像 GPT-4V 這樣復(fù)雜的人工智能模型的通用性和適用性,這方面的測試對其發(fā)展和完善至關(guān)重要。

在這一章的實驗中,研究者使用了多個選定的視頻幀作為輸入,以測試模型在理解時間序列和視頻內(nèi)容方面的能力。

多圖像序列

圖片

視頻理解

圖片

圖片

圖片

基于時間理解的視覺參考提示

圖片

視覺推理與智商測試

對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。論文第七章測試了GPT-4V是否可以從視覺信號中抽象語義,并可以執(zhí)行不同類型的人類智商(IQ)測試。

抽象視覺刺激

圖片

部件和物體的發(fā)現(xiàn)與關(guān)聯(lián)

圖片

韋氏成人智力量表

圖片

瑞文推理測驗

圖片

圖片

情商測驗

在與人類互動時,GPT-4V 必須具備同理心和情商(EQ),以理解和分享人類的情感。受人類情商測試定義的啟發(fā),作者研究了 GPT-4V 在以下方面的能力:從人的面部表情中識別和解讀人的情緒;理解不同的視覺內(nèi)容如何激發(fā)情緒;根據(jù)所需的情緒和情感生成適當(dāng)?shù)奈谋据敵觥?/span>

從面部表情中讀出情感

圖片

理解視覺內(nèi)容如何激發(fā)情感

圖片

圖片

情緒條件輸出

圖片

新興應(yīng)用亮點

這一章展示了 GPT-4V 的卓越功能可能帶來的無數(shù)高價值應(yīng)用場景和新用例。誠然,其中一些應(yīng)用場景可以通過精心策劃用于微調(diào)現(xiàn)有視覺和語言(VL)模型的訓(xùn)練數(shù)據(jù)來實現(xiàn),但作者想強調(diào)的是,GPT-4V 的真正威力在于它能夠毫不費力地實現(xiàn)開箱即用。此外,他們還介紹了 GPT-4V 如何與外部工具和插件無縫集成,從而進一步拓展其潛力,實現(xiàn)更多創(chuàng)新和協(xié)作應(yīng)用。

找不同

圖片

圖片

工業(yè)

圖片

圖片

圖片


圖片

圖片

醫(yī)藥

圖片

圖片

圖片

圖片

汽車保險

圖片

圖片

編寫照片說明

圖片

圖片

圖像理解與生成

圖片

圖片

圖片

圖片

具身智能體

圖片

圖片

圖片

圖片

圖形用戶界面(GUI)交互

圖片

圖片

基于LLM的智能體

論文第十章討論了 GPT-4V 未來可能的研究方向,重點是 LLM 中的有趣用法如何擴展到多模態(tài)場景。

基于ReAct的GPT-4V多模態(tài)鏈擴展:

圖片

使用自我反思來改進文本到圖像模型SDXL生成的文本提示的示例:

圖片

自洽性:

圖片

檢索增強LMM,圖74顯示了一個檢索增強的LMM幫助雜貨店結(jié)帳的示例。

圖片

關(guān)于GPT-4V的更多場景應(yīng)用細節(jié),請查看原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-11-15 13:15:47

AI模型

2009-12-03 15:32:05

Visual Stud

2021-05-14 13:49:01

區(qū)塊鏈穩(wěn)定幣金融

2017-02-13 21:49:52

大數(shù)據(jù)政府?dāng)?shù)據(jù)大數(shù)據(jù)產(chǎn)業(yè)

2023-11-13 18:19:35

AI訓(xùn)練

2023-10-05 12:16:37

2012-06-04 16:20:13

社交新模式

2020-05-26 15:16:44

5G兩會全息

2024-05-30 16:25:25

2021-12-13 09:47:04

芯片半導(dǎo)體技術(shù)

2009-02-04 13:43:51

10美元筆記本廉價

2022-09-26 11:23:41

AI項目ROI數(shù)字

2021-05-17 09:14:29

黑客組織DarkSide網(wǎng)絡(luò)安全

2022-09-19 10:42:22

?數(shù)據(jù)科學(xué)安全開源軟件

2024-08-27 14:20:00

2023-11-05 15:13:38

AI測評

2023-12-22 12:41:01

模型訓(xùn)練

2021-01-06 16:37:17

5G網(wǎng)絡(luò)運營商

2024-02-06 09:00:00

GPT-4VLLaVA大型語言
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 人成久久 | 国产亚洲精品久久久久动 | 成人免费在线视频 | 国产精品不卡视频 | 亚洲vs天堂| 久草在线视频中文 | 永久看片| 好姑娘高清在线观看电影 | 欧美精品久久久久久久久老牛影院 | 亚洲精品久久久一区二区三区 | 日韩中文字幕 | 国产一区2区 | 色婷婷一区二区三区四区 | 亚洲视频二区 | 国产一区不卡 | 香蕉91| 日韩中文在线视频 | 美国黄色一级片 | 日韩国产中文字幕 | 亚洲福利网 | 91精品国产91久久久久久最新 | 日韩at| 国产高清一区二区 | 一区二区三区免费 | 久久精品国产一区二区电影 | 久草视频在线播放 | 日韩 欧美 综合 | 宅女噜噜66国产精品观看免费 | 天天摸天天干 | 国产日韩久久 | 国产精品电影在线观看 | 黑人巨大精品欧美一区二区免费 | 神马久久香蕉 | 国产精品夜色一区二区三区 | 中文字幕第十页 | 日韩一级免费 | 欧美精品在线观看 | 国产精品五区 | 久久精品一区二区三区四区 | 免费看黄色国产 | 欧美日韩黄色一级片 |