成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

試過GPT-4V后，微軟寫了個166頁的測評報告，業(yè)內(nèi)人士：高級用戶必讀

作者：機器之心 2023-10-04 18:42:30

人工智能新聞

這篇由微軟撰寫的報告，深入研究了GPT-4V的功能，任何想要探索GPT-4V潛力的人，都值得一讀。

一周之前，ChatGPT迎來重大更新，不管是 GPT-4 還是 GPT-3.5 模型，都可以基于圖像進行分析和對話。與之對應(yīng)的，多模態(tài)版GPT-4V模型相關(guān)文檔也一并放出。當(dāng)時 OpenAI 放出的文檔只有18頁，很多內(nèi)容都無從得知，對于想要更深入了解GPT-4V應(yīng)用的人來說，難度還是相當(dāng)大的。

短短幾天時間，當(dāng)大家還在死磕OpenAI 放出的18頁文檔時，微軟就公布了一份長達166頁的報告，定性地探討了GPT-4V的功能和使用情況。

報告地址：https://arxiv.org/pdf/2309.17421.pdf

MedARC（醫(yī)療人工智能研究中心）聯(lián)合創(chuàng)始人兼CEO Tanishq Mathew Abraham表示，「這篇報告將是GPT-4V高級用戶的必讀之作?！?/span>

該報告共分為11個章節(jié)，重點是對最新模型 GPT-4V(ision)進行分析，以加深大眾對 LMM（大型多模態(tài)模型）的理解。文章用很大篇幅介紹了GPT-4V可以執(zhí)行的任務(wù)，包括用測試樣本來探索GPT-4V的質(zhì)量和通用性，現(xiàn)階段GPT-4V能夠支持的輸入和工作模式，以及提示模型的有效方法。

在探索 GPT-4V 的過程中，該研究還精心策劃組織了涵蓋各個領(lǐng)域和任務(wù)的一系列定性樣本。對這些樣本的觀察表明，GPT-4V 在處理任意交錯的多模態(tài)輸入方面具有前所未有的能力，并且其功能的通用性使 GPT-4V 成為強大的多模態(tài)通用系統(tǒng)。

此外，GPT-4V 對圖像獨特的理解能力可以催生新的人機交互方法，例如視覺參考提示（visual referring prompting）。報告最后深入討論了基于 GPT-4V 的系統(tǒng)的新興應(yīng)用場景和未來研究方向。該研究希望這一初步探索能夠激發(fā)未來對下一代多模態(tài)任務(wù)制定的研究，開發(fā)和增強 LMM 解決現(xiàn)實問題的新方法，并更好地理解多模態(tài)基礎(chǔ)模型。

下面我們逐一介紹每個章節(jié)的具體內(nèi)容。

論文概覽

論文第一章介紹了整個研究的基本情況。作者表示，他們對GPT-V4的探討主要在以下幾個問題的指導(dǎo)下進行：

1、GPT-4V 支持哪些輸入和工作模式？多模態(tài)模型的通用性必然要求系統(tǒng)能夠處理不同輸入模態(tài)的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場景文本和視覺指針方面表現(xiàn)出了前所未有的能力。他們還證明，GPT-4V 能夠很好地支持在 LLM 中觀察到的test-time技術(shù)，包括指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等。

2、GPT-4V 在不同領(lǐng)域和任務(wù)中表現(xiàn)出的質(zhì)量和通用性如何？為了了解 GPT-4V 的能力，作者對涵蓋廣泛領(lǐng)域和任務(wù)的查詢進行了采樣，包括開放世界視覺理解、視覺描述、多模態(tài)知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等。GPT-4V 在許多實驗領(lǐng)域都表現(xiàn)出了令人印象深刻的人類水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么？GPT-4V 能夠很好地理解像素空間編輯，例如在輸入圖像上繪制的視覺指針和場景文本。受這種能力的啟發(fā)，研究者討論了「視覺參考提示」，它可以直接編輯輸入圖像以指示感興趣的任務(wù)。視覺參考提示可與其他圖像和文本提示無縫結(jié)合使用，為教學(xué)和示例演示提供了一個細致入微的界面。

4、未來的發(fā)展方向是什么？鑒于 GPT-4V 在跨領(lǐng)域和跨任務(wù)方面的強大能力，我們不禁要問，多模態(tài)學(xué)習(xí)乃至更廣泛的人工智能的下一步是什么？作者將思考和探索分為兩個方面，即需要關(guān)注的新出現(xiàn)的應(yīng)用場景，以及基于 GPT-4V 系統(tǒng)的未來研究方向。他們介紹了他們的初步探索結(jié)果，以啟發(fā)未來的研究。

GPT-4V的輸入模式

論文第二章總結(jié)了GPT-4V支持的輸入，分為純文本、單個圖像-文本對、交錯圖像-文本輸入（如圖1）三種情況。

GPT-4V的工作模式和提示技術(shù)

論文第三章總結(jié)了GPT-4V的工作模式和提示技術(shù)，包括：

1、遵循文字說明：

2、視覺指向和視覺參考提示：

3、視覺+文本提示：

4、上下文少樣本學(xué)習(xí)：

視覺-語言能力

論文第四章研究了如何利用 GPT-4V 來理解和解釋視覺世界。

首先4.1節(jié)探討了GPT-4V對不同域圖像的識別能力，包括識別不同的名人，并能詳細描述名人的職業(yè)、行為、背景、事件等信息。

除了識別名人外，GPT-4V能準確識別測試圖像中的地標，還能產(chǎn)生生動而詳細的敘述，從而捕捉地標的特性。

GPT-4V還可以識別各種菜肴，并給出菜肴中的特定成分，裝飾物或烹飪技術(shù)。

除此以外，GPT-4V還可以識別常見的疾病，例如其能根據(jù)肺部的CT掃描指出潛在的問題，又或者對給定的x光片中的牙齒和頜骨，解釋下頜左下方和右側(cè)部分出現(xiàn)的智齒可能需要切除；GPT-4V能正確識別徽標，并提供詳細的描述，包括其設(shè)計，顏色，形狀和符號；如果提示中出現(xiàn)的問題與照片不符，GPT-4V也能進行反事實推理。

4.2節(jié)探討了GPT-4V對目標的定位、計數(shù)和密集字幕生成。

下圖表明GPT-4V能夠理解圖像中人與物體之間的空間關(guān)系，例如識別飛盤和人之間的空間關(guān)系。

GPT-4V能夠確定圖像中指定物體的數(shù)量，下圖表明GPT-4V成功地計算出圖像中出現(xiàn)的物體的數(shù)量，如蘋果、橘子和人。

GPT-4V成功地定位和識別圖像中的個體，然后為每個個體提供簡潔的描述。

4.3節(jié)介紹了GPT-4V能夠進行多模態(tài)理解以及對常識的掌握能力。下圖展示了GPT-4V能夠解釋笑話和梗圖：

GPT-4V能夠回答科學(xué)問題：

GPT-4V還能進行多模態(tài)常識推理：

4.4節(jié)介紹了GPT-4V對場景文本、表格、圖表和文檔的推理能力。

GPT-4V可以進行數(shù)學(xué)推理：

理解流程圖：

理解表格細節(jié)：

GPT-4V還能閱讀一份多頁的技術(shù)報告，理解每個部分的內(nèi)容，并對該技術(shù)報告進行總結(jié)：

4.5節(jié)介紹了GPT-4V對多語言多模態(tài)的理解。

GPT-4V能夠生成不同語言的圖像描述：

GPT-4V對多語言文本識別、翻譯和描述的結(jié)果：

4.6節(jié)介紹了GPT-4V的編碼能力。

基于手寫數(shù)學(xué)方程生成LaTeX代碼的能力：

GPT-4V生成Markdown/LaTex代碼以重建圖像中表的能力：

GPT-4V編寫代碼以復(fù)制輸入圖形的能力：

與人類的互動：視覺參考提示

在與多模態(tài)系統(tǒng)的人機交互中，指向特定空間位置是一項基本能力，例如進行基于視覺的對話。第 5.1 節(jié)顯示，GPT-4V 可以很好地理解直接畫在圖像上的視覺指針。基于這一觀察結(jié)果，研究者提出了一種名為「視覺參考提示（visual referring prompting）」的新型模型交互方法。如圖 50 所示，其核心思想是直接編輯圖像像素空間，繪制視覺指針或場景文本，作為人類的參照指示。作者在第 5.2 節(jié)詳細介紹了這種方法的用途和優(yōu)勢。

最后，他們在第 5.3 節(jié)探討了如何讓 GPT-4V 生成視覺指針輸出，以便與人類互動。這些視覺指針對于人類和機器來說都能直觀地生成和理解，是人機交互的良好渠道。

時間和視頻理解

在第六章，作者討論了GPT4V 的時間和視頻理解能力。盡管 GPT4V 主要以圖像作為輸入，但評估其對時間序列和視頻內(nèi)容的理解能力仍然是對其整體評估的一個重要方面。這是因為現(xiàn)實世界中的事件會隨著時間的推移而展開，而人工智能系統(tǒng)理解這些動態(tài)過程的能力在現(xiàn)實世界的應(yīng)用中至關(guān)重要。時序預(yù)測、時序排序、時序定位、時序推理和基礎(chǔ)時序理解等能力有助于衡量模型在一系列靜態(tài)圖像中理解事件順序、預(yù)測未來事件發(fā)生和分析隨時間變化的活動的能力。

盡管 GPT-4V 以圖像為中心，但它能夠以類似人類理解的方式理解視頻和時間序列。為了提高像 GPT-4V 這樣復(fù)雜的人工智能模型的通用性和適用性，這方面的測試對其發(fā)展和完善至關(guān)重要。

在這一章的實驗中，研究者使用了多個選定的視頻幀作為輸入，以測試模型在理解時間序列和視頻內(nèi)容方面的能力。

多圖像序列

視頻理解

基于時間理解的視覺參考提示

視覺推理與智商測試

對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。論文第七章測試了GPT-4V是否可以從視覺信號中抽象語義，并可以執(zhí)行不同類型的人類智商（IQ）測試。

抽象視覺刺激

部件和物體的發(fā)現(xiàn)與關(guān)聯(lián)

韋氏成人智力量表

瑞文推理測驗

情商測驗

在與人類互動時，GPT-4V 必須具備同理心和情商（EQ），以理解和分享人類的情感。受人類情商測試定義的啟發(fā)，作者研究了 GPT-4V 在以下方面的能力：從人的面部表情中識別和解讀人的情緒；理解不同的視覺內(nèi)容如何激發(fā)情緒；根據(jù)所需的情緒和情感生成適當(dāng)?shù)奈谋据敵觥?/span>

從面部表情中讀出情感

理解視覺內(nèi)容如何激發(fā)情感

情緒條件輸出

新興應(yīng)用亮點

這一章展示了 GPT-4V 的卓越功能可能帶來的無數(shù)高價值應(yīng)用場景和新用例。誠然，其中一些應(yīng)用場景可以通過精心策劃用于微調(diào)現(xiàn)有視覺和語言（VL）模型的訓(xùn)練數(shù)據(jù)來實現(xiàn)，但作者想強調(diào)的是，GPT-4V 的真正威力在于它能夠毫不費力地實現(xiàn)開箱即用。此外，他們還介紹了 GPT-4V 如何與外部工具和插件無縫集成，從而進一步拓展其潛力，實現(xiàn)更多創(chuàng)新和協(xié)作應(yīng)用。

找不同

工業(yè)

醫(yī)藥

汽車保險

編寫照片說明

圖像理解與生成

具身智能體

圖形用戶界面（GUI）交互

基于LLM的智能體

論文第十章討論了 GPT-4V 未來可能的研究方向，重點是 LLM 中的有趣用法如何擴展到多模態(tài)場景。

基于ReAct的GPT-4V多模態(tài)鏈擴展：

使用自我反思來改進文本到圖像模型SDXL生成的文本提示的示例：

自洽性：

檢索增強LMM，圖74顯示了一個檢索增強的LMM幫助雜貨店結(jié)帳的示例。

關(guān)于GPT-4V的更多場景應(yīng)用細節(jié)，請查看原論文。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：人成久久 | 国产亚洲精品久久久久动 | 成人免费在线视频 | 国产精品不卡视频 | 亚洲vs天堂| 久草在线视频中文 | 永久看片| 好姑娘高清在线观看电影 | 欧美精品久久久久久久久老牛影院 | 亚洲精品久久久一区二区三区 | 日韩中文字幕 | 国产一区2区 | 色婷婷一区二区三区四区 | 亚洲视频二区 | 国产一区不卡 | 香蕉91| 日韩中文在线视频 | 美国黄色一级片 | 日韩国产中文字幕 | 亚洲福利网 | 91精品国产91久久久久久最新 | 日韩at| 国产高清一区二区 | 一区二区三区免费 | 久久精品国产一区二区电影 | 久草视频在线播放 | 日韩欧美综合 | 宅女噜噜66国产精品观看免费 | 天天摸天天干 | 国产日韩久久 | 国产精品电影在线观看 | 黑人巨大精品欧美一区二区免费 | 神马久久香蕉 | 国产精品夜色一区二区三区 | 中文字幕第十页 | 日韩一级免费 | 欧美精品在线观看 | 国产精品五区 | 久久精品一区二区三区四区 | 免费看黄色国产 | 欧美日韩黄色一级片 |