成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

杭電小哥搶先搞定GPT讀圖功能,單卡就能實現新SOTA,代碼已開源

人工智能 新聞
目前該論文已經被CVPR2023接收。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

能讀圖的GPT-4震撼發布了!但要用它還得排隊。。。

不如先試試這個~

加上一個小模型,就能讓ChatGPT、GPT-3這類目前只能理解文本的大語言模型輕松讀圖,各種刁鉆的細節問題都能手拿把掐。

并且訓練這個小模型單卡(一塊RTX 3090)就能搞定。

效果呢,直接看圖。

比如說,給訓練后的GPT-3輸入一張“音樂現場”的圖片,問它:現場在舉辦什么活動?

圖片

毫不遲疑,GPT-3給出了音樂會的答案。

再來加點難度,再給GPT-3醬紫的一張照片,讓它來分辨照片中的簾子是什么類型的材質。

圖片

GPT-3:蕾絲

Bingo!(看來是有點兒東西在身上的)

這個方法呢,是杭州電子科技大學和合肥工業大學的一個團隊的最新成果:Prophet,半年前他們就已經著手進行這項工作。

論文一作是杭電研究生邵鎮煒,他在1歲那年被診斷患有“進行性脊肌萎縮癥”,高考時遺憾與浙大擦肩,選擇了離家近的杭州電子科技大學。

目前該論文已經被CVPR2023接收。

圖片

跨模態任務上達到新SOTA

話不多說,直接來看在Prophet這種方法的加持下GPT-3的讀圖能力。

我們先來看看它在數據集上的測試結果。

研究團隊在兩個基于外部知識的視覺問答數據集OK-VQA和A-OKVQA測試了Prophet,均創造了新SOTA

圖片


圖片

更具體點,在OK-VQA數據集上,和Deepmind的擁有80B參數的大模型Flamingo對比,Prophet達到了61.1%的準確率,成功擊敗Flamingo(57.8%)

并且在所需要的算力資源上,Prophet也是“吊打”Flamingo。

Flamingo-80B需要在1536塊TPUv4顯卡上訓練15天,而Prophet只需要一塊RTX-3090顯卡訓練VQA模型4天,再調用一定次數的OpenAI API即可。

圖片

其實,類似Prophet這種幫助GPT-3處理跨模態任務的方法之前也有,比如說PICa,以及之后的KAT和REVIVE。

不過它們在一些細節問題的處理中,可能就不盡如人意。

舉個栗子,讓它們一起讀下面這張圖,然后回答問題:圖片中的樹會結什么水果?

圖片

而PICa、KAT和REVIVE從圖片中提取到的信息只有:一群人在廣場上走路,完全忽略掉了后面還有一顆椰子樹。最終給出的答案也只能靠瞎猜。

而Prophet這邊,就不會出現這種情況,它解決了上述方法提取圖片信息不充分的問題,進一步激發了GPT-3的潛能。

圖片

那Prophet是怎么做的呢?

小模型+大模型

有效提取信息,并準確回答問題,能做到這些Prophet依賴的是它獨特的兩階段框架

這兩個階段也分工明確:

  • 第一階段:根據問題給出一些具有啟發性的答案;
  • 第二階段:這些答案會縮一些范圍,使GPT-3有充分的空間發揮潛能。

首先是第一階段,研究團隊針對特定的外部知識VQA數據集訓練了一個改進的MCAN模型(一個VQA模型)

訓練好模型后,從中提取兩種具有啟發性的答案:答案候選和答案感知示例。

其中,答案候選是以模型分類層輸出的置信度為依據對答案進行排序,選取里面的top10。

答案感知示例時指,將模型分類層之前的特征作為樣本的潛在答案特征,這個特征空間中最相近的標注樣本。

圖片

接下來就是第二階段,這一步相對來說就很簡單粗暴了。

講上一步得到的“啟發性答案”組織到prompt中,然后再將prompt輸入給GPT-3,在一定的提示之下完成視覺問答問題。

不過雖然上一步已經給出一些答案提示,但這并不意味著GPT-3就要局限在這些答案中。

若提示給出的答案置信度太低或者正確答案并不在那些提示中,GPT-3完全完全有可能生成新的答案。

圖片

研究團隊

當然,除了研究成果外,這項研究背后的團隊也不得不提。

第一作者邵鎮煒在1歲時就確診“進行性脊肌萎縮癥”,是肢體一級殘疾,沒有生活自理能力,生活和學習需要母親的全程照顧。

圖片

不過雖然身體受限,但邵鎮煒對知識的渴求并沒有減弱。

2017年高考他拿下644分的高分,以第一名的成績被杭州電子科技大學計算機專業錄取。

期間還獲得2018年中國大學生自強之星、2020年度國家獎學金和2021年度浙江省優秀畢業生等榮譽。

本科期間,邵鎮煒就已經開始跟著余宙教授進行科研活動。

2021年,邵鎮煒在準備研究生推免時與浙大擦肩,于是留校加入了余宙教授課題組攻讀碩士研究生,目前他在讀研二,研究方向是跨模態學習。

余宙教授則是本次研究論文的二作以及通訊作者,他是杭電計算機學院最年輕的教授,教育部“復雜系統建模與仿真”實驗室副主任。

長期以來,余宙專攻多模態智能方向,曾帶領研究團隊多次獲得國際視覺問答挑戰賽VQA Challenge的冠亞軍。

圖片

研究團隊的大部分成員都在杭電媒體智能實驗室(MIL)

該實驗室由國家杰青俞俊教授負責,近年來實驗室圍繞多模態學習方向發表一系列高水平期刊會議論文(TPAMI、IJCV、CVPR等),多次獲得IEEE期刊會議的最佳論文獎。

實驗室主持國家重點研發計劃、國家自然科學基金重點項目等國家級項目20余項,曾獲得過浙江省自然科學一等獎,教育自然科學二等獎。


責任編輯:張燕妮 來源: 量子位
相關推薦

2021-06-21 10:18:50

美團阿里云盤

2024-09-14 09:29:37

2025-06-17 09:07:24

2023-03-15 10:35:16

GPTAI

2025-05-13 08:59:20

2025-02-10 08:30:00

2023-06-13 13:53:00

GPT-4識圖微軟

2024-08-19 08:45:00

開源模型

2024-05-08 13:41:31

OpenAIA/B測試

2025-06-27 15:48:34

2024-01-31 09:38:23

AI模型

2024-04-17 12:20:51

腦機接口深度學習人工智能

2023-09-20 10:56:30

Fedora 39Linux

2023-04-20 14:43:38

Linux模型GPT4

2021-06-30 10:43:35

云系統架構代碼

2025-03-03 10:17:00

模型數據生成

2024-01-19 12:51:00

AI數據

2024-12-25 20:01:13

2021-09-08 11:02:32

Java代碼圖片

2023-01-05 13:11:20

模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久福利电影 | 久久久久国产精品一区二区 | 亚洲一区二区电影网 | 亚洲精品视频免费观看 | 亚洲精品 在线播放 | 日韩在线一区二区三区 | 国产精品日韩在线 | 国产高清在线精品一区二区三区 | 在线91| 日韩在线观看一区 | 日韩一级免费电影 | 中文字幕亚洲视频 | 日韩福利在线 | 久久久久久国产精品 | 午夜精品久久 | 狠狠插狠狠操 | 欧美成人免费在线视频 | 欧美二区三区 | 综合网视频 | 欧美三级免费观看 | www.99热这里只有精品 | 国产免费av在线 | 亚洲高清视频在线观看 | 国内av在线| 手机av在线| 在线视频91| 久久久久久久国产 | 99视频在线免费观看 | 一区二区三区四区免费在线观看 | 中文字幕高清免费日韩视频在线 | 日本免费一区二区三区四区 | 久久人体视频 | 国产91亚洲精品 | 中文字字幕一区二区三区四区五区 | 免费观看毛片 | 欧洲亚洲精品久久久久 | 免费高清成人 | 国产一区在线看 | 亚洲经典一区 | 91精品国产高清一区二区三区 | 人干人人 |