成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

教ChatGPT學會看圖的方法來了

人工智能
考慮到大規模模型的端到端訓練成本越來越高,BLIP-2使用的是一種通用且高效的預訓練策略:從現成的凍結預訓練圖像編碼器和凍結的大型語言模型中引導視覺語言預訓練。

2022年流行“文生圖”模型,那2023年流行什么?

機器學習工程師Daniel Bourke的答案是:反過來!

這不,一個最新發布的“圖生文”模型在網上爆火,其優秀的效果引發眾多網友紛紛轉發、點贊。

圖片

不僅是基礎的“看圖說話”功能,寫情詩、講解劇情、給圖片中對象設計對話等等,這個AI都拿捏得穩穩的!

比如,當你在網上刷到誘人的美食時,只需把圖片發給它,它就會立馬識別出需要的食材和做菜步驟:

圖片

甚至圖片中的一些列文虎克的細節也能“看”得清清楚楚。

當被問到如何才能從圖片中倒著的房子里離開,AI的回答是:側面不是有滑梯嘛!

圖片

這只新AI名為BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代碼已開源。

最重要的是,和以前的研究不同,BLIP-2使用的是一種通用的預訓練框架,因此可以任意對接自己的語言模型。

有網友已經在暢想把接口換成ChatGPT后的強強組合了。

圖片

作者之一Steven Hoi更是放話:BLIP-2未來就是“多模態版ChatGPT”。

圖片

那么,BLIP-2神奇的地方還有哪些?一起往下看。

理解能力一流

BLIP-2的玩法可以說非常多樣了。

只需提供一張圖片,你就可以與它對話,讓它看圖講故事、推理、生成個性化文本等各種要求都能滿足。

舉個例子,BLIP-2不僅能輕松識別圖片中的景點是長城,還能介紹出長城的歷史:

中國的長城是公元前221年秦始皇為了保護帝都不受北方侵略而建造的。

圖片

給它一張電影劇照,BLIP-2不光知道出自哪,還知道故事的結局是be:泰坦尼克號沉沒,男主淹死。

圖片

在對人類神態的拿捏上,BLIP-2同樣把握得非常準確。

被問到這張圖片中的男人是什么表情,他為什么這樣時,BLIP-2的回答是:他害怕那只雞,因為它正朝他飛來。

圖片

更神奇的是,在許多開放性問題上,BLIP-2的表現也很出色。

讓它根據下面的圖片寫一句浪漫的話:

圖片

它的回答是這樣的:愛情就像日落,很難預見它的到來,但當它發生時,它是如此的美麗。

圖片

這不光理解能力滿分,文學造詣也相當強啊!

圖片

讓它給圖片中的兩只動物生成一段對話,BLIP-2也能輕松拿捏傲嬌貓貓x蠢萌狗狗的設定:

貓: 嘿,狗狗,我能騎在你背上嗎?

狗: 當然,為什么不呢?

貓: 我已經厭倦了在雪地里行走。

圖片

那么,如此強大的理解能力背后,BLIP-2究竟是怎么做到的?

多項視覺語言任務上實現新SOTA

考慮到大規模模型的端到端訓練成本越來越高,BLIP-2使用的是一種通用且高效的預訓練策略:

從現成的凍結預訓練圖像編碼器和凍結的大型語言模型中引導視覺語言預訓練。

這也意味著,每個人都可以選擇自己想用的模型接入使用。

而為了彌補了模態之間的差距,研究者提出了一個輕量級的查詢Transformer。

該Transformer分兩個階段進行預訓練:

第一階段從凍結圖像編碼器引導視覺語言表示學習,第二階段將視覺從凍結的語言模型引導到語言生成學習。

圖片

為了測試BLIP-2的性能,研究人員分別從零樣本圖像-文本生成、視覺問答、圖像-文本檢索、圖像字幕任務上對其進行了評估。

最終結果顯示,BLIP-2在多項視覺語言任務上都實現了SOTA。

圖片

其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且訓練參數還減少了54倍。

而且顯而易見的是,更強的圖像編碼器或更強的語言模型都會產生更好的性能。

圖片

值得一提的是,研究者在論文最后也提到,BLIP-2還存在一個不足,那就是缺乏上下文學習能力:

每個樣本只包含一個圖像-文本對,目前還無法學習單個序列中多個圖像-文本對之間的相關性。

研究團隊

BLIP-2的研究團隊來自Salesforce Research。

圖片

第一作者為Junnan Li,他也是一年前推出的BLIP的一作。

目前是Salesforce亞洲研究院高級研究科學家。本科畢業于香港大學,博士畢業于新加坡國立大學。

研究領域很廣泛,包括自我監督學習、半監督學習、弱監督學習、視覺-語言。

以下是BLIP-2的論文鏈接和GitHub鏈接,感興趣的小伙伴們可以自取~

?論文鏈接:https://arxiv.org/pdf/2301.12597.pdf

GitHub鏈接:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

參考鏈接:[1]https://twitter.com/mrdbourke/status/1620353263651688448

[2]?https://twitter.com/LiJunnan0409/status/1620259379223343107

責任編輯:武曉燕 來源: 量子位
相關推薦

2022-04-01 08:02:44

云成本服務器互聯網

2023-04-07 13:51:00

Midjourneyprompt工具

2023-02-22 14:47:24

模型AI

2019-09-30 10:46:46

代碼架構Architect

2019-10-14 10:21:47

代碼通用架構

2021-11-09 21:22:24

微軟Windows 11Windows

2023-03-23 18:37:48

圖像技術

2010-02-02 18:02:20

Python源文件

2023-03-01 13:49:20

模型AI

2017-03-02 13:43:02

RPython文本挖掘

2010-09-14 13:22:51

sql server備

2023-07-26 13:11:21

ChatGPT平臺工具

2024-07-16 15:48:45

蘋果iPhone果粉

2023-06-28 11:01:08

2009-11-18 14:59:30

2023-10-20 12:53:00

模型訓練

2024-11-29 08:53:46

2023-09-11 13:12:54

模型數據

2023-03-03 07:34:05

2023-03-02 22:46:48

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品9999 | 日本黄色影片在线观看 | 欧美精品二区三区 | 色资源在线视频 | 午夜影院在线观看 | 国产福利在线 | 91在线看网站 | 日本一区二区电影 | 免费视频一区二区 | 一区二区三区视频在线 | 国产精品精品视频一区二区三区 | 蜜桃一区二区三区 | 一级黄色大片 | 国产精品久久久久久高潮 | 日本精品久久 | 欧美成人综合 | 中国黄色在线视频 | 亚洲高清视频在线观看 | 国产日韩视频 | 超碰97人人人人人蜜桃 | 日日夜夜免费精品视频 | www.日本国产 | 日韩毛片播放 | 免费视频一区二区 | 黄色网址在线播放 | 天天拍天天射 | 在线一区视频 | 久久久成人一区二区免费影院 | 国产精品久久久 | 福利视频三区 | 麻豆一区二区三区 | 亚洲激情视频在线 | 午夜精品久久久久久久 | 成人影音 | 亚洲毛片在线观看 | 一区二区三区高清 | 亚洲欧美一区二区三区视频 | 黄色一级免费观看 | 久久久久国产精品一区三寸 | 欧美大片久久久 | 99这里只有精品视频 |