成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

人工智能 新聞
微軟亞研院發布了僅16億參數的多模態大型語言模型KOSMOS-1,不僅能看圖回答,還搞定了瑞文智商測試。

大模型的卷,已經不睡覺都趕不上進度了......

這不,微軟亞研院剛剛發布了一個多模態大型語言模型(MLLM)—— KOSMOS-1。

圖片

論文地址:https://arxiv.org/pdf/2302.14045.pdf

論文題目Language Is Not All You Need,還得源于一句名言。

文中有這么一句話,「我語言的局限,就是我世界的局限。——奧地利哲學家Ludwig Wittgenstein」

圖片

那么問題來了......

拿著圖問KOSMOS-1「是鴨還是兔」能搞明白嗎?這張有100多年歷史的梗圖硬是把谷歌AI整不會了。

圖片

1899年,美國心理學家Joseph Jastrow首次使用「鴨兔圖」來表明感知不僅是人們所看到的,而且是一種心理活動。

現在,KOSMOS-1便能將這種感知和語言模型相結合。

-圖中是什么?

-像一只鴨子。

-如果不是鴨子,那是什么?

-看起來更像兔子。

-為什么?

-它有兔子的耳朵。

這么一問,KOSMOS-1真有點像微軟版的ChatGPT了。

圖片

不僅如此,Kosmos-1還能理解圖像、文本、帶有文本的圖像、OCR、圖像說明、視覺QA。

甚至IQ測試也不在話下。

「宇宙」無所不能

Kosmos來源希臘一詞cosmos,有「宇宙」之意。

據論文介紹,最新Kosmos-1模型是一個多模態大型語言模型。

其主干是一個基于Transformer的因果語言模型,除了文本之外,其他模態,如視覺、音頻都可以嵌入模型。

Transformer解碼器用作多模態輸入的通用接口,因此它能感知一般模態,進行上下文學習,并遵循指令。

Kosmos-1在語言和多模態任務上取得了令人印象深刻的表現,無需進行微調,其中包括帶有文字指示的圖像識別、視覺問答和多模態對話。

如下是Kosmos-1生成一些例子式樣。

圖片解釋、圖片問答、網頁問題回答,簡單數字公式,以及數字識別。

圖片

那么,Kosmos-1是在哪些數據集上進行預訓練的呢?

訓練所用的數據庫,包括文本語料庫、圖像-字幕對、圖像和文本交叉數據集。

文本語料庫取自The Pile和Common Crawl(CC);

圖像-字幕對的來源為English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;

文本交叉數據集的來源是Common Crawl snapshot。

數據庫有了,接下來就是對模型進行預訓練了。

MLLM組件有24層、2,048個隱藏維度、8,192個FFN和32個注意力頭頭,產生了大約1.3B的參數。

為了保證優化的穩定性,采用Magneto初始化;為了更快地收斂,圖像表示是從一個預先訓練好的具有1024個特征維度的CLIP ViT-L/14模型獲取的。在訓練過程中,圖像被預處理成224×224分辨率,CLIP模型的參數除了最后一層均被凍結。

KOSMOS-1的參數總量約為16億。

為了使KOSMOS-1更好地與指令保持一致,對其進行了只用語言的指令調整 [LHV+23, HSLS22],即用指令數據繼續訓練模型,該指令數據是僅有的語言數據,與訓練語料庫混合。

該調優過程是按照語言建模的方式進行的,選取的指令數據集為Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]。

結果顯示,指令跟隨能力的提高可以跨模式轉移。

總之,MLLM可以從跨模態遷移中獲益,將知識從語言遷移到多模態,反之亦然;

5大類10個任務,都拿捏了

一個模型好不好使,拿出來溜溜就知道了。

研究團隊從多角度進行實驗來評價KOSMOS-1的性能,包括5大類十項任務:

1 語言任務(語言理解、語言生成、無OCR的文本分類)

2 多模態轉移(常識推理)

3 非語言推理(IQ測試)

4 感知-語言任務(圖像說明、視覺問答、網頁問答)

5 視覺任務(零樣本圖像分類、帶描述的零樣本圖像分類)

無OCR的文本分類

這是一種不依賴于光學字符識別(OCR)的專注于文本和圖像的理解任務。

KOSMOS-1對HatefulMemes和對Rendered SST-2測試集的準確率均高于優于其他模型。

而且Flamingo明確提供OCR文本到提示中,KOSMOS-1并沒有訪問任何外部工具或資源,這展示了KOSMOS-1閱讀和理解渲染的圖像中的文本的內在能力。

IQ測試

瑞文智力測試是評估非語言的最常用測試之一。

圖片

KOSMOS-1在沒有進行微調時準確率比隨機選擇提高了5.3%,經過微調后則提高了9.3%,表明其具有感知非語言環境中的抽象概念模式的能力。

這是首次有模型能夠完成零樣本Raven測試,證明了MLLMs通過將感知與語言模型結合起來進行零樣本非言語推理的潛力。

圖片

圖像說明

KOSMOS-1在COCO和Flickr30k測試中的零樣本性能均表現優秀,相比其他模型,其得分更高,但采用的參數量更小。

圖片

在少樣本性能測試中,得分隨著k值增大有所增加。

圖片

零樣本圖像分類

給定一個輸入圖像,并將該圖像與提示 「The photo of the」連接起來。然后,輸入模型以獲得圖像的類別名稱。

圖片

通過在ImageNet[DDS+09]上評估該模型,在有約束和無約束的條件下,KOSMOS-1的圖像歸類效果都明顯優于GIT[WYH+22],展現了完成視覺任務的強大能力。

圖片

常識推理

視覺常識推理任務要求模型理解現實世界中日常物體的屬性,如顏色、大小和形狀,這些任務是具有挑戰性的,因為它們可能需要比文本中更多的關于物體屬性的信息。

結果顯示,KOSMOS-1在尺寸和顏色方面的推理能力都明顯好于LLM模型。這主要是因為KOSMOS-1具備多模態遷移能力,從而能夠將視覺知識運用到語言任務中,而不必像LLM那樣必須依靠文本知識和線索來推理。

圖片


對于微軟Kosmos-1,網友稱贊道,未來5年,我可以看到一個高級機器人瀏覽網絡,并僅通過視覺方式基于人類的文本輸入來工作。真是有趣的時代。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-03-01 13:49:20

模型AI

2011-05-10 09:58:38

IBM藍色巨人百年

2011-06-01 10:13:41

IBM

2022-04-07 10:49:42

量子微軟

2021-06-17 14:05:26

馬克思主義建黨中國

2011-06-10 14:33:10

2011-06-17 08:47:58

IBMIBM百年

2021-03-01 07:59:24

架構系統Zachman

2022-07-21 17:39:26

百度AI

2011-06-16 09:10:49

2023-02-27 08:10:16

2024-03-01 13:31:06

2020-09-29 06:44:28

Redis延時隊列

2020-10-26 07:02:11

ConcurrentH存儲

2011-05-18 12:15:06

技術周刊

2011-06-17 11:21:22

IT技術周刊

2021-12-26 07:58:14

機器人AI人工智能

2015-06-23 13:11:07

敏捷校園東南大學華為

2012-06-24 21:04:29

2022-11-02 13:41:46

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色成人在线观看 | 国产精品成人一区二区三区 | av在线免费观看网站 | 国产精品一区二区三区四区 | 精品产国自在拍 | 亚洲不卡在线视频 | 精品日韩一区 | 羞羞视频免费在线 | 久久久久黄色 | 日韩电影一区二区三区 | 91视频在线| 亚洲aⅴ | 国产午夜精品一区二区 | 一区二区在线 | 91精品国产色综合久久不卡蜜臀 | 欧美国产精品 | 国产精品视频在线播放 | 搞av.com| 亚洲综合视频 | 国产成人麻豆免费观看 | 国产小u女发育末成年 | 黄色片大全在线观看 | 国产综合一区二区 | 欧美精品在欧美一区二区少妇 | 国产精品亚洲视频 | 久久这里只有精品首页 | 亚洲精品视频播放 | 国产原创在线观看 | 91 久久 | 欧美区日韩区 | 中文字幕av高清 | 亚洲免费一区 | 亚洲三区在线观看 | 国产精品自拍视频网站 | 成人不卡 | 久久久综合精品 | av一区二区三区 | 亚洲黄色高清视频 | 在线超碰 | 黄色毛片免费看 | www.4虎影院|