成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

100萬(wàn)token,一次能分析1小時(shí)YouTube視頻,「大世界模型」火了

人工智能 新聞
這項(xiàng)研究為語(yǔ)言模型更好地理解物理世界鋪平了道路。

最近幾天,我們接連被谷歌的多模態(tài)模型 Gemini 1.5 以及 OpenAI 的視頻生成模型 Sora 所震撼到,前者可以處理的上下文窗口達(dá)百萬(wàn)級(jí)別,而后者生成的視頻能夠理解運(yùn)動(dòng)中的物理世界,被很多人稱為「世界模型」。然而,這些刷屏無數(shù)的模型真的能很好的理解世界嗎?我們就拿 Sora 來說,該模型在給大家?guī)眢@嘆的同時(shí),卻不能很好的模擬復(fù)雜場(chǎng)景的物理原理,如一位健身的男子倒著跑跑步機(jī)。

圖片

不僅 Sora,現(xiàn)如今大模型雖然發(fā)展迅速,然而其自身也存在缺點(diǎn),比如在現(xiàn)實(shí)世界中不容易用語(yǔ)言描述的內(nèi)容,模型理解起來非常困難,又比如這些模型難以處理復(fù)雜的長(zhǎng)程任務(wù)。視頻模型的出現(xiàn)在一定程度上緩解了這個(gè)問題,其能提供語(yǔ)言和靜態(tài)圖像中所缺少的時(shí)間信息,這種信息對(duì) LLM 非常有價(jià)值。隨著技術(shù)的進(jìn)步,模型開始變得對(duì)文本知識(shí)和物理世界有了更好的理解,從而幫助人類。

然而,由于內(nèi)存限制、計(jì)算復(fù)雜性和有限的數(shù)據(jù)集,從數(shù)百萬(wàn)個(gè)視頻和語(yǔ)言序列的 token 中進(jìn)行學(xué)習(xí)挑戰(zhàn)巨大。

為了應(yīng)對(duì)這些挑戰(zhàn),來自 UC 伯克利的研究者整理了一個(gè)包含各種視頻和書籍的大型數(shù)據(jù)集,并且提出了大世界模型( Large World Model ,LWM),利用 RingAttention 技術(shù)對(duì)長(zhǎng)序列進(jìn)行可擴(kuò)展訓(xùn)練,逐漸將上下文大小從 4K 增加到 1M token。 

圖片

  • 論文地址:https://arxiv.org/pdf/2402.08268.pdf
  • 項(xiàng)目主頁(yè):https://github.com/LargeWorldModel/LWM?tab=readme-ov-file
  • 論文標(biāo)題:WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION

項(xiàng)目 5 天攬獲 2.5K 星標(biāo)。

圖片

本文的貢獻(xiàn)可總結(jié)為如下幾個(gè)方面:

(a)該研究在長(zhǎng)視頻和語(yǔ)言序列上訓(xùn)練了一個(gè)擁有極大上下文尺寸的 transformers 模型,從而設(shè)立了新的檢索任務(wù)和長(zhǎng)視頻理解方面的標(biāo)桿。

 (b) 為了克服視覺 - 語(yǔ)言訓(xùn)練帶來的挑戰(zhàn),該研究采取了以下措施,包括使用掩碼序列以混合不同長(zhǎng)度的序列、損失加權(quán)以平衡語(yǔ)言和視覺、以及使用模型生成的問答數(shù)據(jù)來處理長(zhǎng)序列對(duì)話。

 (c) 通過 RingAttention、掩碼序列打包等方法,可以訓(xùn)練數(shù)百萬(wàn)長(zhǎng)度的多模態(tài)序列。

 (d) 完全開源 7B 參數(shù)系列模型,其能夠處理超過 100 萬(wàn) token 的長(zhǎng)文本文檔(LWM-Text、LWM-Text-Chat)和視頻(LWM、LWM-Chat)。

LWM 可以基于文本提示自動(dòng)生成圖像,例如黑色的小狗:

LWM 還可以基于文本提示生成視頻,例如在夜空中綻放的煙花在天空中綻放:

圖片

接下來,LWM 還能深入理解圖片、回答關(guān)于圖片的問題,例如 LWM 能對(duì)經(jīng)典藝術(shù)作品的二次創(chuàng)作進(jìn)行解讀:

值得一提的是,LWM 可以回答時(shí)長(zhǎng)為 1 小時(shí)的 YouTube 視頻。比如在示例中,當(dāng)用戶詢問「那個(gè)穿著霸王龍服裝的人騎的是什么車」?GPT-4V 不能提供支持,Gemini Pro Vision 回答錯(cuò)誤。只有 LWM 給了「那個(gè)穿著霸王龍服裝的人騎的是摩托車」正確答案。顯示出 LWM 在長(zhǎng)視頻理解中的優(yōu)勢(shì)。

更多示例結(jié)果如下,我們可以得出,即使是最先進(jìn)的商業(yè)模型 GPT-4V 和 Gemini Pro 在回答有關(guān)視頻的問題時(shí)都失敗了,只有 LWM 仍能回答長(zhǎng)達(dá) 1h 的 YouTube 視頻問題。

圖片

這項(xiàng)研究的作者共有四位, 其中一位是深度強(qiáng)化學(xué)習(xí)大牛、UC 伯克利教授 Pieter Abbeel 。Abbeel 在業(yè)余時(shí)間還出了很多課程,其中 Intro to AI 課程在 edX 上吸引了 10 萬(wàn)多名學(xué)生學(xué)習(xí),他的深度強(qiáng)化學(xué)習(xí)和深度無監(jiān)督學(xué)習(xí)教材是 AI 研究者的經(jīng)典學(xué)習(xí)資料,包括 CS294-158(Deep Unsupervised Learning)、CS188(Introduction to Artificial Intelligence)、CS287(Advanced Robotics)等。

方法介紹

該研究在 Llama2 7B 的基礎(chǔ)上訓(xùn)練了一個(gè)大型自回歸 Transformer 模型,該模型具有長(zhǎng)達(dá) 100 萬(wàn)個(gè) token 的超大上下文窗口。為了實(shí)現(xiàn)這一點(diǎn),研究團(tuán)隊(duì)采用多種策略:使用書籍資料將上下文擴(kuò)展到 100 萬(wàn)個(gè) token,然后在長(zhǎng)多模態(tài)序列上進(jìn)行聯(lián)合訓(xùn)練,包括文本 - 圖像、文本 - 視頻數(shù)據(jù)和書籍資料。

計(jì)算注意力權(quán)重的二次復(fù)雜度會(huì)帶來內(nèi)存限制,因此在長(zhǎng)文檔上進(jìn)行訓(xùn)練異常昂貴。為了解決這些計(jì)算限制,研究團(tuán)隊(duì)采用 RingAttention 實(shí)現(xiàn),利用具有序列并行性的塊式計(jì)算。理論上這種方法可以將上下文窗口擴(kuò)展到無限長(zhǎng)度,僅受可用設(shè)備數(shù)量的限制。該研究還使用 Pallas 進(jìn)一步將 RingAttention 與 FlashAttention 融合,以優(yōu)化模型性能。

如下表 1 所示,為了擴(kuò)展上下文窗口的長(zhǎng)度,該研究采用漸進(jìn)式訓(xùn)練的方法。直觀地講,這使得模型可以通過首先學(xué)習(xí)較短范圍的依賴關(guān)系,然后再轉(zhuǎn)移到較長(zhǎng)的序列上來節(jié)省計(jì)算量。

圖片

LWM 模型的整體架構(gòu)如下圖 4 所示,總體上講是一個(gè)數(shù)百萬(wàn)長(zhǎng)度 token 序列上的自回歸 transformer。視頻中的每個(gè)幀使用 VQGAN tokenized 為 256 個(gè) token,這些 token 會(huì)與文本 token 連接起來,并輸入到 transformer 中,以自回歸方式預(yù)測(cè)下一個(gè) token。輸入和輸出的順序反映了不同的訓(xùn)練數(shù)據(jù)格式,包括圖像 - 文本、文本 - 圖像、視頻、文本 - 視頻和純文本格式。

實(shí)驗(yàn)結(jié)果

該研究將 LWM 與谷歌的 Gemini Pro 和 OpenAI 的 GPT-4 進(jìn)行了實(shí)驗(yàn)比較,實(shí)驗(yàn)結(jié)果表明 LWM 模型在檢索方面能夠媲美 GPT-4,如下表 3 所示。

圖片

該研究還在 MT-Bench 上評(píng)估了模型的對(duì)話能力。表 5 顯示了模型獲得的 MT-Bench 分?jǐn)?shù)。表 6 說明了模型的對(duì)話能力與事實(shí)檢索能力的關(guān)系。

在準(zhǔn)確性方面,LWM 在上下文窗口為 1M 時(shí)優(yōu)于 GPT-4V 和 Gemini Pro。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2015-12-03 09:02:22

掌握新事物100小時(shí)

2024-04-07 07:36:30

OpenAIGPT-4大型語(yǔ)言模型

2010-03-04 08:58:43

Windows 7自動(dòng)重啟

2021-09-07 16:15:07

微信視頻號(hào)移動(dòng)應(yīng)用

2024-11-18 14:35:00

智能體AI

2023-07-07 19:23:08

微軟文字Claude

2012-08-01 10:45:40

Outlook

2024-07-29 14:27:38

2016-01-18 10:06:05

編程

2009-05-25 10:29:43

2011-04-07 11:20:21

SQLServer

2010-07-09 11:14:43

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2012-05-16 09:53:56

2014-08-04 14:38:25

LinuxToken

2023-06-09 13:19:34

模型AI

2015-08-05 17:26:08

DingDong

2019-01-21 16:37:08

2019-01-21 11:17:13

CPU優(yōu)化定位

2022-07-12 16:46:45

DeepMindAIAlphaFold?
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: h片在线免费看 | 欧美日韩精品一区二区三区视频 | 国产丝袜一区二区三区免费视频 | 中文字幕1区2区 | 精品国产乱码久久久久久图片 | 欧美一级欧美一级在线播放 | 日韩国产在线 | 一区二区免费在线 | 欧美精品在线一区二区三区 | 妞干网av | 51ⅴ精品国产91久久久久久 | 国产中文字幕在线观看 | 国产精品久久久久久久久久久免费看 | 欧美色综合一区二区三区 | 成人精品一区二区 | 成人黄色电影在线观看 | 三级视频网站 | 成在线人视频免费视频 | 国产亚洲网站 | 人人干在线视频 | 91福利影院 | 91pao对白在线播放 | 亚洲欧美日韩精品久久亚洲区 | 国产视频一区二区三区四区五区 | 亚洲视频在线播放 | 久久激情网 | 热re99久久精品国产99热 | 日韩久久综合 | 国产精品免费一区二区 | 午夜天堂精品久久久久 | 亚洲一区欧美 | 精品国产乱码久久久久久丨区2区 | 亚洲综合色网站 | 粉嫩国产精品一区二区在线观看 | 久久er99热精品一区二区 | 午夜影院在线观看 | 欧美a在线看 | 老头搡老女人毛片视频在线看 | 国产视频二区 | 国产精品3区| 一区二区三区视频在线免费观看 |