成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個開源、原生多模態(tài)生成大模型:一鍵生成 「煎雞蛋」圖文菜譜

人工智能 新聞
Anole 不僅是一個強大的工具,更是為未來研究提供了沃土,為 AI 社區(qū)構(gòu)建了一個穩(wěn)固的資源和基礎(chǔ)設(shè)施平臺,使其能夠在此基礎(chǔ)上不斷創(chuàng)新和發(fā)展。

生成式人工智能研究實驗室(GAIR,主頁:https://plms.ai/)由上海交通大學劉鵬飛副教授2023年4月回國創(chuàng)建,是國內(nèi)首個聚焦于生成式人工智能的高校研究組。匯聚了來自于CMU、復旦、交大(ACM班、IEEE試點班等)等頂尖高校的年輕本碩博人才。實驗室專注于三大核心領(lǐng)域:大模型基礎(chǔ)研究、對齊系統(tǒng)和社會影響,致力于培養(yǎng)頂尖人工智能人才(具有原創(chuàng)、批判精神等)、開發(fā)尖端的生成式人工智能技術(shù),賦能人類解決復雜問題,提升人類生活質(zhì)量。

自LLaMa自回歸文本生成大模型耀眼登場以來,整個AI界翹首以盼,期待一個能夠真正實現(xiàn)原生、自回歸圖文生成的開源大模型。17個月的漫長等待,我們見證了以文本為核心的LLaVa的崛起,目睹了基于Diffusion的Dalle的驚艷,卻始終未能一睹那個能夠完美融合文字與圖像的模型真容。

直到今天,Anole的誕生,終于填補了這一空白,滿足了AI研究者和開發(fā)者的殷切期盼,讓每個人都可以用開發(fā)LLaMa的方式去開發(fā)多模態(tài)大模型。

想象一下,你只需敲擊幾個鍵盤,就能喚醒一位虛擬大廚,為你展示一道完美煎蛋的每一個精妙步驟。這不再是科幻,而是由上海交通大學GAIR團隊帶來的創(chuàng)新成果——Anole模型。

Anole是多模態(tài)大模型領(lǐng)域發(fā)展的一次重要技術(shù)突破,作為全球首個完全開源、自回歸、原生的(文本與圖片一起從頭訓練)多模態(tài)大模型。無需復雜的擴散模型,Anole憑借純粹的"token"自回歸預測,就能實現(xiàn)文字與圖像的無縫交織。如圖所示,當你在Anole的界面上輸入"用圖片和文字講解煎雞蛋的每一步"時,它會瞬間化身為你的私人廚藝導師。一系列生動形象的步驟圖隨即呈現(xiàn),每一幅圖都配有清晰明了的文字說明,仿佛一位耐心的大廚在為你量身定制教程。

圖片

這僅僅是Anole眾多強大功能中的一個。接下來,讓我們深入了解這個創(chuàng)新的多模態(tài)生成模型及其背后的技術(shù)。

圖片

  • 項目主頁:https://gair-nlp.github.io/anole
  • Github: https://github.com/GAIR-NLP/anole
  • Huggingface: https://huggingface.co/GAIR/Anole-7b-v0.1

Anole是首個能夠?qū)崿F(xiàn)交錯圖文生成開源、自回歸、原生訓練的大型多模態(tài)模型(無需使用穩(wěn)定擴散技術(shù))。雖然它建立在Meta 開源的Chameleon[1]的優(yōu)勢基礎(chǔ)之上,但Anole新增了生成連貫的交替文本和圖像序列這一復雜任務(wù)。通過使用精心構(gòu)建的的約6,000張圖像數(shù)據(jù)集進行創(chuàng)新性微調(diào),Anole以最少的額外訓練實現(xiàn)了出色的圖像生成和理解能力。這種高效的方法,加上其開源特性,使Anole成為加速多模態(tài)AI研究和開發(fā)的催化劑。初步測試表明,Anole具有卓越的能力,能夠遵循細致入微的指令,產(chǎn)生高質(zhì)量的圖像和交錯的文本-圖像內(nèi)容,與用戶提示密切吻合。


除了具備常規(guī)多模態(tài)模型的“文本生成”和“多模態(tài)理解”能力外,Anole還展現(xiàn)了出色的圖文交錯生成和文本生成圖像的能力。


  • 文本 → 圖片 + 文本:能夠生成圖像并附帶相關(guān)文本描述。除開上文中使用Anole以生成一系列煎蛋步驟的圖片并附上相關(guān)描述文字的例子外。模型還可以生成其他圖文交錯的數(shù)據(jù)。這種能力在初步測試中表現(xiàn)良好,能夠生成有意義的圖像并準確傳達文本信息。


圖片

圖片

圖片

  • 文本 → 圖片:能夠根據(jù)文本生成圖像。

指令: A piece of paper with word like "Anole" written on it, and a drawing of an Anole.

生成結(jié)果: 

圖片

指令: An image depicting three cubes stacked on a table. Each cube has a random color and a letter on it.

生成結(jié)果: 

圖片

更多例子:

圖片

圖片

訓練技術(shù)

近年來,多模態(tài)AI技術(shù)取得了顯著進展,Meta AI推出的Chameleon模型便是其中的代表。Chameleon通過在預訓練期間融合圖像和文本語料的方法,展示了在視覺和語言整合方面的潛力。然而,盡管Chameleon具有突破性,其圖像生成的關(guān)鍵網(wǎng)絡(luò)參數(shù)并未開源,限制了其進一步的研究和實際應(yīng)用。

Chameleon的預訓練數(shù)據(jù)本身就包含了文本和圖像兩種模態(tài),理論上賦予了它圖像生成的能力。我們的目標是在不影響其文本理解、生成和多模態(tài)理解能力的前提下,激活這種能力。為實現(xiàn)這一目標,我們凍結(jié)了Chameleon的大部分參數(shù),僅對transformer的輸出頭層中與圖像token ID對應(yīng)的logits進行了微調(diào)

具體而言,Anole具體如下特性:

  • 快速高效的微調(diào)手段:通過創(chuàng)新的局部微調(diào)方法,只調(diào)整不到40m參數(shù),在短時間內(nèi)(8 個 A100 GPU 上大約 30 分鐘),便成功激發(fā)出Chameleon的圖像生成能力,使研究人員和開發(fā)者能夠充分利用并基于Chameleon的架構(gòu)進行后續(xù)的多模態(tài)AI研究工作。
  • 少即是多(Less is More)的微調(diào)數(shù)據(jù):僅需5,859個圖片樣本便可有效激發(fā)Chameleon的圖像生成能力,展示了在大型多模態(tài)模型中恢復復雜功能的高效性。
  • 全面的微調(diào)和推理代碼:提供了一整套用于微調(diào)、推理Chameleon和Anole的代碼庫,顯著降低了開發(fā)和實驗的門檻。
  • 豐富的資源以提升可及性:提供了豐富的數(shù)據(jù)資源和詳細的教程,旨在幫助各級別的研究人員更容易上手和實驗。

圖片

全方位開源

值得注意的是,GAIR團隊已經(jīng)對 Anole項目進行完全開源(提供了開源的模型權(quán)重、推理與訓練代碼和詳細使用教程),以確保每個感興趣的研究者都能重現(xiàn)這些結(jié)果,可以微調(diào)模型,創(chuàng)建自己的風格變體。該項目旨在建立和共享一個具有完整圖文理解和生成能力的多模態(tài)模型,并通過完全開源實現(xiàn)多模態(tài)技術(shù)民主化,讓更多人可以加入多模態(tài)大模型的開發(fā)中。

當前版本(v1.0)具體提供了如下的資源:

  • 模型微調(diào)代碼(基于HuggingFace Trainer)
  • 權(quán)重轉(zhuǎn)換代碼(Hf->Meta & Meta->Hf)
  • 與圖像生成有關(guān)的推理代碼:包括文生圖以及圖文交互
  • 5k+圖片用于微調(diào)模型以賦予其圖像生成的能力

更重要的是,Anole 為學術(shù)界開啟了一系列重要且富有挑戰(zhàn)性的研究方向。具體而言:

  • 它為探索統(tǒng)一的基于分詞器的多模態(tài)模型(token-based)的性能上限提供了新的途徑,使得與擴散模型 (diffusion-based) 等方法的比較成為可能。
  • 同時,它推動了高效交錯文本-圖像解碼技術(shù)的發(fā)展,這對實時應(yīng)用至關(guān)重要(比如動漫生成、教材生成)
  • 此外,Anole 為探索這類復雜模型的最優(yōu)微調(diào)策略創(chuàng)造了契機,并提出了如何確保生成圖像安全性和倫理使用等亟待解決的問題。

從根本上說,Anole 不僅是一個強大的工具,更是為未來研究提供了沃土,為 AI 社區(qū)構(gòu)建了一個穩(wěn)固的資源和基礎(chǔ)設(shè)施平臺,使其能夠在此基礎(chǔ)上不斷創(chuàng)新和發(fā)展。這種開放的方法有望加速多模態(tài) AI 的進展,有可能帶來突破性成果,而這些成果在過去因缺乏先進模型和技術(shù)的獲取途徑而難以實現(xiàn)。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-04-08 14:07:51

Animagine開源

2023-06-06 14:09:32

模型開源

2023-10-10 15:06:00

智能數(shù)據(jù)

2025-05-14 08:51:00

2025-04-22 15:34:08

視頻生成AI

2024-09-27 17:58:26

2023-04-03 10:04:44

開源模型

2024-11-25 14:30:00

2024-02-01 13:03:00

AI模型

2019-10-11 11:00:53

Nginx神器前端

2022-08-02 14:27:01

HDF驅(qū)動框架驅(qū)動開發(fā)

2024-03-15 14:34:12

Oracle數(shù)據(jù)庫一鍵巡檢

2020-12-24 10:20:43

文檔工具語言

2025-03-03 03:35:00

DeepSeekXmind思維導圖

2020-05-11 09:40:47

IDEA代碼神器

2023-12-19 15:45:07

Linux工具

2025-06-25 09:32:11

2025-03-19 09:30:00

2024-03-25 12:30:18

AI訓練開源
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产电影一区二区 | 欧美日韩在线视频一区 | 亚洲成人精品影院 | 国产黄色av网站 | 91久久久久久久久久久久久 | 一级免费毛片 | 国产成人精品一区二区三区在线 | 精品欧美在线观看 | 毛片链接| 91.com视频 | 精品在线免费看 | 精品国产乱码久久久久久蜜柚 | 狠狠干av | 久久成人精品视频 | 中文字幕1区2区 | 亚洲精品2区 | 黄色av观看 | 国产一区二区精华 | 国产精品日韩欧美一区二区三区 | 国产精品欧美一区二区三区不卡 | 亚洲精品久久国产高清情趣图文 | 99久久久久久99国产精品免 | 中文字幕亚洲一区 | 久久久国产一区二区三区四区小说 | 亚洲另类春色偷拍在线观看 | 欧美日韩在线播放 | 亚洲国产网址 | 国产精品久久av | 91精品久久久 | 久久久久久成人网 | 日韩一区精品 | 亚州精品天堂中文字幕 | 午夜无码国产理论在线 | 天天操天天干天天爽 | 日韩在线一区二区三区 | 欧美日韩亚洲视频 | a级片在线| 国产电影精品久久 | 久久精品国产久精国产 | 久久久久久高潮国产精品视 | 国产精品久久国产精品久久 |