首個開源、原生多模態(tài)生成大模型：一鍵生成「煎雞蛋」圖文菜譜

作者：機器之心 2024-07-04 10:13:18

Anole 不僅是一個強大的工具，更是為未來研究提供了沃土，為 AI 社區(qū)構(gòu)建了一個穩(wěn)固的資源和基礎(chǔ)設(shè)施平臺，使其能夠在此基礎(chǔ)上不斷創(chuàng)新和發(fā)展。

生成式人工智能研究實驗室（GAIR，主頁：https://plms.ai/）由上海交通大學劉鵬飛副教授2023年4月回國創(chuàng)建，是國內(nèi)首個聚焦于生成式人工智能的高校研究組。匯聚了來自于CMU、復旦、交大（ACM班、IEEE試點班等）等頂尖高校的年輕本碩博人才。實驗室專注于三大核心領(lǐng)域：大模型基礎(chǔ)研究、對齊系統(tǒng)和社會影響，致力于培養(yǎng)頂尖人工智能人才（具有原創(chuàng)、批判精神等）、開發(fā)尖端的生成式人工智能技術(shù)，賦能人類解決復雜問題，提升人類生活質(zhì)量。

自LLaMa自回歸文本生成大模型耀眼登場以來，整個AI界翹首以盼，期待一個能夠真正實現(xiàn)原生、自回歸圖文生成的開源大模型。17個月的漫長等待，我們見證了以文本為核心的LLaVa的崛起，目睹了基于Diffusion的Dalle的驚艷，卻始終未能一睹那個能夠完美融合文字與圖像的模型真容。

直到今天，Anole的誕生，終于填補了這一空白，滿足了AI研究者和開發(fā)者的殷切期盼，讓每個人都可以用開發(fā)LLaMa的方式去開發(fā)多模態(tài)大模型。

想象一下，你只需敲擊幾個鍵盤，就能喚醒一位虛擬大廚，為你展示一道完美煎蛋的每一個精妙步驟。這不再是科幻，而是由上海交通大學GAIR團隊帶來的創(chuàng)新成果——Anole模型。

Anole是多模態(tài)大模型領(lǐng)域發(fā)展的一次重要技術(shù)突破，作為全球首個完全開源、自回歸、原生的（文本與圖片一起從頭訓練）多模態(tài)大模型。無需復雜的擴散模型，Anole憑借純粹的"token"自回歸預測，就能實現(xiàn)文字與圖像的無縫交織。如圖所示，當你在Anole的界面上輸入"用圖片和文字講解煎雞蛋的每一步"時，它會瞬間化身為你的私人廚藝導師。一系列生動形象的步驟圖隨即呈現(xiàn)，每一幅圖都配有清晰明了的文字說明，仿佛一位耐心的大廚在為你量身定制教程。

這僅僅是Anole眾多強大功能中的一個。接下來，讓我們深入了解這個創(chuàng)新的多模態(tài)生成模型及其背后的技術(shù)。

項目主頁：https://gair-nlp.github.io/anole
Github: https://github.com/GAIR-NLP/anole
Huggingface: https://huggingface.co/GAIR/Anole-7b-v0.1

Anole是首個能夠?qū)崿F(xiàn)交錯圖文生成的開源、自回歸、原生訓練的大型多模態(tài)模型（無需使用穩(wěn)定擴散技術(shù)）。雖然它建立在Meta 開源的Chameleon[1]的優(yōu)勢基礎(chǔ)之上，但Anole新增了生成連貫的交替文本和圖像序列這一復雜任務(wù)。通過使用精心構(gòu)建的的約6,000張圖像數(shù)據(jù)集進行創(chuàng)新性微調(diào)，Anole以最少的額外訓練實現(xiàn)了出色的圖像生成和理解能力。這種高效的方法，加上其開源特性，使Anole成為加速多模態(tài)AI研究和開發(fā)的催化劑。初步測試表明，Anole具有卓越的能力，能夠遵循細致入微的指令，產(chǎn)生高質(zhì)量的圖像和交錯的文本-圖像內(nèi)容，與用戶提示密切吻合。

除了具備常規(guī)多模態(tài)模型的“文本生成”和“多模態(tài)理解”能力外，Anole還展現(xiàn)了出色的圖文交錯生成和文本生成圖像的能力。

文本 → 圖片 + 文本：能夠生成圖像并附帶相關(guān)文本描述。除開上文中使用Anole以生成一系列煎蛋步驟的圖片并附上相關(guān)描述文字的例子外。模型還可以生成其他圖文交錯的數(shù)據(jù)。這種能力在初步測試中表現(xiàn)良好，能夠生成有意義的圖像并準確傳達文本信息。

文本 → 圖片：能夠根據(jù)文本生成圖像。

指令: A piece of paper with word like "Anole" written on it, and a drawing of an Anole.

生成結(jié)果:

指令: An image depicting three cubes stacked on a table. Each cube has a random color and a letter on it.

生成結(jié)果:

更多例子：

訓練技術(shù)

近年來，多模態(tài)AI技術(shù)取得了顯著進展，Meta AI推出的Chameleon模型便是其中的代表。Chameleon通過在預訓練期間融合圖像和文本語料的方法，展示了在視覺和語言整合方面的潛力。然而，盡管Chameleon具有突破性，其圖像生成的關(guān)鍵網(wǎng)絡(luò)參數(shù)并未開源，限制了其進一步的研究和實際應(yīng)用。

Chameleon的預訓練數(shù)據(jù)本身就包含了文本和圖像兩種模態(tài)，理論上賦予了它圖像生成的能力。我們的目標是在不影響其文本理解、生成和多模態(tài)理解能力的前提下，激活這種能力。為實現(xiàn)這一目標，我們凍結(jié)了Chameleon的大部分參數(shù)，僅對transformer的輸出頭層中與圖像token ID對應(yīng)的logits進行了微調(diào)。

具體而言，Anole具體如下特性：

快速高效的微調(diào)手段：通過創(chuàng)新的局部微調(diào)方法，只調(diào)整不到40m參數(shù)，在短時間內(nèi)（8 個 A100 GPU 上大約 30 分鐘），便成功激發(fā)出Chameleon的圖像生成能力，使研究人員和開發(fā)者能夠充分利用并基于Chameleon的架構(gòu)進行后續(xù)的多模態(tài)AI研究工作。
少即是多（Less is More)的微調(diào)數(shù)據(jù)：僅需5,859個圖片樣本便可有效激發(fā)Chameleon的圖像生成能力，展示了在大型多模態(tài)模型中恢復復雜功能的高效性。
全面的微調(diào)和推理代碼：提供了一整套用于微調(diào)、推理Chameleon和Anole的代碼庫，顯著降低了開發(fā)和實驗的門檻。
豐富的資源以提升可及性：提供了豐富的數(shù)據(jù)資源和詳細的教程，旨在幫助各級別的研究人員更容易上手和實驗。

全方位開源

值得注意的是，GAIR團隊已經(jīng)對 Anole項目進行完全開源（提供了開源的模型權(quán)重、推理與訓練代碼和詳細使用教程），以確保每個感興趣的研究者都能重現(xiàn)這些結(jié)果，可以微調(diào)模型，創(chuàng)建自己的風格變體。該項目旨在建立和共享一個具有完整圖文理解和生成能力的多模態(tài)模型，并通過完全開源實現(xiàn)多模態(tài)技術(shù)民主化，讓更多人可以加入多模態(tài)大模型的開發(fā)中。

當前版本(v1.0)具體提供了如下的資源：

模型微調(diào)代碼（基于HuggingFace Trainer）
權(quán)重轉(zhuǎn)換代碼（Hf->Meta & Meta->Hf)
與圖像生成有關(guān)的推理代碼：包括文生圖以及圖文交互
5k+圖片用于微調(diào)模型以賦予其圖像生成的能力

更重要的是，Anole 為學術(shù)界開啟了一系列重要且富有挑戰(zhàn)性的研究方向。具體而言：

它為探索統(tǒng)一的基于分詞器的多模態(tài)模型（token-based）的性能上限提供了新的途徑，使得與擴散模型（diffusion-based) 等方法的比較成為可能。
同時，它推動了高效交錯文本-圖像解碼技術(shù)的發(fā)展，這對實時應(yīng)用至關(guān)重要（比如動漫生成、教材生成）
此外，Anole 為探索這類復雜模型的最優(yōu)微調(diào)策略創(chuàng)造了契機，并提出了如何確保生成圖像安全性和倫理使用等亟待解決的問題。

從根本上說，Anole 不僅是一個強大的工具，更是為未來研究提供了沃土，為 AI 社區(qū)構(gòu)建了一個穩(wěn)固的資源和基礎(chǔ)設(shè)施平臺，使其能夠在此基礎(chǔ)上不斷創(chuàng)新和發(fā)展。這種開放的方法有望加速多模態(tài) AI 的進展，有可能帶來突破性成果，而這些成果在過去因缺乏先進模型和技術(shù)的獲取途徑而難以實現(xiàn)。

責任編輯：張燕妮來源：機器之心

AI 訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個開源、原生多模態(tài)生成大模型：一鍵生成 「煎雞蛋」圖文菜譜

訓練技術(shù)

全方位開源

首個開源、原生多模態(tài)生成大模型：一鍵生成「煎雞蛋」圖文菜譜