成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華系面壁智能開源中文多模態大模型VisCPM :支持對話文圖雙向生成,吟詩作畫能力驚艷

人工智能 新聞
再現破壁式成就,VisCPM強勢來襲!

2020 年 12 月發布的 CPM-1 是國內首個中文大模型 ;2022 年 9 月發布的 CPM-Ant 僅微調 0.06% 參數就能超越全參數微調效果;2023 年 5 月發布的 WebCPM 是 中文首個基于搜索的問答開源模型。CPM-Bee 百億大模型是團隊最新發布的基座模型,中文能力登頂權威榜單 ZeroCLUE,英文能力打平 LLaMA。

屢屢作出破壁性成就,CPM 系列大模型一直在引領國產大模型攀登高峰,最近發布的 VisCPM 是又一次證明!VisCPM 是由面壁智能、清華大學 NLP 實驗室和知乎聯合開源在 OpenBMB 的多模態大模型系列,其中 VisCPM-Chat 模型支持中英雙語的多模態對話能力,VisCPM-Paint 模型支持文到圖生成能力,評測顯示 VisCPM 在中文多模態開源模型中達到最佳水平。

VisCPM 基于百億參數基座模型 CPM-Bee 訓練,融合視覺編碼器(Q-Former 和視覺解碼器(Diffusion-UNet)以支持視覺信號的輸入和輸出。得益于 CPM-Bee 底座優秀的雙語能力,VisCPM 可以僅通過英文多模態數據預訓練,泛化實現優秀的中文多模態能力。

VisCPM簡易架構圖VisCPM簡易架構圖

我們來詳細看看 VisCPM-Chat 和 VisCPM-Paint 到底牛在哪里。

圖片圖片

VisCPM 鏈接:https://github.com/OpenBMB/VisCPM

VisCPM-Chat 支持面向圖像進行中英雙語多模態對話。該模型使用 Q-Former 作為視覺編碼器,使用 CPM-Bee(10B)作為語言交互基底模型,并通過語言建模訓練目標融合視覺和語言模型。模型訓練包括預訓練和指令精調兩階段。

團隊使用約 100M 高質量英文圖文對數據 對 VisCPM-Chat 進行了預訓練,數據包括 CC3M、CC12M、COCO、Visual Genome、Laion 等。在預訓練階段,語言模型參數保持固定,僅更新 Q-Former 部分參數,以支持大規模視覺 - 語言表示的高效對齊。

之后團隊對 VisCPM-Chat 進行了指令精調,采用 LLaVA-150K 英文指令精調數據,并混合相應翻譯后的中文數據對模型進行指令精調,以對齊模型多模態基礎能力和用戶使用意圖。在指令精調階段,他們更新了全部模型參數,以提升指令精調數據的利用效率。

有趣的是,團隊發現即使僅采用英文指令數據進行指令精調,模型也可以理解中文問題,但僅能用英文回答。這表明模型的多語言多模態能力已經得到良好的泛化。在指令精調階段進一步加入少量中文翻譯數據,就可以將模型回復語言和用戶問題語言對齊。

團隊在 LLaVA 英文測試集和翻譯的中文測試集對模型進行了評測,該評測基準考察模型在開放域對話、圖像細節描述、復雜推理方面的表現,并使用 GPT-4 進行打分。可以觀察到,VisCPM-Chat 在中文多模態能力方面取得了最佳的平均性能,在通用域對話和復雜推理上表現出色,同時也表現出了不錯的英文多模態能力。

VisCPM-Chat 提供了兩個模型版本,分別為 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus,前者在英文和中文兩種語言上的能力較為平衡,后者在中文能力上更加突出。兩個模型在指令精調階段使用的數據相同,VisCPM-Chat-zhplus 在預訓練階段額外加入了 20M 清洗后的原生中文圖文對數據和 120M 翻譯到中文的圖文對數據。

圖片圖片

下面是 VisCPM-Chat 的多模態對話能力展示,不僅能識別具體地區的地圖,還能讀懂涂鴉畫和電影海報,甚至認識星巴克的 logo。而且,中英文雙語都很溜!


圖片

再來看 VisCPM-Paint ,它支持中英雙語的文到圖生成。該模型使用 CPM-Bee(10B)作為文本編碼器,使用 UNet 作為圖像解碼器,并通過擴散模型訓練目標融合語言和視覺模型。

在訓練過程中,語言模型參數始終保持固定。使用 Stable Diffusion 2.1 的 UNet 參數初始化視覺解碼器,并通過逐步解凍其中關鍵的橋接參數將其與語言模型融合:首先訓練文本表示映射到視覺模型的線性層,然后進一步解凍 UNet 的交叉注意力層。該模型在 Laion 2B 英文圖文對數據上進行了訓練。

與 VisCPM-Paint 類似,得益于基座模型 CPM-Bee 的雙語能力,VisCPM-Paint 可以僅通過英文圖文對訓練,泛化實現良好的中文文到圖生成能力,達到中文開源模型的最佳效果。通過進一步加入 20M 清洗后的原生中文圖文對數據,以及 120M 翻譯到中文的圖文對數據,模型的中文文到圖生成能力獲得進一步提升。同樣,VisCPM-Paint 有 balance 和 zhplus 兩個不同的版本。他們在標準圖像生成測試集 MSCOCO 上采樣了 3 萬張圖片,計算了常用評估圖像生成指標 FID (Fréchet Inception Distance) 評估生成圖片的質量。

圖片

VisCPM-Paint 模型中分別輸入 “海上生明月,天涯共此時,唯美風格,抽象風格”“人閑桂花落,月靜春山空” 兩條 prompts,生成了以下兩張圖片:

生成效果穩定性仍有提升空間

(生成效果穩定性仍有提升空間)

相當驚艷,可以說精準把握了古詩詞的意境,以后讀不懂詩句就直接生成個圖片來理解!如果應用在設計上,可以節省一大筆人力。不僅能 “作畫”,用上 VisCPM-Chat,還能 “吟詩”:用圖片反向檢索詩句。比如能用李白的詩描繪黃河的景象并作解讀,在面對中秋月夜時還能用蘇軾的《水調歌頭》借景抒情。

圖片圖片

VisCPM 不僅生成效果好,下載版本設計考慮周到,安裝和使用也十分簡易。 

VisCPM提供不同中英文能力的版本VisCPM提供不同中英文能力的版本

安裝步驟

VisCPM 提供不同中英文能力的模型版本供大家下載選擇,安裝步驟簡單,在使用中可以通過幾行代碼實現多模態對話,還在代碼中默認開啟了對輸入文本和輸出圖片的安全檢查。(具體教程詳見 README)未來團隊還會將 VisCPM 整合到 huggingface 代碼框架中,并且會陸續完善安全模型、 支持快速網頁部署、 支持模型量化功能、支持模型微調等功能,坐等更新!

值得一提的是,VisCPM 系列模型非常歡迎個人使用和研究用途。如需將模型用于商業用途,還可以聯系 cpm@modelbest.cn 洽談商業授權事宜。

傳統模型專注處理單一模態數據,現實世界中的信息往往是多模態的,多模態大模型提升了人工智能系統的感知交互能力,為 AI 解決現實世界中復雜的感知和理解任務帶來了新的機遇。不得不說,清華系大模型公司面壁智能研發能力強大,聯合發布的多模態大模型 VisCPM 實力強大、表現驚艷,期待他們后續的成果發布!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-08 14:36:11

模型AI

2023-03-13 15:56:00

模型框架

2023-08-14 07:20:10

2023-03-15 09:36:14

模型

2023-10-17 12:33:27

AI模型

2024-11-13 09:39:13

2025-01-08 08:21:16

2025-05-23 09:18:25

2025-02-27 01:00:00

大模型OLMOCRrag

2023-08-30 13:23:00

模型訓練

2025-05-21 08:47:00

2023-09-02 12:49:01

2023-05-15 15:08:34

2023-12-19 18:12:25

谷歌模型AI

2024-01-22 13:59:00

模型訓練

2024-07-23 10:34:57

2024-02-01 13:03:00

AI模型

2025-03-31 15:22:01

2023-05-19 13:01:10

ChatGPT模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费a级毛片在线播放 | 国产91丝袜在线18 | 51ⅴ精品国产91久久久久久 | 久久另类视频 | 在线观看免费av网 | 欧美一卡二卡在线观看 | 国产免费一级片 | 天天躁日日躁狠狠躁2018小说 | 一区二区三区高清 | 亚洲一区精品在线 | 亚洲性免费 | 成人免费在线网 | 日一区二区 | 久久九九99 | 国产精品99久久久久久久vr | 国产亚洲成av人片在线观看桃 | 欧美a在线观看 | 久久亚洲一区 | 久久久久无码国产精品一区 | 桃色五月| 久久毛片 | 色视频网站在线观看 | 狠狠爱免费视频 | 日韩精品免费视频 | 毛片一级片 | 国产精品99久久久久久久久久久久 | 天天干狠狠干 | 亚洲一二三区不卡 | 亚洲精品国产综合区久久久久久久 | 欧美久久精品一级黑人c片 91免费在线视频 | av网站在线免费观看 | 日韩最新网址 | 中文字幕在线看人 | 久久人 | 日韩中文字幕在线不卡 | 国产精品久久av | 国产亚洲日本精品 | 久久综合一区 | 天天操夜夜操 | 日韩在线观看中文字幕 | 国产成人免费视频 |