什么是多模態大模型 原創
“ 多模態大模型核心要點只有兩個,交叉性和互補性;多模態大模型的目的就是在保證互補性的前提下,去除交叉性 ”
在上一篇文章中介紹了什么是生成式大模型,生成式大模型的本質是一種表征模型,主要包括兩個方面理解與生成,或者說所有的模型都是基于理解和生成兩個方面組成。
而什么是多模態模型呢?網上一般談到多模態模型,就是具有多種數據模式的模型,比如同時能夠處理文字,圖片,視頻等多種模態數據的模型。
其實從本質上來說,多模態模型和生成式模型都是一種表征模型,畢竟多模態也是生成式模型的一種,只不過多模態的數據格式更復雜。
多模態模型
再來回顧一下什么是生成式模型,生成式模型是基于一種機器學習/神經網絡模型,構建的一種可以對訓練數據進行表征學習,通過模型參數記錄表征結果,這個就是大模型的訓練/學習的過程;而根據表征結果,模型可以根據用戶輸入生成新的樣本數據;這就是模型的兩個核心要點,理解與生成。
多模態是建立在生成式模型基礎之上的,一種更加復雜的模型范式,因為其支持多種模態的數據,所以叫做多模態。
那多模態的核心技術難點是什么呢?
從技術的角度來說,多模態的技術原理與生成式模型的技術沒有本質的區別,都是數據表征的一種形式;但區別是,多模態要同時表征多種格式的數據,這個難度就不是簡單的1加1等于2的問題,其難度系數呈指數式上升。
而其核心技術點,也是其核心難點就是多模態融合;所謂的多模態融合就是指兩個以上模態數據形成的多種不同種類的組合。
對于每一種信息來源都屬于一種模態,比如耳朵接受的聲音信息,眼睛看到的圖像信息,以及皮膚感知的溫濕度等信息,每一種都是一個模態。之所以需要對不同模態的數據進行融合,是因為不同模態數據表現形式不一樣,組織形式也不一樣。
比如文本的表現形式主要是字符,而圖像的表現形式是像素;而這是完全不同的兩種表現形式,更不用說更加復雜的視頻等其它模態的數據。
由于不同模態數據之間的表現形式不一樣,其表達形式也不一樣;所以不同模態數據之間就存在很多交叉點;這就像我們看待一些古人的作品,能在字中看出畫,在畫中看出字。
而這些數據交叉點就是數據的冗余性,不同數據之間存在著大量的冗余數據;但從另一個角度來說,文字與圖片又是互補的,比如說有些人會在畫上題詩,也有人以詩作畫,而這又是詩與畫的互補。
而互補之后的詩和畫,要比單純的詩和畫表現形式更好,更生動,更形象;也就是說多模態的表征,要比單模態表征更加的優秀;而且不同模態數據之間可能還存在更加豐富的信息交互形式,而如果能夠合理的處理這些信息交互,那么就可以更加豐富的特征信息。
因此,多模態概括來說就是,信息的交叉(冗余)和互補,這也是多模態的一個顯著特點。
但是,多模態雖然比單模態表征形式更豐富,更優秀;但怎么讓不同模態的數據融合在一起,但又不會喪失其本身的特性;也就是說,怎么保證不同模態數據的互補性的前提下, 又能去除不同數據之間的冗余信息。
而這就是多模態的幾個核心技術點:
- 表征:怎么用一種表征方式,同時去表征多種不同模態的數據;簡單來說就是使用一種模態能夠同時表征出文字,圖片和視頻等多種格式的數據。
- 翻譯:多模態的目的雖然是模態融合,但有一種輸入格式的同時,就需要有一種格式的輸出;而在多模態環境下,如果用戶輸入一段文本,但想要一張圖片,怎么把文本數據翻譯成圖像數據,這就是翻譯的作用。
- 對齊:說到對齊可能很多人簡單理解為把文本模態的數據與圖像模態的數據進行對齊;但事實上對齊是找到不同模態數據之間的關系,如某個詞對應圖像的某個區域等;對齊也可以理解為是翻譯的基礎。
- 融合:融合就是在對齊的前提下,對多種不同模態的數據進行融合,也就是去除其交叉數據,又保留其本身的特性節點。根據不同的技術實現,融合分為前期融合,中期融合和晚期融合等多種方式。
- 聯合學習:聯合學習就是利用不同模態數據之間的特性,使得大模型能夠更加快速,更加高效的學習;也能更加高效得生成。比如遷移學習等。
- 以上只是多模態模型的理論,但具體算法的實現,根據不同的場景有一些不同的實現算法,比如貝葉斯決策理論,稀疏表示理論算法等;當然,也有一些研究人員在不斷得開發新的算法。
總之,多模態大模型是一種更加強大的生成式模型,當然其技術實現難度也更大。但多模態也可能是人類實現通用人工智能的一種方式。
本文轉載自公眾號AI探索時代 作者:DFires
