多模態與偽多模態大模型 原創
“ 透過現象看本質,才是最應該做的選擇 ”
對大模型了解的人應該知道,大模型是因為openAI的GPT模型爆火的,當然大模型的發展也是經過多年的發展才有了今天的地步。
在之前的文章中也介紹過,大模型的全程是大規模預訓練語言模型的簡稱,也就是說大模型剛開始是在語言處理領域大放異彩的。
因此,可以說大模型是深度學習,也就是神經網絡模型與自然語言處理相結合而產生的一種技術。
而隨著大模型在自然語言處理領域的爆發,一些技術人員開始把大模型應用到圖片處理,視頻處理等領域,后來慢慢就誕生了處理各種模態數據的模型。
到今天,多模態成為了主流。
多模態大模型
什么是多模態?
模態值得是數據類型,比如文本,圖片,視頻等;而多模態就是指能夠同時處理文本,圖片,視頻等多種模態數據的模型。
簡單來說,多模態大模型就像一個人一樣,他既會寫字認字,也會繪畫欣賞畫,他即能通過拍視頻的方式表達自己;也能看懂別人視頻所表達的思想。
而多模態大模型就是這樣,它既能看懂別人的文字,也能看懂別人的視頻,也可以把別人的視頻用語言表達出來,這就是多模態大模型。
這種實現方式,需要解決很多技術難點,比如說文本和視頻或圖片內容等多種模態數據之間的融合,模態之間的數據差異問題,數據對齊與一致性問題等。
這種實現多模態大模型的方式,叫做真多模態大模型。
但實現多模態只有這種方式嗎?
其實,還有另一種實現多模態的方式或者說方法;那就是在多個處理不同模態數據的大模型之上,構建一個虛擬的“多模態大模型”,我叫他偽多模態大模型。
簡單來說就是真實的多模態大模型就相當于一個無所不能的人,天文地理,物理化學,前知五百年后曉五百世;而偽多模態大模型,就相當于給阿斗配一個頂級智囊團,雖然阿斗什么都不懂,但他可以問啊。
就比如說,用戶輸入一段文字,這時前置模塊就可以識別出這是文本模塊,那么它就可以問其它的大模型,你們誰能處理文本,然后文本模型就會說我我我。
而如果用戶輸入一段視頻,那么前置模塊就可以找一個視頻處理的大模型,最后再通過后置的轉化模塊,把輸出數據轉化為用戶需要的格式。
這就是偽多模態,很多初創企業干的就是這種產品,他們通過集成多種類型的模型,來實現對多種模態數據的處理。
當然,這種偽多模態模型雖然在外人看來都差不多,但我們要知道它們使用的是完全不同的技術;并且,偽多模態大模型雖然能夠處理一些簡單任務,但在復雜任務中可能就沒有真正的多模態模型表現得好了。
很多東西如果不能透過表象看本質,就會導致很大的認知偏差;比如說,我們都以為語音處理的大模型,它是直接處理語音格式的數據,事實上是會有一個前置層,先把語音文件轉化為文本格式,然后再讓大模型處理。
等大模型處理完之后,再把文本格式的數據轉換為語音數據輸出,前者技術叫ASR,后者叫TTS。
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/AXTjnpb2l1c-KeZSOpm_NA??
