多模態大模型的實現原理,以及技術難點 原創
“ 多模態大模型的終點就是“人”,人就是最完美的多模態模型”
在上一篇文章中介紹了什么是多模態大模型,以及為什么需要多模態大模型;今天這里就來詳細了解一下多模態大模型的實現原理以及技術難點。
多模態大模型是支持多種模態數據的深度學習模型,與之對應的是單模態模型;但因為單模態模型存在很多缺陷,因此多模態大模型應運而生。
人就是最完美的多模態模型,而大模型的發展方向也是讓它越來越像“人”。
多模態大模型的思想與原理
多模態的思想是結合不同模態(文字,圖片,聲音等)的數據進行聯合學習,從而提高模型的認知能力。
其主要表現在以下三個方面:
信息互補性:不同模態的數據攜帶不同的信息,聯合學習能夠補足單一模態的缺陷
關聯性:多模態數據之間存在內在聯系,學習這些聯系有助于提升模型的表現
通用性:通過學習多模態數據的通用表示,可以提升模型在多個任務上的泛化能力
多模態模型的核心原理
表示學習
通過專門的編碼器,將不同模態的數據轉換成統一的特征表示
單模態的表示學習負責將信息表示為計算機可以處理的數值向量或者進一步抽象為更高層的特征向量,而多模態表示學習是指通過利用多種模態之間的互補性,剔除模態間的冗余性,從而學習到更好的特征表示。
多模態表示學習有兩大方向:聯合表示和協同表示
聯合表示是將多個模態的信息一起映射到一個統一的多模態向量空間
協同表示負責將多模態中的每個模態分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關性約束(如線性相關)
跨模態映射
跨模態映射是需要實現模態之間的映射,如圖像到文本的生成或者文本到圖像的生成;當然還有其它很多種情況,如語音合成,機器翻譯等。
模態間的轉換主要有兩個難點,一個是open-ended,即未知結束位;例如在實時翻譯中,話還未說完的情況下, 必須實時的對句子進行翻譯;另一個是subjective,即主觀評判性,是指很多模態轉換問題的效果沒有一個客觀的評判標準。
對齊與融合
將不同模態的數據對齊,確保它們的語義一致性,并通過各種融合方法將數據整合在一起。
多模態的對齊負責對來自同一個實例的不同模態信息的子分支/元素尋找對應關系;對齊可以是時間維度的也可以是空間維度的,比如圖片的語義分割。
多模態的融合是將各模態的特征表示進行融合,常見的方法包括拼接,加權求和,注意力機制以及通過共享Transformer層進行聯合編碼
融合
多模態融合有四種不同的情況,分別是特征級融合,決策級融合,混合級融合和模型級融合。
特征級融合:也稱為早起融合,是多模態識別系統最常用的策略。它表示在特征提取后把提取特征連接成單個高緯特征向量的方法,其主要用來剔除冗余信息。
決策級融合:也稱為后期融合,是在獲得基于每個模態的決策后,通過應用多個預測標簽的代數組合規則,對這些決策執行集成步驟。
混合級融合:它是早起融合和后期融合兩種方式的結合,通過早期融合和單個模態預測的輸出相結合。混合級融合雖然解決了特征級與決策級融合的局限性,但本質上并沒有解決問題。
模型級融合:該方法旨在獲得三種模態的聯合特征表示,它的實現主要取決于使用的融合模型。模型級融合是更深層次的融合方法,為分類和回歸任務產生更優化的聯合判別特征表示。
技術實現
多模態大模型的技術實現主要有以下步驟:
數據預處理:將不同模態(文本,圖片,視頻)的數據進行預處理,例如圖像的像素歸一化,文本的分詞處理。
狀態編碼器:使用專門的神經網絡模型處理不同模態的數據,例如使用CNN或Vision Transformer處理圖像,用Transformer處理文本。類似于大模型知識庫的文本解析模塊,把文檔解析成向量保存到向量數據中,也需要使用文檔處理模型。
融合機制:將各模態的特征表示進行融合,原理就是上面的模型融,有多種方式。
訓練過程:使用多模態數據進行聯合訓練,常見的損失函數包括分類損失,回歸損失和對比學習損失等。
模型架構:比如openAI的CLIP模型通過同時處理圖像和文本,學習它們之間的語義關系。
總結
多模態大模型是目前大模型廠商主要的研究方向,其實現過程困難且復雜;雖然具有很多優勢,但同樣也具有很多的問題。比如對計算資源的需求要遠大于單模型的需求,其次多模態數據的對齊與標注同樣是一個難題,最后就是跨模態的理解與生成,仍然是一個研究熱點。
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/i-paWY0Db6-sSDqaA0EWiA??
