破解AI多模態理解難題:浙江大學與字節跳動聯手推出Molecule-Space新方法
引言:多模態統一表示空間的挑戰與機會
在人工智能領域,多模態統一表示空間是實現多模態理解和生成的基礎。這種統一空間能夠將音頻、圖像、文本等多種模態的數據融合在一個共享的表示空間中,從而使得機器能夠更好地理解和處理來自不同源的信息。然而,構建這樣的統一表示空間面臨著巨大的挑戰,例如需要處理的模型參數可能高達數十億,且在訓練過程中容易發生災難性遺忘問題。這些問題嚴重限制了多模態統一表示空間的進一步發展。
盡管存在挑戰,多模態統一表示空間也帶來了前所未有的機會。通過有效地融合來自不同專家空間的知識,可以極大地增強預訓練的統一空間的能力,使其在多種下游任務中表現更加出色。例如,通過將圖像-文本和音頻-文本的專家空間知識整合到統一的音頻-圖像-文本空間中,可以創建出在多個數據集上性能超越單一模態專家模型的統一表示空間。
本文提出了一種名為“Molecule-Space”的新方法,該方法將多模態表示空間視為“分子”,并通過“分子空間反應”將額外的專家空間知識整合到預訓練的統一空間中。這種方法不僅提高了統一空間的性能,而且通過定制化的推理策略,還能根據不同的應用需求靈活調整增強后的統一空間。
論文標題: Molecule-Space: Free Lunch in Unified Multimodal Space via Knowledge Fusion
機構: Zhejiang University, ByteDance
論文鏈接: https://arxiv.org/pdf/2405.04883.pdf
項目地址: https://github.com/MoleculeSpace/MoleculeSpace
Molecule-Space概念介紹
Molecule-Space是一種新穎的概念,它將多模態表示空間視為“分子”,并通過“分子空間反應”將預訓練的統一空間與額外的專家空間融合。這種方法主要包括兩種基本的空間反應:空間位移反應和空間組合反應。空間位移反應通過將統一空間對齊到專家空間來繼承專家空間的所有知識,但這種方法可能會犧牲統一空間的部分信息。而空間組合反應則是一種溫和的知識融合方案,它將專家空間對齊到統一空間,從而保留了統一空間的知識并能夠并行結合多個專家空間。
在這兩種基本反應的基礎上,進一步提出了復雜的順序與并行反應,有效地同時整合多個空間。例如,在實驗中,通過空間位移反應首先將統一空間與先進的圖像-文本專家空間整合,并調整產品以修復其丟失的知識。然后,通過空間組合反應并行整合額外的專家空間,進一步增強統一空間。通過這些反應后,設計了粗到細的定制化推理策略,以靈活地適應不同的應用需求,選擇模塊和調整組合因子。
知識融合的策略
在Molecule-Space中,知識融合策略是通過設計簡單而有效的投影器學習管道和提出混合投影器策略來加強空間對齊的魯棒性和表征的辨別性。首先,通過采樣整個數據集的子集,分別訓練多個投影器,并將它們集成以實現更魯棒的對齊和更具辨別性的表征。
在基本反應的實現中,單一投影器訓練不涉及復雜的內部空間對齊損失,這簡化了學習流程并可能提高泛化性能。例如,位移反應的訓練損失僅計算不同空間特征之間的InfoNCE損失,而組合反應則在平行對齊多個專家空間時使用。
此外,定制化推理策略允許在不同應用中靈活選擇對齊的專家空間和調整組合因子,從而在保持高級圖像-文本能力的同時增強音頻-文本和音頻-圖像性能。這種策略的實施,使得Molecule-Space不僅在實驗中通過整合ImageBind的音頻-圖像-文本空間與多個先進空間在多個下游任務中表現優越,還通過定制化推理在特定領域超越了現有的圖像-文本和音頻-文本專家模型。
實驗設計與驗證
1. 基礎反應的設計
在Molecule-Space的實驗設計中,我們首先定義了兩種基礎的“分子空間反應”:空間位移反應和空間組合反應。空間位移反應通過將統一空間對齊到專家空間來繼承專家空間的全部知識,而空間組合反應則是將專家空間對齊到已凍結的統一空間,從而保留統一空間的知識并部分整合專家空間的知識。
2. 復雜的順序與并行反應
基于這兩種基礎反應,我們進一步設計了復雜的順序與并行反應,以有效地同時整合多個空間。例如,首先通過位移反應將高級圖像-文本專家空間整合到統一空間中,并調整其他模態的數據以修復丟失的知識。然后,通過并行的組合反應將其他模態的專家空間整合進來,進一步增強統一空間。
3. 實驗驗證
為了驗證Molecule-Space的有效性,我們在ImageBind的音頻-圖像-文本統一空間上進行了實驗。通過整合一個圖像-文本和兩個音頻-文本的專家空間,我們構建了一個在九個數據集上的五個下游任務中表現優越的音頻-圖像-文本空間。此外,通過定制化推理,我們甚至在圖像-文本或音頻-文本任務中超越了使用的專家空間。
定制化推理策略
1. 粗粒度組合模塊選擇
在推理過程中,我們可以靈活選擇任何已對齊的專家空間來獲得特定方面的增益。例如,可以選擇特定的音頻-文本專家空間來構建針對特定需求的統一空間。
2. 細粒度組合因子調整
除了選擇不同的模塊,我們還可以通過改變不同專家空間的組合權重來以細粒度方式定制增強的統一空間。例如,較小的組合權重意味著部分吸收音頻-文本知識,適度的知識融合可以同時增強音頻-文本和音頻-圖像的性能,同時保持先進的圖像-文本能力。
通過這種粗到細的定制化推理策略,Molecule-Space不僅在實驗中顯示出強大的性能,還能根據不同的應用需求靈活調整,展現出其在多模態表示空間中的廣泛應用潛力。
討論與未來方向
1. 知識融合的選擇:位移反應與組合反應
在Molecule-Space中,位移反應和組合反應作為基本的空間反應,各有其獨特的優勢和局限。位移反應雖然能夠完全繼承專家空間的知識,但可能會犧牲一部分統一空間的信息。相比之下,組合反應能夠保留統一空間的知識,但只能部分融合專家空間的知識。這兩種反應的選擇和應用,依賴于具體的應用需求和預期的效果。
2. 復雜反應路徑的探索
本研究提出的復雜順序與并行反應,通過結合位移反應和組合反應的優點,展示了在多空間融合中的有效性。未來的研究可以進一步探索不同的復雜反應路徑,以優化多模態空間的融合效果,特別是在處理更多模態輸入時的表現。
3. 細粒度組合因子的調整
通過對組合因子的細粒度調整,Molecule-Space能夠在保持圖像-文本能力的同時,增強音頻-文本和音頻-圖像的表現。這種靈活的調整機制為多模態表示空間的優化提供了更多可能性。未來的工作可以在更多的應用場景中測試和優化這一機制,以實現更精確的知識融合。
4. 項目器的設計與集成
Mixture-of-Projectors策略通過集成多個訓練有素的項目器,增強了空間對齊的魯棒性和表示的區分性。探索不同的項目器結構和訓練目標,可能會進一步提升模型的性能和適應性。未來的研究可以在這一方向上進行深入,特別是在不同模態和復雜數據集上的應用。
總結
Molecule-Space通過將多模態空間視為“分子”,并通過“分子空間反應”來融合知識,提出了一種有效的統一多模態表示空間增強方法。通過位移反應和組合反應,以及基于這些基礎的復雜順序與并行反應,Molecule-Space不僅在實驗上超越了ImageBind等基線模型,還通過定制化推理策略,展示了在特定領域甚至超越專家模型的潛力。此外,細粒度的組合因子調整和項目器的設計為多模態空間的進一步研究提供了新的視角和工具。未來,Molecule-Space的概念和方法可以擴展到更多模態和應用場景,為多模態人工智能的發展提供強有力的支持。
