五款小型多模態AI模型及其功能原創

51CTO內容精選

發布于 2024-12-9 08:13

瀏覽

0收藏

在過去幾年里，我們已經見證了大型語言模型（LLM）的飛速發展，數十億個參數的基礎助力它們成為分析、總結和生成文本及圖像，或者創建聊天機器人等任務的強大工具。

所有這些功能都有一些明顯的限制，特別是如果用戶沒有足夠的資金或硬件來容納這些LLM所需的大量計算資源。在這種情況下，小型語言模型（SLM）應運而生，為資源受限的用戶提供了所需服務。

現在，隨著人們對能夠同時處理不同類型數據（圖像、文本、音頻和視頻）的多模態人工智能系統的興趣日益濃厚，這些多功能工具的小型版本也隨之增加。下面，我們將介紹最近受到廣泛關注的5款小型多模態AI工具。

1. TinyGPT-V

作為一款新型的多模態AI模型，TinyGPT-V僅擁有2.8B參數，但它能夠通過獨特的量化過程，在各類設備上實現高效的局部部署和推理任務，展現了與更大模型相匹敵的強大性能。

TinyGPT-V的架構具有優化的變壓器層，在尺寸，性能和效率之間取得平衡，此外還使用專門的機制來處理圖像輸入并將其與文本輸入集成。它是使用相對較小的LLM Phi-2構建的，并與來自BLIP-2或CLIP的預訓練視覺模塊相結合，在處理圖像描述、視覺問答等任務上表現出色。

TinyGPT-V的主要賣點是其顯著的計算效率。相比于需要大量GPU資源的模型如LLaVA-v1.5-13B，TinyGPT-V僅需要24G GPU進行訓練，8G GPU或CPU即可完成推理，大幅降低了運行成本。

TinyGPT-V非常適用于中小型企業，或者那些希望在本地部署它的教育或研究機構，因為這些組織通常資金和資源都更為有限。

2. TinyLlaVA

TinyLlaVA框架主要由三部分組成：小規模LLM、視覺編碼器和連接器。其中：

小規模LLM是框架的核心，負責處理和生成文本信息。小規模LLM可以選用TinyLlama、StableLM-2、Phi-2等，它們能夠在保持較小參數規模的同時處理復雜的語言任務。
視覺編碼器的作用是將輸入的圖像轉換為一系列視覺特征。在TinyLLaVA框架中，主要使用CLIP和SigLIP作為視覺編碼器，這些編碼器能夠提取圖像中的關鍵視覺信息。
連接器是視覺編碼器和LLM之間的橋梁，它負責將視覺特征映射到文本嵌入空間。這樣，LLM就能夠理解和生成與視覺內容相關聯的文本。

TinyLlaVA使用兩個不同的數據集進行訓練：LLaVA-1.5和ShareGPT4V。監督微調過程允許調整LLM和視覺編碼器的部分可學習參數。

根據測試，TinyLlaVA性能最好的版本是TinyLLaVA-share-Sig-Phi 3.1B版本，優于LLaVA-1.5和Qwen-VL等7B型號。此外，該框架還提供了對模型選擇、訓練配方和對小規模LLM性能的數據貢獻的全面分析。它的存在很好地說明了如何利用小規模LLM在可訪問性和效率方面提供顯著優勢，同時又不犧牲性能。