五款小型多模態AI模型及其功能 原創
在過去幾年里,我們已經見證了大型語言模型(LLM)的飛速發展,數十億個參數的基礎助力它們成為分析、總結和生成文本及圖像,或者創建聊天機器人等任務的強大工具。
所有這些功能都有一些明顯的限制,特別是如果用戶沒有足夠的資金或硬件來容納這些LLM所需的大量計算資源。在這種情況下,小型語言模型(SLM)應運而生,為資源受限的用戶提供了所需服務。
現在,隨著人們對能夠同時處理不同類型數據(圖像、文本、音頻和視頻)的多模態人工智能系統的興趣日益濃厚,這些多功能工具的小型版本也隨之增加。下面,我們將介紹最近受到廣泛關注的5款小型多模態AI工具。
1. TinyGPT-V
作為一款新型的多模態AI模型,TinyGPT-V僅擁有2.8B參數,但它能夠通過獨特的量化過程,在各類設備上實現高效的局部部署和推理任務,展現了與更大模型相匹敵的強大性能。
TinyGPT-V的架構具有優化的變壓器層,在尺寸,性能和效率之間取得平衡,此外還使用專門的機制來處理圖像輸入并將其與文本輸入集成。它是使用相對較小的LLM Phi-2構建的,并與來自BLIP-2或CLIP的預訓練視覺模塊相結合,在處理圖像描述、視覺問答等任務上表現出色。
TinyGPT-V的主要賣點是其顯著的計算效率。相比于需要大量GPU資源的模型如LLaVA-v1.5-13B,TinyGPT-V僅需要24G GPU進行訓練,8G GPU或CPU即可完成推理,大幅降低了運行成本。
TinyGPT-V非常適用于中小型企業,或者那些希望在本地部署它的教育或研究機構,因為這些組織通常資金和資源都更為有限。
2. TinyLlaVA
TinyLlaVA框架主要由三部分組成:小規模LLM、視覺編碼器和連接器。其中:
- 小規模LLM是框架的核心,負責處理和生成文本信息。小規模LLM可以選用TinyLlama、StableLM-2、Phi-2等,它們能夠在保持較小參數規模的同時處理復雜的語言任務。
- 視覺編碼器的作用是將輸入的圖像轉換為一系列視覺特征。在TinyLLaVA框架中,主要使用CLIP和SigLIP作為視覺編碼器,這些編碼器能夠提取圖像中的關鍵視覺信息。
- 連接器是視覺編碼器和LLM之間的橋梁,它負責將視覺特征映射到文本嵌入空間。這樣,LLM就能夠理解和生成與視覺內容相關聯的文本。
TinyLlaVA使用兩個不同的數據集進行訓練:LLaVA-1.5和ShareGPT4V。監督微調過程允許調整LLM和視覺編碼器的部分可學習參數。
根據測試,TinyLlaVA性能最好的版本是TinyLLaVA-share-Sig-Phi 3.1B版本,優于LLaVA-1.5和Qwen-VL等7B型號。此外,該框架還提供了對模型選擇、訓練配方和對小規模LLM性能的數據貢獻的全面分析。它的存在很好地說明了如何利用小規模LLM在可訪問性和效率方面提供顯著優勢,同時又不犧牲性能。
3. GPT-40 mini
GPT-40 mini是OpenAI最新推出的語言模型,專為那些需要強大語言處理能力但又受限于預算的開發者設計。這個模型在多個方面表現優異,不僅具備與其大規模版本相似的生成和理解能力,還在多模態推理上表現突出。
GPT-40 mini是由較大的GPT-40通過蒸餾過程衍生而來,在性能和成本上找到了一個理想的平衡點。它不僅支持文本輸入,還具備處理圖像的能力,使其在多模態應用中具有獨特優勢。例如,開發者可以利用該模型進行圖像識別、描述生成和視覺問答等任務,顯著擴展了模型的應用范圍。
在安全性方面,OpenAI為GPT-40 mini實施了嚴格的安全措施,包括內容過濾和人類反饋強化學習(RLHF)。這些措施確保了模型在處理敏感信息時的可靠性和安全性,幫助開發者構建更安全的應用。
4. Phi-3 Vision
這個強大的視覺語言版本是微軟Phi-3的一個基于轉換器的模型,它包含一個圖像編碼器、連接器、投影儀和Phi-3 Mini語言模型。在42億個參數下,Phi-3 Vision能夠支持高達128K的令牌上下文長度,以及“廣泛的多模態推理”,使其能夠理解和生成基于圖表、圖形和表格的內容。
Phi-3 Vision的性能可以與OpenAI的GPT-4V等大型模型相媲美,非常適合資源受限的環境和延遲受限的場景,在離線操作、成本和用戶隱私方面具有優勢。
潛在的用例包括用于改善客戶支持的文檔和圖像分析,社會媒體內容審核,以及企業或教育機構的視頻分析。
5. Mississippi 2B和Mississippi 0.8B
H2O最近發布的Mississippi 2B和Mississippi 0.8B是專門為OCR和Document AI用例設計的兩款多模態基礎模型。這些視覺語言模型旨在為企業提供一種可擴展且經濟高效的方式來實時執行文檔分析和圖像識別。
這些模型的特點是具有多層微調和最小延遲的多階段訓練,這使它們非常適合需要處理大量文檔的醫療保健,銀行,保險和金融等行業。
目前,在Hugging Face上可以免費獲得H2OVL Mississippi 2B和H2OVL Mississippi 0.8B,這使得開發人員、研究人員和企業都可以對其進行微調和修改。
結語
可訪問性和成本效率仍然是多模態模型和大型語言模型的主要問題。但隨著越來越多相對輕量級但功能強大的多模態人工智能選項的出現,這意味著更多的機構和小型企業有機會將人工智能應用到自己的工作流程中。
原文標題:??5 Small-Scale Multimodal AI Models and What They Can Do??,作者:Kimberley Mok
