大模型應用落地:如何選擇合適的 Embedding 模型? 原創
0、背景落地
在生成式人工智能(GenAI)領域,檢索增強生成(RAG)作為一種策略脫穎而出,它通過集成外部數據來擴充像 ChatGPT 這樣的大型語言模型(LLM)的現有知識庫。
RAG 系統核心涉及三種關鍵的人工智能模型組件:嵌入(Embedding)模型負責將信息轉化為數學向量,重排名(Reranker)模型則用于優化搜索結果,而強大的基礎語言模型確保了豐富的語境理解和生成。
本篇文章旨在指導您依據數據特性及目標領域,比如:金融專業,來挑選最合適的嵌入模型,從而最大化 RAG 系統的效能與準確性。
1、文本數據:MTEB 排行榜
HuggingFace 推出的 MTEB leaderboard 是一個綜合性的文本嵌入模型比較平臺,讓您可以一覽各模型的綜合性能表現。
為了滿足向量搜索的需求,建議優先關注“Retrieval Average”這一列,并按降序排列,以識別在檢索任務中表現最優的模型。在此基礎上,尋找那些內存占用小、效率高的佼佼者。
- 嵌入向量維度指的是模型輸出向量的長度,即函數 f 將輸入 x 轉化為向量 y 的 y 部分,體現了模型對文本特征的編碼深度。
- 而最大 Token 數則是模型能夠處理的文本片段的最大長度,相當于函數 f中的輸入 x,影響著單次請求能包含的信息量。
在篩選理想模型時,您不僅可根據檢索性能排序,還能夠依據特定條件進一步篩選:
- 語言支持:涵蓋法語、英語、中文、波蘭語等多語種。(示例篩選:task=retrieval, Language=chinese)
- 領域適應:針對法律文本的專業應用。(如:task=retrieval, Domain=law)
值得注意的是,MTEB上的排名可能因新公開的訓練數據而有所偏差,某些模型的評分可能存在虛高現象。因此,參考 HuggingFace 的官方博客,學習如何辨別模型排名的真實可靠性顯得尤為重要。在訪問每個模型的“模型卡片”頁面時,以下幾個步驟至關重要:
- 深入探究訓練詳情:查找相關博客和研究論文,這些資料會詳細介紹模型的訓練數據、任務設定等關鍵信息。
- 留意模型來源:知名機構或公司的模型往往更值得信賴。比如:voyage-lite-02-instruct 模型的卡片缺少與其同系列其他模型的關聯信息,暗示其可能存在過擬合問題,不推薦實際部署。
基于上述考量,我建議使用 Snowflake 新推出的“snowflake-arctic-embed-1”模型。該模型不僅在排名上表現搶眼,而且以其較小的體積適合在有限資源的設備上運行,此外,模型卡片提供的博客和論文鏈接也增加了其透明度和可信度。
2、圖像數據:ResNet50
如果您希望查找與某張圖片風格或內容相似的其他圖片,比如:搜尋更多關于蘇格蘭折耳貓的圖像資料,一種方法是上傳一張該品種貓的照片,并利用圖像搜索引擎去發掘類似圖片。
ResNet50 作為一種廣泛采納的卷積神經網絡(CNN)模型,自2015年微軟基于 ImageNet 數據集的訓練成果以來,便成為了圖像識別領域的基石之一。
類似地,在面對視頻搜索需求時,ResNet50 能夠發揮作用,通過將視頻分解成一系列靜態幀,對每一幀應用模型以生成對應的嵌入向量。隨后,基于這些向量進行相似性比對,系統能夠甄選出與查詢視頻最為接近的視頻內容,從而為用戶提供高度匹配的搜索結果。
3、音頻數據:PANNs
就如同圖像搜索一樣,您也能夠依據提供的音頻片段去探尋類似的音頻內容。
PANNs(預訓練音頻神經網絡)作為一種主流的音頻檢索 Embedding 模型,其優勢在于它基于龐大的音頻資料庫進行了預先訓練,對此在音頻分類與標簽分配等任務上展現出卓越的能力。
4、多模態圖像與文本數據:SigLIP 或 Unum
近年來,一系列旨在對文本、圖像、音頻及視頻等多種非結構化數據進行綜合訓練的 Embedding 模型應運而生。這些創新模型能夠在統一的向量空間框架下,有效把握并表達不同形態的非結構數據所蘊含的深層語義信息。
多模態 Embedding 技術的發展,使得跨領域的應用如文本導向的圖像檢索、圖像內容的自動生成描述,乃至圖像間的相似性搜索成為可能,極大地拓寬了人工智能的應用范疇。
2021年,OpenAI 發布的 CLIP 作為 Embedding 模型的典范,開辟了新領域,盡管其定制化微調的需求增加了使用的復雜度。這一挑戰隨后在2024年迎來了轉機,谷歌推出了 SigLIP(Sigmoidal-CLIP),該模型憑借在 zero-shot prompt 任務上的出色表現,顯著降低了部署難度,提升了用戶體驗。
與此同時,輕量級的小型 LLM(語言模型)日益受到青睞。它們的吸引力在于能夠擺脫對高端云計算資源的依賴,輕松實現在個人筆記本上的運行。這些“小而美”的模型,因內存占用低、響應速度快以及處理效率高的特點,正逐步改變著 AI 應用的格局。Unum 等平臺更是提供了集成多模態功能的小型 Embedding 模型,進一步推動了 AI 技術的普及與應用便捷性。
5、多模態文本、音頻、視頻數據
多模態的文本-音頻 RAG(檢索增強的生成)系統廣泛采納了多模態生成型 LLMs。此過程啟始于音頻信息的文本化轉換,創造音頻-文本配對,繼而將文本內容編碼為 Embedding 形式的向量,以便利用 RAG 機制進行常規的文本查詢。最終階段涉及將檢索到的文本逆向關聯回相應的音頻片段。
OpenAI 的 Whisper 技術在這方面起到了橋接作用,它能夠實現語音到文本的高效轉寫。相反地,OpenAI 還開發了 Text-to-Speech(TTS)模型,完成了從文本到語音的逆向轉換,豐富了多模態交互的閉環。
至于多模態文本-視頻的 RAG 應用,則采取了類似的策略,先將復雜的視頻內容簡化為可處理的文本描述,經 Embedding 轉化后執行文本查詢,最后輸出相關的視頻片段作為檢索成果。
OpenAI 的創新工具 Sora,則在文本到視頻的生成領域展現了非凡能力,與 Dall-E 在圖像生成領域的成就相似,Sora 僅需用戶輸入文本提示,即可借助強大的 LLM 生成對應的視頻內容。Sora 的靈活性不僅限于文本,還能基于靜態圖像或現有視頻進行視頻的衍生創作,進一步拓展了多模態內容生成的邊界。
Milvus目前已經集成了主流的Embedding模型,體驗鏈接:???https://milvus.io/docs/embeddings.md??
本文轉載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:????https://mp.weixin.qq.com/s/IKyF7k_vswDnaCosylw2kA???
