在您現有的向量數據庫中使用LLM中您自己的數據
開源向量數據庫是 AI 開發領域最熱門的選擇之一,其中一些您可能已經熟悉,甚至已經擁有。
譯自Use Your Data in LLMs With the Vector Database You Already Have,作者 Chris Carter。
向量數據庫允許您使用來自內部數據存儲的數據來增強您的 LLM 模型。使用本地的事實性知識提示 LLM 可以讓您獲得針對組織已經了解的情況量身定制的響應。這減少了“AI 幻覺”并提高了相關性。
您甚至可以詢問 LLM在其答案中添加對它使用的原始數據的引用,以便您自己檢查。毫無疑問,供應商已經推出了專有的向量數據庫解決方案,并將其宣傳為“魔杖”,可以幫助您消除任何 AI 幻覺的擔憂。
但是,準備好一些好消息了嗎?
如果您已經在使用Apache Cassandra 5.0、OpenSearch或PostgreSQL,那么您的向量數據庫成功已經準備就緒。沒錯:無需昂貴的專有向量數據庫產品。如果您還沒有使用這些免費且完全開源的數據庫技術,那么您的生成式 AI 愿望是遷移的好時機——它們都是企業級的,并且避免了專有系統的陷阱。
對于許多企業來說,這些開源向量數據庫是實施 LLM 的最直接途徑——并且可能利用檢索增強生成 (RAG)——提供量身定制的事實性 AI 體驗。
向量數據庫存儲嵌入向量,嵌入向量是表示與數據片段相對應的空間坐標的數字列表。相關數據將具有更接近的坐標,允許 LLM 理解復雜和非結構化數據集,以實現生成式 AI 響應和搜索功能等功能。
RAG 是一種越來越受歡迎的過程,它涉及使用向量數據庫將企業文檔中的單詞轉換為嵌入,以便通過 LLM 對這些文檔進行高效且準確的查詢。
讓我們更詳細地了解每種開源技術為向量數據庫討論帶來了什么:
Apache Cassandra 5.0 提供原生向量索引
憑借其最新版本(目前處于預覽階段),Apache Cassandra 通過包含開發 AI 應用程序的企業所需的一切,增強了其作為特別高可用性和可擴展的開源數據庫的聲譽。
Cassandra 5.0 添加了原生向量索引和向量搜索,以及用于嵌入向量存儲和檢索的新向量數據類型。新版本還添加了特定的 Cassandra 查詢語言 (CQL) 函數,使企業能夠輕松地將 Cassandra 用作向量數據庫。這些新增功能使 Cassandra 5.0 成為支持 AI 工作負載和執行圍繞管理智能數據執行企業戰略的明智開源選擇。
OpenSearch 提供多種優勢
與 Cassandra 一樣,OpenSearch是另一種非常流行的開源解決方案,許多尋找向量數據庫的人恰好已經在使用它。OpenSearch 為搜索、分析和向量數據庫功能提供了一站式服務,同時還提供卓越的最近鄰搜索功能,支持向量、詞法和混合搜索和分析。
使用 OpenSearch,團隊可以加快開發 AI 應用程序的速度,依靠數據庫提供其已知的穩定性、高可用性和最小延遲,以及擴展到數十億個向量的可擴展性。無論開發推薦引擎、生成式 AI 代理還是任何其他結果準確性至關重要的解決方案,那些使用 OpenSearch 利用向量嵌入并消除幻覺的人都不會失望。
pgvector 擴展使 Postgres 成為強大的向量存儲
企業對 Postgres 并不陌生,Postgres 是世界上使用最廣泛的數據庫之一。鑒于該數據庫只需要pgvector 擴展就可以成為一個特別高效的向量數據庫,無數組織只需簡單地部署就可以利用理想的基礎設施來處理他們的智能數據。
pgvector 特別適合提供精確最近鄰搜索、近似最近鄰搜索和基于距離的嵌入搜索,以及通過使用余弦距離(OpenAI 推薦)、L2 距離和內積來識別語義相似性。憑借這些功能的高效性,使得 pgvector 成為一個強大且經過驗證的開放源代碼選項,用于訓練準確的 LLM 和 RAG 實現,同時使團隊能夠交付值得自豪的、值得信任的 AI 應用程序。
你人工智能方面的挑戰一直就在你的面前嗎?
定制 LLM 響應的解決方案不是投資在昂貴的所有權矢量數據庫,然后試圖逃避真正存在的供應商鎖定或搭配不當的風險。至少不必如此。認識到,現有的開源矢量數據庫是人工智能開發領域的最佳選擇之一,應該是一個非常受歡迎的發現,其中一些你可能已經很熟悉,甚至已經擁有。