2023年初,ChatGPT爆火,越來越多的企業決策者和技術人員對生成式人工智能產生了濃厚興趣。他們開始探索如何利用這種技術改善企業的運營效率,優化決策過程。乘著AIGC火熱的浪潮,向量數據庫作為處理非結構化數據的重要工具受到越來越多的關注,甚至晉升為明星數據庫。
盡管向量數據庫收到的歡呼聲不斷,但它們也面臨著不小的爭議。有人認為,向量的存儲與檢索是真實需求,而且會隨著AI發展水漲船高,前途光明。但這和專用的向量數據庫并沒有關系——加裝向量擴展的經典數據庫會成為絕對主流,而專用的向量數據庫是一個偽需求。向量數據庫真的是一個偽需求嗎?向量數據庫是否可以助力企業發掘數據價值,創造新商機?帶著這些問題,51CTO采訪了星環科技基礎架構部副總經理劉熙。
專才專用,向量數據庫助力企業高性能讀取語義特征
相比于向量數據庫,很多傳統數據庫也具備向量存儲與檢索功能,在部分企業的實踐中也表現出不錯的性能。那么,當一個傳統數據庫具備了向量檢索和存儲功能時,是否就能被認為是向量數據庫?它們是否可以被當做專門的向量數據庫來進行實踐應用?
劉熙表示,基于星環科技服務企業的實踐經驗來看,如果企業的數據量相對較小,在訪問、并發、延遲要求不?的情況下,從原有數據庫中封裝向量計算的方法具有一定的可行性。但是,如果企業數據規模增大、訪問并發指標提升,考慮到性能、擴展性和資源彈性等多方面因素,企業就需要專業的向量數據庫進行業務處理。“就像將自行車加上發動機,再改裝成四個輪子,也能在路上跑一跑,三四十邁的速度也不在話下,但它真的能被當作汽車來使用嗎?答案當然是不能,因為在對性能、安全性等方面有一定要求的公路上,這個僅有一個框架的四輪車顯然是捉襟見肘的。”
此外,劉熙還認為,向量數據庫最鮮明的特征是通過AI技術提取圖像、音視頻數據背后的語義特征,再將這些語義特征映射到高維向量空間中,使語義問題轉化成向量檢索問題,從而能夠讀取圖像、音視頻數據背后的含義。而語義問題的向量轉化恰恰是傳統數據庫不能勝任的。
當然,向量數據庫也并不是萬能的,在特定的業務場景下,通過合理結合向量數據庫與其他傳統數據庫的優勢,因地制宜施策,才能事半功倍,高效完成工作。劉熙舉例說,針對文本搜索場景,向量搜索和全文搜索擅長解決的問題并不完全相同,全文搜索更適合做關鍵字匹配,而向量搜索能找出文字不同但語義相近的內容。根據劉熙團隊的實踐經驗,在文本搜索場景中,相比單獨使用向量或搜索者全文搜索,使用向量加全文的聯合召回,可以實現更高的精度。
錦上添花,分布式部署提高向量數據庫水平擴展能力
劉熙在采訪中表示,分布式向量數據庫具備三方面的關鍵能力:首先,作為一個數據庫產品,它需要具備安全、運維等關鍵能力;其次,它需要具有分布式特性,包含分布式存儲、分布式計算、分布式事務和分布式資源管理等四個方面的分布式技術能力;最后,與傳統數據庫不同,向量數據庫需要具備AI能力。因此,分布式向量數據庫涉及多個領域的知識,并且需要多方的人才來共同實施完成。據介紹,劉熙團隊的成員就來自不同的技術部門,包括存儲、計算、安全、AI等。
而由于向量索引大部分情況下是內存索引,對內存容量要求較大。但有些業務場景如新聞類,即便是清洗過的數據,日增量也是巨大的,這無疑是對向量數據庫廠商的考驗。對此,劉熙團隊一方面對向量數據庫進行分布式部署,提高其水平擴展能力,另一方面,通過閃存的向量索引方式來提升性能。劉熙舉例說,在其公司大模型外掛的向量數據庫場景中,單是一年某一品類的金融新聞數據就有近1T的內存開銷,可見數據量之龐大。由此,除了選擇內存較大的設備,分布式的部署方式也在很大程度上可以提高向量數據庫的數據存儲量。分布式部署使向量數據庫具有更加靈活的水平擴展能力,從而助力大模型提高數據收集、處理和分析的能力。
為虎添翼,向量數據庫助力大模型檢索精確度不斷提升
ChatGPT爆火,“百模大戰”打響。隨著非結構化數據應用的發展,大模型對語言、音視頻、圖像的向量檢索需求飛速增長,專業的向量數據庫憑借巨大的性能優勢與獨有的特征優勢助力大模型緩解“人工智能幻想”,提高“長期記憶能力”,從而提升檢索精確度。
劉熙團隊從兩方面施策助力大語言模型改善“人工智能幻覺”現象。
一方面,企業需要在數據鏈路上進行工程化處理,從而增強檢索技術。另一方面,在文本檢索場景中引入稀疏向量,通過稀疏、稠密向量的混合檢索提升向量數據庫的召回精度。
此外,大模型的“長期記憶能力”的欠缺也是一個不足之處。劉熙認為,解決這個問題,本質上依賴外部存儲來存取當下的或者私域的各類數據,而存儲的首選肯定是向量數據庫,畢竟向量召回從語義上更符合用戶的需求。
劉熙團隊利用向量數據庫為大模型提供三種輔助能力:
首先,將向量數據庫作為新知識的載體。劉熙團隊通過向量數據庫Hippo內置的向量轉化工具將實時的知識轉化成向量數據存儲在Hippo中,從而讓大模型能夠及時感知前沿知識和信息,降低大模型二次訓練的時間和成本。
其次,借助向量數據庫存儲單次上傳的超大文本、對話內容等信息,為大模型提供理論上沒有上限的長期記憶,使企業不必因存儲超長token而耗費大量資源。
最后,語義緩存能力。企業在建立自己的知識庫時,可以將問答知識存儲在向量數據庫中,存儲方式為數據含義,這意味著如果有相似問題,用戶就可以基于語義內容命中緩存給出結果,減少對大模型的訪問,從而降低成本并提升檢索的效率。
劉熙認為,向量數據庫作為一種基礎的AI設施,可以有效地解決AI技術在實際應用中的問題。它源自AI,同時又為解決AI技術應用問題提供了有效的解決方案。
未來展望:一站式、公有云托管或成向量數據庫發展趨勢
在信息價值越來越受到重視的今天,企業也急切希望通過對已有數據的分析獲得新的突破口,實現業務增長。
那么,企業該如何選擇向量數據庫?劉熙表示,在數據不斷膨脹、計算需求指數級增長、需求快速變化的情況下,企業應該選擇專業的向量數據庫。同時,企業還需要關注向量數據庫是否具有高擴展性、高準確性、高性能以及易用性等特性,即企業在簡易的操作下,可以實現大規模向量數據的存儲和檢索,通過支持多類型索引、檢索優化等方式實現高準確性檢索,能夠使軟硬件深度優化,充分發揮CPU多核、高內存帶寬等優勢,擁有強勁算力。此外,劉熙還認為,由于廠商(或與合作伙伴共研)推出的大模型已經與向量數據庫經過充分地磨合,因此使用效果會更佳,同時也幫助企業節省了單獨選型與適配的成本。因此,一站式,即整體采購領域大模型+向量數據庫的模式,可能是向量數據庫市場的發展趨勢之一。
談到向量數據庫的未來發展方向,劉熙認為主要有以下四點:
第一,向量數據庫與傳統數據庫會進行直接競爭。大體而言,目前向量數據庫有2條技術路線,一種是基于傳統關系型數據庫封裝向量計算功能,另一種是專業的向量數據庫。
第二,向量數據庫與大模型的生態兼容性至關重要。隨著大模型和向量數據庫的組合方案更加成熟,未來用戶可能會選擇整體方案,以此來避免分別采購成本高、兼容性認證復雜等問題。
第三,除語言模型外,對于圖片、音視頻等非結構化數據在大模型中應用時,向量數據庫的價值會更加凸顯。
第四,以基于公有云的全托管方式來為用戶提供服務,可能會成為向量數據庫的主流形式。在保障數據安全的情況下,用戶不需要獨立部署和管理向量數據庫,可以將主要精力放在大模型方面,從而提高管理效率。
結語
向量數據庫自AIGC爆火以來收獲了眾多期待,也經受了不小的非議,而從星環科技服務企業的實踐經驗來看,專用的向量數據庫有它存在的價值,而向量數據庫與AI大模型的組合,也值得更多期待。