SpringAI用嵌入模型操作向量數據庫!
嵌入模型(Embedding Model)和向量數據庫(Vector Database/Vector Store)是一對親密無間的合作伙伴,也是 AI 技術棧中緊密關聯的兩大核心組件,兩者的協同作用構成了現代語義搜索、推薦系統和 RAG(Retrieval Augmented Generation,檢索增強生成)等應用的技術基礎。
“PS:準確來說 Vector Database 和 Vector Store 不完全相同,前者主要用于“向量”數據的存儲,而 Vector Store 是用于存儲和檢索向量數據的組件。
在 Spring AI 中,嵌入模型 API 和 Spring AI Model API 和嵌入模型的關系如下:
系統整體交互流程如下:
接下來我們使用以下技術:
- Spring AI
- 阿里云文本嵌入模型 text-embedding-v3
- SimpleVectorStore(內存級別存儲和檢索向量數據組件)
實現嵌入模型操作內存級別向量數據庫的案例。
1.添加項目依賴
我們使用阿里云百煉平臺的嵌入模型 text-embedding-v3 是兼容 OpenAI 的 SDK 的,因此,我們只需要添加 OpenAI 依賴即可:
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>
2.配置嵌入模型
阿里云百煉平臺支持的向量模型:
項目配置文件配置向量模型:
spring:
ai:
openai:
api-key: ${aliyun-ak}
embedding:
options:
model: text-embedding-v3
chat:
options:
model: deepseek-r1
3.配置向量模型
將 EmbeddingModel 和 VectorStore 進行關聯,如下代碼所示:
@Bean
public VectorStore vectorStore(EmbeddingModel embeddingModel) {
return SimpleVectorStore.builder(embeddingModel).build();
}
4.向量數據庫添加數據
VectorStore 提供的常用方法如下:
- add(Listdocuments) :添加文檔。
- delete(ListidList) :按 ID 刪除文檔。
- delete(Filter.Expression filterExpression) :按過濾表達式刪除文檔。
- similaritySearch(String query) 和 similaritySearch(SearchRequest request) :相似性搜索。
向數據庫添加向量數據的方法如下:
// 構建測試數據
List<Document> documents =
List.of(new Document("I like Spring Boot"),
new Document("I love Java"));
// 添加到向量數據庫
vectorStore.add(documents);
當然,向量數據的數據源可以是文件、圖片、音頻等資源,這里為了簡單演示整體執行流程,使用了更簡單直觀的文本作為數據源。
5.查詢數據
@RestController
@RequestMapping("/vector")
publicclass VectorController {
@Resource
private VectorStore vectorStore;
@RequestMapping("/find")
public List find(@RequestParam String query) {
// 構建搜索請求,設置查詢文本和返回的文檔數量
SearchRequest request = SearchRequest.builder()
.query(query)
.topK(3)
.build();
List<Document> result = vectorStore.similaritySearch(request);
System.out.println(result);
return result;
}
}
執行結果如下:
從上述結果可以看出,和“java”相似度最高的向量為“I love Java”,相似度評分為 0.77,如果我們 SearchRequest 對象中的 topK 設置為 1 的話,只會查詢“I love Java”這條數據,如下圖所示:
“想要獲取完整案例的同學加V:vipStone【備注:向量】
小結
嵌入模型和向量數據庫是實現 RAG(檢索增強生成)的技術基礎,當然除了以上案例外,你可以使用 Redis 或 ES 來存儲向量數據,并嘗試加入 DeepSeek 實現 RAG 功能,這種形式更符合企業真實的技術應用。