別搞 GraphRAG 了,擁抱新一代 RAG 范式 DeepSearcher 原創
剛在朋友圈興奮慶祝《哪吒2》榮登全球IMAX票房歷史前八,喜悅之情還未平復;
午后,老板便發話:“小王,你這么有見解,用 DeepSeek 做個《上古神話中龍族形象在流行文化中的變遷》分析吧,下班前交給我……”
別忘了,還得融合孫悟空和哪吒的魅力點,借鑒《山海經》到《哪吒》的成功策略,結合古典文學理論與現代精神分析,打造出我們獨有的用戶體驗(此處省略800字)
老板的要求如同煙花般絢爛
然而,在時間轉換器從哈利波特的世界變為現實之前,我們這些打工族的辦公時間依然是有限的。
采用傳統的 RAG 方法應付差事?它只能幫你解決信息檢索的問題
嘗試 GraphRAG?老板還期望能結合知識圖譜與大模型生成的新高度
不得不說,近期 Open AI 推出的 Deep Research(深度研究)功能,確實能在短時間內滿足老板的高要求。
通過融合大模型、超級搜索與研究助手于一體的 Deep Research,
能夠幫助金融機構快速生成報告,科研人員快速撰寫綜述。該服務一經推出,便在全球范圍內廣受歡迎。
但 Deep Research 的底層模型綁定在 OpenAI 上,且無法利用本地數據。
這項工作看似閉環,實則仍有缺口。
基于這一理念,向量數據庫公司 Zilliz 推出了開源項目 DeepSearcher,目前在Github上已獲得 3.8+ star 的關注。
DeepSearcher 不僅繼承了 Deep Research 的優點,用戶還可以自由選擇底層大模型,并通過Milvus接入本地數據,更適合企業級應用場景。
體驗鏈接:https://github.com/zilliztech/deep-searcher
本文將圍繞 DeepSearcher 的技術分析、與傳統 RAG 的對比,以及實際操作展示三個方面,為大家帶來深入解讀。
1、RAG 技術演進:從基礎到增強
第一、我們為何需要 RAG?
RAG(檢索增強生成)技術,通過融合實時搜索與大模型的能力,有效解決了傳統生成技術的以下難題:
(1) 知識更新的時效性問題
大型模型如 GPT-4 的訓練數據有時間限制(僅更新至2023年),而 RAG 能夠實時檢索最新文檔(如科研論文或新聞),從而動態擴展模型的知識庫。
(2) 事實準確性的挑戰
純生成模型容易產生錯誤信息(即“幻覺”),RAG 則先進行相關證據文檔的檢索,確保模型基于檢索結果生成內容,大幅降低錯誤率。
(3) 領域適配的成本問題
傳統的微調(Fine-tuning)需要大量標注數據和計算資源,而 RAG 只需構建領域文檔庫,就能讓通用模型生成專業領域的內容(如法律、醫療)。
第二、傳統 RAG、Graph RAG、DeepSearcher 的區別解析
設想你在圖書館查找資料的情景:
傳統 RAG - 類似于圖書館找書
就像在圖書館根據書名和簡介找書一樣,傳統 RAG 會將文檔內容“向量化”,為每段文字打上特征標簽。當你提問時,它就像圖書管理員,根據標簽快速匹配相關內容。例如,詢問“哪吒的性格特點”,它會找到描述哪吒性格的段落。其優點是直接明了,但可能遺漏深層次的關聯信息。
GraphRAG - 類似于查閱族譜
GraphRAG 更像是探索一個互動式的族譜,將人物、事件、關系構建成一張大網。每個人物是一個節點,關系則是連線。詢問“哪吒和敖丙的關系”,它能通過關系網絡找到答案,并揭示意想不到的關聯,如他們的共同朋友或敵人。
DeepSearcher - 類似于 RPG 游戲的角色面板
DeepSearcher 像是 RPG 游戲中的人物屬性面板,將信息分層組織,如主線任務和支線任務。詢問“哪吒在劇中的重要關系”,它會先展示核心關系,然后逐層深入到具體情節和細節,使得信息層次清晰,易于理解。
第三、RAG 技術架構對比
(1)傳統 RAG 架構
(2)GraphRAG 架構
(3)DeepSearcher 架構
第四、RAG 數據組織方式對比
RAG:采用扁平化的向量空間,使信息關系直觀可見。
GraphRAG:利用圖結構存儲,適合表示復雜且相互關聯的數據。
DeepSearcher:通過樹形層次結構組織數據,便于像瀏覽文件夾一樣高效查找信息。
第五、RAG 檢索機制對比
RAG(檢索增強生成):通過比較文本向量相似度來檢索相關信息。
GraphRAG:結合圖結構的數據遍歷和路徑查詢,精確定位信息。
DeepSearcher:采用多層次并行搜索加智能過濾,從大量數據中快速準確提取所需信息。
第六、RAG 結果生成對比
RAG:直接基于相關文本內容生成答案。
GraphRAG:利用子圖中的結構化信息生成答案。
DeepSearcher:結合多層信息,深入挖掘信息及其關系,生成全面準確的答案。希望這樣的改寫能幫助大家更好地理解這些檢索機制的特點。
2、三種 RAG 設計模式試驗效果
第一、經典 RAG 實施流程
(1)搭建技術框架
(2)操作步驟
在 Dify 平臺上配置 deepseek-r1 模型。
構建《哪吒2》的專題知識庫。
設立聊天助手,將其與知識庫和模型關聯。
進行問答測試,以觀察實際效果。
(3)測試數據集
哪吒,一位天生的叛逆少年英雄,掌握雷電之力,隸屬于闡教。
他的父親是李靖(陳塘關總兵),母親是殷夫人。
他的導師是太乙真人,同為闡教門下。
敖丙,東海龍王的三太子,擁有冰雪之力,屬于龍族。
(4)測試問答示例
哪吒的父母是誰?
(5)問答效果展示
第二、GraphRAG 的實施流程
(1)技術棧準備
(2)實施步驟
利用 DeepSeek 生成測試數據集。
安裝 NebulaGraph 并導入測試數據。
在 Dify 平臺上創建工作流應用。
配置 Nebula API 調用等參數。
編排工作流節點。
進行測試,驗證問答效果。
(3)在 Nebula 中插入數據的步驟
創建圖空間:
CREATE SPACE IF NOT EXISTS nezha2(partition_num=1, replica_factor=1, vid_type=fixed_string(128));
(4)使用圖空間
USE nezha2;
(5)創建角色標簽
CREATE TAG role (
name string, // 角色名
meteorological string, // 氣象屬性
faction string, // 所屬陣營
role_desc string, // 角色描述
voice_actor string // 配音演員
);
(6)創建各種關系邊
CREATE EDGE father_of (edge_time timestamp); // 父子關系
CREATE EDGE mother_of (edge_time timestamp); // 母子關系
CREATE EDGE teacher_of (edge_time timestamp); // 師徒關系
CREATE EDGE enemy_of (edge_time timestamp); // 敵對關系
CREATE EDGE friend_of (edge_time timestamp); // 朋友關系
CREATE EDGE lover_of (edge_time timestamp); // 戀人關系
CREATE EDGE brother_sister_of (edge_time timestamp); // 兄妹關系
(7)插入角色節點
INSERT VERTEX role (name, meteorological, faction, role_desc, voice_actor) VALUES
"哪吒": ("哪吒", "雷電", "闡教", "天生反骨的少年英雄", "呂艷婷"),
"敖丙": ("敖丙", "冰雪", "龍族", "東海三太子,哪吒的摯友", "瀚墨"),
// ... 其他角色
;
(8)插入各種關系
// 家庭關系
INSERT EDGE father_of VALUES "李靖" -> "哪吒": (NOW());
INSERT EDGE mother_of VALUES "殷夫人" -> "哪吒": (NOW());
// ... 其他關系
(9)測試效果
使用 NebulaGraph Studio 進行測試。
測試語句示例:
// (查詢哪吒相關的所有關系)
MATCH (v1:role)-[e]->(v2:role)
RETURN e LIMIT 10;
// 多跳關系查詢
MATCH p=()-[*1..2]->()
RETURN p LIMIT 5;
第三、DeepSearcher 的實施與演示
DeepSearcher 的核心優勢在于其分層語義理解能力(涉及文檔結構、段落、句子、關鍵詞的多級解析),而 Dify 平臺的父子檢索功能則是對索引結構進行了優化(通過將文檔拆分為父子塊來建立層級索引)。
本次演示將重點展示如何利用父子檢索功能來實現 DeepSearcher 的層級索引特性。
(1)技術棧準備
(2)實施步驟
準備分層的知識文檔。
配置父子檢索參數。
在對話系統中選擇 DeepSeek-R1模型。
使用 LLM 處理檢索結果。
進行測試,驗證問答效果。
(3)測試數據集
# 角色基本信息
## 哪吒
- 名稱: 哪吒
- 屬性: 雷電
- 陣營: 闡教
- 描述: 天生反骨的少年英雄,擁有超凡的力量和勇氣
- 配音: 呂艷婷
- 性格特點: 叛逆不羈,重情重義,敢于挑戰命運
### 哪吒的關系網絡
- 父親: 李靖(陳塘關總兵,嚴厲正直)
- 母親: 殷夫人(溫柔慈愛,理解包容)
- 師父: 太乙真人(循循善誘,關愛弟子)
- 摯友: 敖丙(東海三太子,冰雪之力)
- 敵人: 申公豹(截教弟子,處處作梗)
### 哪吒的劇情發展
- 初遇敖丙: 在東海邊緣的相遇,兩個不同世界的少年
- 修行歷程: 在太乙真人門下學習法術,逐漸掌握雷電之力
- 友情萌芽: 與敖丙從互不理解到成為摯友
- 身份困擾: 面對闡教弟子和凡人雙重身份的矛盾
- 成長蛻變: 在各種挑戰中突破自我,尋找真我
### 哪吒的能力特點
- 主要法術: 雷電操控,混天綾,乾坤圈
- 戰斗風格: 靈活多變,攻擊凌厲
- 特殊天賦: 天生具有超凡力量
- 成長軌跡: 從初學者到掌握強大法力
## 敖丙
- 名稱: 敖丙
- 屬性: 冰雪
- 陣營: 龍族
- 描述: 東海三太子,溫潤如玉的貴族少年
- 配音: 瀚墨
- 性格特點: 溫和有禮,重情重義,內心堅韌
### 敖丙的關系網絡
- 父親: 敖光(東海龍王,威嚴莊重)
- 兄弟姐妹:
- 敖閏(龍女,擅長空間法術)
- 敖順(二皇子,精通毒術)
- 敖欽(大皇子,掌控火焰)
- 摯友: 哪吒(闡教弟子,雷電之力)
- 屬下: 結界獸(守護東海結界)
### 敖丙的劇情發展
- 身份困擾: 作為龍族繼承人的責任與壓力
- 友情抉擇: 在族群立場與個人情誼間的掙扎
- 能力覺醒: 冰雪之力的不斷提升與掌控
- 性格成長: 從謹慎拘謹到開朗自信
- 守護之道: 保護東海與親友的決心
### 敖丙的能力特點
- 主要法術: 冰雪操控,水系法術
- 戰斗風格: 優雅從容,防守反擊
- 特殊天賦: 天生親和水元素
- 成長軌跡: 從單純的王子到獨當一面
## 太乙真人
- 名稱: 太乙真人
- 屬性: 云霧
- 陣營: 闡教
- 描述: 闡教重要弟子,哪吒的師父
- 配音: 張珈銘
- 性格特點: 智慧通達,慈悲為懷
### 太乙真人的關系網絡
- 弟子: 哪吒(得意門生)
- 同門: 其他闡教仙人
- 對手: 申公豹(截教弟子)
### 太乙真人的劇情參與
- 收徒教導: 發現哪吒天賦,悉心培養
- 化解危機: 多次調解哪吒與各方矛盾
- 守護正道: 對抗截教勢力的滲透
# 陣營勢力分析
## 闡教
- 代表人物: 太乙真人、哪吒
- 特點: 崇尚正統,重視秩序
- 立場: 維護天地秩序,抵制混亂
- 修行特色: 注重心性修養,講究循序漸進
### 闡教的理念
- 修行觀: 重視內在修養
- 處世態度: 主動干預,匡扶正義
- 對待人間: 既重視規則,也關注個體
## 龍族
- 代表人物: 敖光、敖丙
- 特點: 高貴優雅,重視傳統
- 立場: 守護東海,維護龍族利益
- 統治方式: 等級分明,講究禮制
### 龍族的傳統
- 治理理念: 重視血脈傳承
- 對外態度: 謹慎自守,避免沖突
- 內部規則: 等級森嚴,重視禮法
## 截教
- 代表人物: 申公豹
- 特點: 包容駁雜,手段靈活
- 立場: 追求變革,不拘一格
- 行事風格: 靈活多變,善用權謀
### 截教的特點
- 修行方式: 講究實用
- 處世態度: 積極進取,不拘形式
- 發展策略: 廣收門徒,擴張勢力
# 重要事件與劇情發展
## 東海危機
### 事件起因
- 結界異常
- 勢力沖突
- 個人恩怨
### 事件發展
- 哪吒與敖丙的相遇
- 各方勢力的介入
- 矛盾的激化與升級
### 事件影響
- 個人成長
- 勢力變化
- 關系轉變
## 人物關系演變
### 友情的考驗
- 立場差異
- 信任建立
- 共同成長
### 師徒情誼
- 教導方式
- 互相理解
- 成長蛻變
(4)新建知識庫并開啟父子模式
(5)測試效果
測試單層信息獲取
"哪吒的基本屬性是什么?"
測試關系信息理解
"哪吒和敖丙是什么關系?他們的性格有什么不同?"
測試跨層級推理
"闡教和龍族的矛盾體現在哪些方面?對哪吒和敖丙的友情有什么影響?"
3、不同 RAG 模式維度對比
4、寫在最后
第一、DeepSearcher 的創新理念
DeepSearcher 的領先之處在于它打破了傳統搜索的檢索與生成分離模式,深度融合了深度學習技術,全面優化了搜索流程。其主要優勢體現在:
智能檢索:利用語言模型參與搜索過程,如生成潛在查詢或對結果進行排序,從而提高搜索的相關性。例如,對于“如何挑選適合我的手機?”這樣的問題,DeepSearcher 能夠根據用戶的歷史數據生成更為精確的搜索條件。
高度適應性:通過反饋機制(如強化學習)對搜索進行優化,根據用戶行為持續調整。若用戶對搜索結果不滿,系統將學習并改進搜索策略。多模態兼容性:支持文本、圖像、視頻等多元化數據類型,滿足現代應用的多樣化需求,例如搜索“紅色跑車的圖片及相關新聞”。
個性化搜索:深度學習模型能夠根據用戶的個人喜好定制搜索結果,相較于 RAG 和 GraphRAG 的固定檢索方式更加靈活。值得注意的是,DeepSearcher 的搜索過程更接近人類思維,能夠理解上下文和用戶意圖,但這同時也帶來了效率和可解釋性方面的挑戰。
第二、實施 DeepSearcher 需要克服的挑戰
集成難度:要將語言模型與搜索索引緊密融合,需要構建高效的系統架構。例如,如何在保持性能的同時,有效地將語言模型融入檢索過程?
實時數據更新:在處理實時數據更新(如股市動態)時,確保模型能夠及時適應,技術實現上存在一定難度。系統復雜性:DeepSearcher 可能包含多個組件(如檢索、生成、學習模塊),這增加了系統的維護和故障排查難度。
RAG 和 GraphRAG 作為成熟的搜索范式,分別適用于文檔檢索和關系查詢,而 DeepSearcher 則代表了搜索技術的未來趨勢,通過深度學習提升搜索效率,滿足復雜和個性化的搜索需求。盡管其潛力巨大,但如何提高效率、確保可解釋性以及滿足數據需求仍是待解的問題。在實現過程中,需要特別關注集成的復雜性和實時性,以確保系統在實際應用中的穩定表現。
本文轉載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:??https://mp.weixin.qq.com/s/ZUgx9ySEez3JjIURTFOh0A??
