成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSearcher 開源:告別傳統(tǒng) RAG,私有數(shù)據(jù)+DeepSeek,打造本地版 Deep Research 原創(chuàng)

發(fā)布于 2025-2-19 14:58
瀏覽
0收藏

近期,Open AI 推出的 Deep Research(深度研究)功能引發(fā)了廣泛關(guān)注。該功能通過整合大模型、超級搜索和研究助理于一體,使得金融機構(gòu)能夠一鍵生成報告,科研人員能夠一鍵撰寫綜述,極大提升了效率。然而,由于企業(yè)場景中私有化數(shù)據(jù)的敏感性和成本考慮,如何將 Deep Research 進行開源的本地化部署,成為許多人的關(guān)注焦點。

在這篇文章中,我們將對市場上模仿 Deep Research 的開源項目進行簡要分析,并結(jié)合 Deepseek 等主流開源模型,Zilliz 推出一款名為 Deep Searcher 的開源項目。該項目的目標(biāo)是幫助用戶在企業(yè)級場景下,基于 Deep Research的思路,實現(xiàn)私有化部署。此外,此方案在現(xiàn)有的RAG(Retrieval-Augmented Generation)方案上進行了重要升級。

GitHub 的嘗鮮鏈接

??https://github.com/zilliztech/deep-searcher??

1、什么是 Deep Research,為什么需要開源平替?

最近,OpenAI 推出了一款先進的 AI 研究工具——Deep Research,目的是為了幫助用戶更高效地處理復(fù)雜的研究工作。這款工具基于 OpenAI 最新的 o3 大模型,特別針對網(wǎng)絡(luò)瀏覽和數(shù)據(jù)分析進行了優(yōu)化。

第一、核心功能包括

多階段信息搜集與推理:Deep Research 能夠自動執(zhí)行多階段的網(wǎng)絡(luò)調(diào)研,迅速整合網(wǎng)絡(luò)上的大量信息,涵蓋文本、圖片和 PDF 文件。

專業(yè)報告自動生成:通過分析綜合數(shù)百個在線資源,Deep Research 可以在5至30分鐘內(nèi)生成一份包含詳細(xì)引用的專業(yè)報告,顯著減少傳統(tǒng)研究所需的時間。

第二、應(yīng)用場景涵蓋

學(xué)術(shù)研究:學(xué)者和研究人員可以利用 Deep Research 快速搜集相關(guān)領(lǐng)域的深入資料,輔助撰寫論文和進行研究。

市場分析:企業(yè)可以使用此工具進行市場調(diào)研、競爭分析和產(chǎn)品比較,為商業(yè)決策提供支持。

產(chǎn)品評估:消費者可以利用 Deep Research 比較不同產(chǎn)品的特點和評價,做出更明智的購買選擇。

總體而言,Deep Research 作為 OpenAI 推出的深度研究產(chǎn)品,旨在通過自動化的信息搜集和分析,助力用戶高效完成復(fù)雜的研究任務(wù)。但目前,Deep Research 僅對美國地區(qū)的 OpenAI Pro 用戶開放,費用為每月200美元,且每月查詢次數(shù)限制為100次。

第三、開源解決方案

目前,大多數(shù)用戶尚無法使用 OpenAI 的 Deep Research 功能。不過,自從 OpenAI 發(fā)布該功能后,許多開源社區(qū)的貢獻者開始分析并嘗試復(fù)現(xiàn)這一功能。

GitHub 上已經(jīng)出現(xiàn)了多個開源方案,它們的實現(xiàn)流程大致分為以下四個步驟

第一步,問題分析:大模型分析用戶提出的問題,確定回答問題所需的角度和步驟。許多大型模型(比如:DeepSeek、ChatGPT、Gemini 等)只需開啟推理選項即可完成這一過程。

第二步在線搜索:根據(jù)大模型生成的問題進行在線搜索,獲取搜索結(jié)果的前 k 項,并將內(nèi)容反饋給大模型。

第三步,內(nèi)容總結(jié):大模型根據(jù)在線內(nèi)容生成簡潔的答案。

第四步答案驗證:將所有內(nèi)容匯總后,由大模型判斷答案的完整性和準(zhǔn)確性。

如果答案完整且準(zhǔn)確,則輸出最終答案。如果達到預(yù)設(shè)的循環(huán)次數(shù)或 token 上限,同樣輸出最終答案。否則,生成新問題,返回第一步,并將歷史解決信息帶入下一輪循環(huán)。

2、相比傳統(tǒng) RAG,Deep Research 有何亮點與不足

相較于之前的 RAG(Retrieval-Augmented Generation)方案,新方案實現(xiàn)了以下三個方面的創(chuàng)新

第一、判定邏輯:通過引入額外的判定邏輯,提升了答案的精確度。Deep Research 利用多源驗證、邏輯推理等質(zhì)量控制手段,確保了研究成果的可靠性,并有效避免了傳統(tǒng) RAG 中常見的無目的檢索和過度檢索問題。與傳統(tǒng)的 RAG 相比,Deep Research 在信息整合和驗證方面更為嚴(yán)謹(jǐn)。

第二、以搜索結(jié)果為核心:答案主要基于搜索結(jié)果而非單純依賴大模型的生成。大模型的作用在于內(nèi)容匯總和相關(guān)性判斷,從而增強了答案的可靠性。

第三、深度思考與處理復(fù)雜任務(wù):Deep Research 能夠模仿人類研究員進行多階段的網(wǎng)絡(luò)研究,理解信息、整合資源,并根據(jù)新發(fā)現(xiàn)調(diào)整研究策略。這種自主進行多步驟問題解決的能力,是普通 RAG 所不具備的。

雖然這些優(yōu)勢顯著,但 Deep Research 也存在一些不足。從前面提供的方案中可以看出,Deep Research 的響應(yīng)速度較慢,對計算資源和網(wǎng)絡(luò)環(huán)境的要求也更高。更重要的是,其答案的主要信息來源依然是公開的網(wǎng)絡(luò)搜索結(jié)果

然而,在大多數(shù)企業(yè)場景中,真正有價值的數(shù)據(jù)通常是企業(yè)的內(nèi)部數(shù)據(jù),這些數(shù)據(jù)無法通過在線搜索獲取,也不適合上傳至大模型以避免隱私泄露的風(fēng)險。此外,在線搜索引擎的結(jié)果可能包含誤導(dǎo)性信息(比如:廣告),且一些小眾搜索引擎可能存在搜索延遲。

鑒于此,在多數(shù)企業(yè)級應(yīng)用場景中,采用基于 Deep Research 思路的私有化部署可能是一個更佳的選擇。

接下來,我們將以 Deep Searcher 為例,展示如何結(jié)合開源項目和本地數(shù)據(jù),實現(xiàn)一個升級版的 Deep Research本地部署。

3、如何針對私有數(shù)據(jù),做 Deep Research

以下是基于多數(shù)開源 Deep Research 方案改進后,Zilliz 推出的 Deep Searcher 開源實現(xiàn)方案的架構(gòu)圖


DeepSearcher 開源:告別傳統(tǒng) RAG,私有數(shù)據(jù)+DeepSeek,打造本地版 Deep Research-AI.x社區(qū)

從圖中可以看出,Deep Searcher 通過集成向量數(shù)據(jù)庫 Milvus,實現(xiàn)了對用戶本地存儲數(shù)據(jù)的快速、低延遲的大規(guī)模離線搜索。

Deep Searcher 的實現(xiàn)步驟如下

第一步,問題解析:在接收到用戶提問后,利用 LLM(Large Language Model)對問題進行分析,生成多個子問題,并明確每個子問題對應(yīng)的數(shù)據(jù)集。

第二步,信息檢索:根據(jù) LLM 的分析結(jié)果,在向量數(shù)據(jù)庫中檢索相關(guān)信息。需要注意的是,向量數(shù)據(jù)庫中的數(shù)據(jù)是離線存儲的,因此在執(zhí)行查詢之前,需要先將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫。這些數(shù)據(jù)可以是企業(yè)內(nèi)部數(shù)據(jù)、在線下載的數(shù)據(jù),或者是其他系統(tǒng)中定期導(dǎo)入的數(shù)據(jù)。

第三步,內(nèi)容判斷:向量數(shù)據(jù)庫檢索到相似信息后,將用戶的原始問題、子問題及其對應(yīng)的搜索結(jié)果一同提交給大模型進行內(nèi)容判斷。

如果問題已經(jīng)得到完整回答,則進入最終回答階段。

如果達到預(yù)設(shè)的循環(huán)次數(shù)或 token 上限,同樣進入最終回答階段。

否則,大模型將生成新的問題,并繼續(xù)下一輪循環(huán)。

方案亮點包括:

(1)私有數(shù)據(jù)利用:充分挖掘私有數(shù)據(jù)的價值,更好地與大模型結(jié)合。

(2)向量數(shù)據(jù)庫優(yōu)勢:發(fā)揮向量數(shù)據(jù)庫在處理大規(guī)模數(shù)據(jù)、低延遲搜索、多種索引策略、高可用性和資源彈性管理等方面的優(yōu)勢。

(3)數(shù)據(jù)管理:通過向量數(shù)據(jù)庫高效管理私有數(shù)據(jù),對不同類型的數(shù)據(jù)進行分庫分表,支持多種應(yīng)用,最大化數(shù)據(jù)價值,降低管理成本。

值得注意的是,為了更有效地保護私有數(shù)據(jù),建議使用離線 LLM 大模型。如果使用 LLM API,即使僅返回部分檢索數(shù)據(jù),仍然存在數(shù)據(jù)泄露的風(fēng)險。

4、Deep Searcher 落地效果

遵循上述思路,Deep Research 的本地部署開源版本——Deep Searcher,現(xiàn)已在 GitHub上 開放源代碼,項目鏈接為:??https://github.com/zilliztech/deep-searcher。??

當(dāng)前項目功能包括

第一、LLM 支持:支持 DeepSeek 官方版本、DeepSeek 硅基流動、DeepSeek TogetherAI、OpenAI。

第二、Embedding 模型支持:支持 Pymilvus 內(nèi)置模型、OpenAI Embedding、VoyageAI Embedding。

第三、數(shù)據(jù) Loader 支持:支持離線文檔(比如:PDF、Markdown、TXT)、在線文檔(可通過 FireCrawl、JinaReader、Crawl4AI 獲取)。

第四、向量數(shù)據(jù)庫支持:支持 Milvus、Zilliz Cloud(注冊后即可免費體驗,注冊地址:https://cloud.zilliz.com.cn/login 或 https://cloud.zilliz.com/)。

最終效果預(yù)覽如下

DeepSearcher 開源:告別傳統(tǒng) RAG,私有數(shù)據(jù)+DeepSeek,打造本地版 Deep Research-AI.x社區(qū)

GitHub 項目——Deep Searcher:??https://github.com/zilliztech/deep-searcher。??項目正處于快速迭代階段。


本文轉(zhuǎn)載自公眾號玄姐聊AGI  作者:玄姐

原文鏈接:??https://mp.weixin.qq.com/s/ujs2KDgB-5HqXiMzutxn_A??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 精品1区 | 草久在线视频 | 国产免费看 | 亚洲资源在线 | 成人免费看黄 | 欧美日韩国产在线 | 午夜天堂精品久久久久 | 久久久精品久 | 国产精品成人品 | 亚洲成人av在线播放 | 欧美精品一区二区三区四区 | 亚洲在线一区 | 蜜桃毛片 | 欧美激情va永久在线播放 | 国产视频亚洲视频 | 中文字幕第二十页 | 情侣酒店偷拍一区二区在线播放 | 密乳av| 久久久久久蜜桃一区二区 | 91久久精品一区二区二区 | 久久精品无码一区二区三区 | 欧美影院 | 黄色日本片 | 亚洲天堂精品一区 | 欧美三区在线观看 | 久草福利 | 亚洲欧美国产视频 | www.中文字幕.com | 免费国产视频 | 国产精品高潮呻吟久久av黑人 | 一级毛片在线播放 | 黄色av网站免费看 | 91久久久久久| 国产2区 | 欧美成人一级 | 日本天天操| 免费av观看 | 中文字幕精品一区久久久久 | 色婷婷婷婷色 | 久久精品黄色 | 伊人久久综合 |