成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

知乎直答:AI 搜索產品從 0 到 1 實踐探索

人工智能
本文將介紹知乎直答產品搭建過程中的實踐經驗。在這一章節中,將分別對 query、retrieval、chunk、rerank、generation 和 evaluation 這些環節展開介紹,并分享性能優化實踐。

一、知乎直答產品介紹

知乎直答是具有強社區屬性的通用 AI 搜索產品,但并非社區版 AI 搜索。

圖片

知乎直答具有以下幾大優勢:

  • 認真專業:與知乎專注專業內容生產的調性相符,嚴格把控參考來源與質量,確?;卮鹫J真且專業。
  • 連接創作者:可在使用中關注、與創作者交流互動獲取專業見解。
  • 真實可信:依托知乎經用戶校驗的內容,有更高的公信力。
  • 多元數據源:除自身圖文數據,還引入了公開英文文獻、維普等專業論文庫及全網數據以補充知識。

二、實踐經驗分享

在這一章節中,將分別對 query、retrieval、chunk、rerank、generation 和 evaluation 這些環節展開介紹,并分享性能優化實踐。

1. 檢索增強生成(RAG)框架

檢索增強生成(RAG)是一種將檢索系統與大語言模型相結合的 AI 框架。用戶提問時先檢索知識庫,將結果作為大模型上下文生成答案。這種方法可以很好地減少 AI 幻覺問題,確保答案的準確性,并且具備溯源性與更好的可解釋性。

圖片

對比直接用大模型構建 AI 系統,RAG 在知識更新、時效性、可解釋性等多方面優勢顯著,因此搭建 AI 問答系統首選 RAG 方案。

圖片

2. Query 理解相關實踐

生產環境中,query 常常存在表述不完整、多重語義混雜、意圖不明確等問題。針對 query 表述不完整的問題,需要進行語義補全。對于意圖混雜的問題,會基于上下文對 query 進行改寫。而對于 query 過于簡短、意圖不明確的情況,則通過多輪問答對 query 進行擴展。

圖片

知乎直答的初始版本僅支持單輪搜索,每次查詢都是一個獨立的交互過程。在用戶反饋階段,我們收到了大量關于上下文理解不足的反饋。因此我們快速迭代,實現了基于多輪問答上下文的 query 理解。我們專門微調了一個模型進行 query 改寫。

圖片

我們將 query 擴展與搜索引擎進行了深度結合,從而降低了成本,并且增強了可控性。因為 query 擴展放到了搜索引擎內執行,所以可以避免多次調用搜索引擎,這樣既減少了資源消耗,又可以更好地控制相關性、多樣性等關鍵指標,以提高檢索準確率。我們定向訓練了一個模型來完成 query 擴展任務。

圖片

3. 召回方案

知乎直答采用了多策略召回方案,包括語義召回、標簽召回,以及在語義召回基礎上的向量空間對齊。

語義召回方面,基于知乎問答場景數據深度調優 BGE Embedding 模型,以提升檢索質量。針對不同任務(如檢索、語義相關性、聚類分類等)調優損失函數,采用不同損失函數并調整負采樣策略等提升效果。

圖片

通過模型融合解決長文、短文語料混合訓練效果不佳問題。下圖中給出了一個示例,最左邊是 base 模型,在此基礎上基于長文語料微調了一個長文模型,同樣微調了一個短文模型,再將三者融合,得到最終的模型。

圖片

下圖給出了一組評測數據,其中五列為五個不同的評測任務,包括短文到長文的檢索、短文到短文的檢索等??梢钥吹?TextBgeFTQuery2Long 模型在長文檢索上有顯著優勢,TextBgeFTQuery2Short 模型在短文檢索上優于其它模型,而融合后的 TextBgeFTMixed 在幾乎所有任務上都有著非常好的表現,這充分說明了模型融合的有效性。

圖片

除此之外,還有其他一些語義召回方面的經驗,比如 Matryoshka 表征學習,一次訓練讓模型具備多維度輸出能力;BGE-M3 的 dense+sparse 混合檢索長文表現好且能降低索引壓力;ColBERT 的延遲交互方式召回精度高但成本高,適用于高精度要求場景;1bit 量化能提升性能且召回效果損失小,具研發潛力。

圖片

標簽召回方面,我們搭建了組合式標簽提取方案。將大語言模型的推理能力與傳統召回技術相結合,采用兩階段策略進行標簽抽取。首先通過召回模型獲取內容候選標簽,再利用 LLM 進行深度語義分析和標簽生成,確保更全面和準確的內容標簽抽取。

標簽召回是一種極短文本匹配場景,我們基于特定場景訓練了輕量級模型,專門用于從海量標簽庫中快速識別和提取相關標簽。該模塊具有高效召回、強語義理解、高可擴展性及零樣本新增標簽等優勢。

圖片

在召回模型獲得初步標簽候選后,可以依托大模型的語義理解和生成能力,進一步選擇更加符合輸入文本語義的最終標簽,提高標簽抽取的準確性。這種二階段的方式具有更強的自適應性和靈活性,當需要新增標簽時,可以顯著提升處理效率。

圖片

向量空間對齊的工作旨在解決非對稱索引問題,通過對文檔理解構建合成標題索引,實現 query 到 query 的檢索使訓練空間對齊,提升檢索準確率。

圖片

下圖中給出了一個示例:

圖片

4. Chunk 相關實踐

之所以做 chunk,主要目的是:

  • 降低成本與延遲:通過 chunk 技術壓縮上下文長度,可以顯著降低推理計算成本,同時減少響應延遲,提升系統整體性能。
  • 提升信息利用效率:大模型在處理過長上下文時容易出現「Lost in the Middle」現象,難以準確抓住關鍵信息。chunk 通過提煉核心內容,幫助模型更高效地利用有限的上下文窗口。

而不合適的 chunk 會帶來如下一些風險:

  • 語義連貫性受損:不當的 chunk 處理可能導致上下文割裂,引發模型產生錯誤理解和虛假信息。
  • 信息完整性缺失:過度壓縮可能造成重要信息丟失,導致模型無法提供完整準確的回答。
  • 噪聲干擾問題:在信息提取過程中可能引入無關信息,影響最終輸出的質量和準確性。

最初的方案是基于固定窗口長度進行文檔切分。該方案的特點為:

  • 技術實現簡單,處理速度快。
  • 分塊大小的選擇直接影響效果,較大分塊能保持完整語義,有助于理解全局內容;而較小分塊處理更快,資源消耗更少。

這一方案面臨的核心挑戰是文檔的多樣性帶來的問題。由于不同類型的文檔和查詢需求存在巨大差異,固定長度的分塊策略難以同時滿足語義完整性和處理效率的要求。該方案無法靈活適應不同場景,最終限制了系統的實際應用效果。

進而,我們又探索了生成式 chunk,但未能成功落地。該方案的核心思路是不顯式切分段落,而是直接使用大語言模型從原文中找出最相關的子串作為候選答案。也就是采用 End2End 的方式,解決靈活性和分塊與問題相關性的問題。

我們采用大語言模型+prompt 的方式合成 ranker,用約束解碼的方式約束生成過程。

圖片

通過這一嘗試,我們認識到性能優化是關鍵。推理延遲是核心挑戰,為確保用戶體驗,我們必須最小化模型前向計算次數,每一次 forward 都需要嚴格控制計算開銷。

同時,我們還觀察到大語言模型存在明顯的最近信息偏好(recency bias),prompt 中的信息對模型評分的影響主要集中在序列的開始部分。

在實踐中發現評分模型具有局限性:

?評分模型在使用相同 prompt 時能夠較好區分答案質量,高質量答案確實能獲得更高分數

?但在前綴對比測試中表現不佳,同一個答案配上相關/無關前綴時的得分差異不明顯。這反映了模型訓練范式的局限,模型從未經過這種對比場景的訓練。

更合適的方案是歸并式 chunk。包括三個步驟:相關度排序、片段合并和邊界擴展。

圖片

下圖展示了大致的流程,對于候選 chunk 會進行細粒度的切分,之后用相關性模型對這些 chunk 和 query 的相關性進行打分,再進行 rank、merge 和外推,最后對每一個文檔僅生成一個 chunk。

圖片

5. Rerank 相關經驗

Rerank 方面主要關注的問題為以下幾點:

  • 關鍵信息感知:過多的上下文可能會引入更多的噪聲,削弱 LLM 對關鍵信息的感知。因此需要通過相關性控制,確保生成的內容集中于最重要的信息。
  • 多樣性控制:冗余信息可能會干擾 LLM 的最終生成,因此需要通過多樣性控制,確保生成內容具備豐富性和創新性。
  • 提升生成內容權威度:結合知乎社區投票機制加權排序,可以提升生成內容的權威性和可信度,滿足用戶對高質量內容的需求。

6. Generation 相關經驗

生成模塊是與用戶交互的橋梁,是整個流程中至關重要的一環。我們在生成環節的經驗主要包括:

  • 上下文信息元數據增強:通過精心組織上下文結構,融入可驗證的元數據信息(如來源、時間、作者等),顯著提升輸出內容的可信度和權威性。同時確保生成內容的準確性和連貫性。
  • Planning 能力探索:探索大模型的 planning 能力,通過任務分解和推理鏈等技術,不斷增強系統解決復雜多步驟問題的能力。重點提升對專業領域問題的處理水平。
  • 模型優化與對齊:持續優化模型調優與對齊策略,通過細致的 badcase 分析和針對性訓練,全面提升模型的指令理解和執行能力。確保生成結果始終符合預期標準和用戶需求。

喂給模型的上下文中,會添加更豐富的元數據信息,以提升生成效果,包括時間維度元數據、用戶互動數據,以及創作者專業背景信息等。

圖片

我們對復雜 query 的 planning 能力也進行了探索。傳統 RAG 方案在處理復雜查詢場景時存在局限性,如難以處理多步推理問題,存在知識幻覺,以及難以有效整合上下文信息等等。

圖片

針對這些問題,我們采用了基于 Plan X RAG 的方案,進行任務拆解、逐層推理,優化生成 DAG 過程,如預檢索機制降低錯誤累積、精細化管理子任務等。

圖片

生成過程的模型優化:采用 DPO、step-DPO、PPO、GRPO 等對齊訓練方式提升模型效果,注意強化學習方案問題;通過樣本增強、拉齊等手段改善性能。

圖片

7. 評估機制

評測結果可能與線上用戶體驗不符,受語言風格、評測人員主觀差異、錯誤偏好等因素影響。

  • 偏向語言風格:評測結果可能更多地反映了模型的語??格,而不是其真實的能?。恭維、幽默或專業術語的使用都可能影響評測結果。
  • 觀點差異:不同的評測人對功能、價值、及重要性等問題可能有較大的主觀觀點差異,這會影響評測結果的一致性和可信度。
  • 錯誤偏好:如果某個模型固定會犯某些錯誤,這些錯誤可能會在后續的評測中更容易被注意到,從而影響結果。

為了全面保障產品質量與可靠性,我們構建了一套多層次評估體系,包含自動化評估(利用大語言模型、偏好模型、歷史 bad case 驗證集合等多維度打分及檢測相關問題)、多維人工評估(多機盲評、專員復檢、GSB 評估保證客觀公平、標準一致和穩定性),并且最后有 AB 實驗最終確認,提升了評測效率和準確率。

圖片

具體的評測流程如下圖所示:

圖片

8. 工程優化和成本控制

包括系統架構升級、全鏈路監控體系和成本優化三個方面。

系統基于 DAG 的任務編排架構,將核心模塊算子化,便于應對新增需求,提升開發效率;并且實現了全鏈路監控體系,顯著縮短了問題解決的時間。

圖片

圖片

成本優化方面,通過模型量化在基本不損失效果情況下實現了 50% 左右的成本降低;對垂直場景采用遷移手段將大模型方案轉為專用模型方案,縮小模型尺寸同時保持 95% 以上專業性能。

圖片

三、直答專業版介紹

知乎直答專業版的入口與知乎直答是一樣的,在通用搜索下方,有專業搜索入口。

圖片

直答專業版具有如下特點:

  • 引入優質數據源:知乎直答專業版引入了多種高質量的數據源,包括維普論文庫、公開英文文獻、知乎精選等內容,經過嚴格篩選確保內容專業可信。
  • 海量論文期刊數據庫:引入國內外海量的論文庫和期刊庫,用戶可以全面搜索并獲取相關原文內容,滿足對高質量信息的需求。
  • 支持學術研究和專業工作:這些優質的數據源為用戶的學術研究和專業工作提供了堅實的基礎和全面的信息支持。

在此基礎上,專業版還為用戶提供了強大的個性化知識管理功能,讓用戶可以構建和管理自己的專屬知識庫。主要功能包括:

  • 文檔上傳:支持 PDF 等多種格式上傳,系統可智能解析文檔內容。單輪交互最多支持 99 個文檔,滿足專業需求。
  • 智能解析:系統自動處理上傳的文檔內容,支持基于文檔的智能問答功能。
  • 定向問答:支持基于個人知識庫的定向問答,幫助用戶更高效地利用已有知識,打造結構化的知識體系。

同時,支持深度閱讀,在檢索到一些內容或是上傳了一些內容后,可以開啟深度閱讀模式,對單篇文檔進行問答。

圖片

為了支持深度閱讀,我們自研了一套智能 PDF 解析方案,以提升閱讀體驗。

圖片

下一步規劃主要包括以下幾大方面:

  • 融合:將直答與知乎社區深度融合,滿足用戶「找答案」的需求,提供更加豐富、全面、及時的內容。
  • 多模態:拓展更加豐富的交互模式和富媒體結果展示,讓用戶獲取信息更加便捷生動。
  • 推理能力:Reasoning 能力 o1 化,使直答具備更強的解決復雜問題能力
  • 專業化:不斷優化專業版,滿足科研群體的專業需求,提供極致的使用體驗。
責任編輯:姜華 來源: DataFunTalk
相關推薦

2014-12-31 17:16:15

知乎架構變遷史

2022-05-09 08:35:43

面試產品互聯網

2025-02-11 09:12:55

2017-06-16 21:00:02

Python爬蟲

2016-11-28 16:23:23

戴爾

2017-05-24 11:29:10

蘑菇街搜索推薦

2015-07-17 07:39:44

搜索下拉框產

2023-07-18 18:14:51

云原生軟件架構

2023-04-17 18:50:03

2018-12-13 11:32:55

知乎裁員調整

2025-02-27 01:00:00

AI編程代碼

2015-06-17 15:21:28

2018-04-23 08:44:41

滴滴DB自動化運維

2021-03-10 09:21:00

Spring開源框架Spring基礎知識

2023-03-06 11:35:55

經營分析體系

2021-07-01 07:03:32

開發Webpack代碼

2024-12-02 11:24:30

Docker編排技術

2022-03-15 11:51:00

決策分析模型

2022-11-03 11:31:43

結構分析法監測
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色吧色综合 | 免费色网址| 性欧美hd| 香蕉国产在线视频 | 伊人手机在线视频 | 婷婷桃色网 | 色嗨嗨| 国产在线精品一区二区三区 | 亚洲天堂免费在线 | 精品久久久久久亚洲综合网 | 国产视频二区 | 成人激情视频在线观看 | 久久三级av | 男女啪啪高潮无遮挡免费动态 | 综合久久99| 夜夜草导航| 精品久久香蕉国产线看观看亚洲 | 99亚洲精品| 一区二区三区视频在线 | 欧美一区2区三区3区公司 | 一区二区三区视频免费看 | 久久乐国产精品 | 亚洲天堂中文字幕 | 资源首页二三区 | 欧美日韩在线一区二区三区 | 国产精品国产三级国产aⅴ中文 | 日本久久福利 | 成人欧美 | 国产欧美在线 | 欧美福利| 国内精品免费久久久久软件老师 | 免费看av大片 | 九九热在线视频 | 色999视频| 国产一区二区三区 | 成人精品视频 | 日韩免费av网站 | 亚洲视频手机在线 | 久久av一区二区三区 | www.色.com| 欧美在线a |