TreeHop:無需大語言模型的高效多跳問答新范式
- 項目倉庫:https://github.com/allen-li1231/treehop-rag
- Arxiv: https://arxiv.org/abs/2504.20114
在人工智能領域,多跳問答(Multi-hop Question Answering, MHQA)一直是一項極具挑戰性的任務。這類任務要求系統通過多步推理,從不同文檔片段中綜合信息才能得出答案。例如,回答“特朗普的祖父是誰?”這樣的問題,往往需要先檢索“特朗普的父親是弗雷德·特朗普”,再進一步查詢“弗雷德·特朗普的父親是誰”。然而,現有方法依賴大型語言模型(LLM)反復重寫查詢,導致計算成本高昂、延遲顯著。近期,一項名為TreeHop的研究提出了一種全新的解決方案,通過嵌入空間的動態更新,實現了99%的延遲降低與5%-0.4%的模型參數量,為高效多跳推理開辟了新路徑。
1. 傳統方法的瓶頸:LLM依賴與效率困境
現有的檢索增強生成(RAG)系統通常采用“檢索-重寫-向量化-再檢索”的循環流程。例如,系統需用LLM根據首次檢索得到的文本生成新查詢,再重新編碼并檢索。這一過程雖能提升召回,但每次迭代均需調用LLM對原問題進行重寫(query rewrite),再使用sentence embedding模型映射到向量空間,導致計算資源消耗巨大,延遲過高,難以在工業場景中高效部署。
2. TreeHop的核心突破:嵌入空間的動態演化
TreeHop的創新在于完全摒棄LLM,直接在嵌入空間中完成多跳推理。其核心機制包括:
2.1. 動態嵌入更新的雙模塊協同
TreeHop通過query embedding與文檔塊嵌入的動態交互生成下一步查詢,其公式為:
其中:
- **( q_r - c_r )**:通過減法抑制當前query與文檔塊的語義重疊,避免冗余檢索。例如,若當前文檔已確認“弗雷德是特朗普的父親”,從更高維的角度來理解,該操作會剔除query中與“弗雷德”相關的信息,確保下一跳聚焦于未解決的語義(如“弗雷德的父親”)。
- UpdateGate:基于跨注意力機制(cross-attention),從文檔塊中提取query中沒有的新信息并融合到query中。例如,當檢索到“弗雷德是特朗普的父親”時,UpdateGate會捕捉“弗雷德”這一新事實,并將其補充到query embedding中,形成下一跳的查詢方向。
兩者的結合實現了“去冗余”與“信息增強”的協同:減法操作防止重復檢索,而加法操作引入新線索。
2.2. 雙重剪枝策略
- 冗余剪枝:若某文檔片段已在先前步驟中被檢索,則終止該路徑。
- 層級Top-K剪枝:每層僅保留相似度最高的K個候選,將檢索復雜度從指數級(如53=125)降至線性增長(如5*3=15)。
實驗表明,TreeHop在3個主流MHQA數據集(2WikiMultiHop、MuSiQue、MultiHop RAG)上,僅用0.06秒即可完成3跳檢索,召回率與LLM方案相當,部分場景甚至提升4.1%。
3. 工業應用:低成本部署與實時響應
TreeHop的技術突破為工業界提供了極具吸引力的解決方案:
- 成本效益:參數量僅為傳統方案的0.4%-5%,可于單塊Nvidia V100 GPU中訓練,顯著降低硬件投入。
- 實時性:99%的延遲縮減使其適用于客服系統、金融信息檢索等對多跳場景剛需,同時對響應速度敏感的領域。
- 多語言支持:TreeHop基于BGE-m3模型的embedding訓練,可快速適配全球化業務需求,如跨境法律咨詢或跨地區醫療知識庫。
本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI
