成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<acronym id="oe8co"></acronym>
<abbr id="oe8co"></abbr>

<dl id="oe8co"><tr id="oe8co"></tr></dl>

<code id="oe8co"><delect id="oe8co"></delect></code>

<li id="oe8co"><dl id="oe8co"></dl></li>

<dl id="oe8co"></dl>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

RAG生成任務：Base LLM竟然比Instruct LLM高出20%

發布于 2024-6-26 15:30

瀏覽

0收藏

檢索增強生成（RAG）將檢索階段與生成階段結合起來，后者通常由大型語言模型（LLMs）驅動，RAG中的當前常見實踐是使用“指導”的LLMs，這真的是最優選擇嗎？

對RAG系統中的“instruct”模型及其模板與基礎版本（base）進行了原則性評估。這些“instruct”模型通常經過監督訓練來提高遵循指令的能力，并使用最先進技術與人類偏好對齊。使用了兩個任務指令來評估模型，任務指令I要求模型從未提供的文檔中提取答案，任務指令II要求模型提供證據來支持其答案。

在TriviaQA上的任務指令I下，基礎版與指導+模板版之間的比較。該圖展示了兩個版本的Llama 2 7B模型生成的回答之間的比較：基礎版和指導+模板版。每個版本都被賦予了基于提供文檔回答同一問題的任務。基礎模型正確地識別出答案為“Burgess Meredith”，而指導+模板版錯誤地將答案歸因于“Danny DeVito”。斜體文本表示模板

RAG生成任務：Base LLM竟然比Instruct LLM高出20%-AI.x社區

在TriviaQA上的任務指令II下，基礎版與指導+模板版之間的比較。這種比較展示了Llama 2 7B的基礎版和指導+模板版生成的回答之間的一個例子，其中基礎模型正確地識別了答案，而指導+模板版錯誤地將答案歸因于不同的演員。盡管如此，在兩種情況下，答案都與證據“一致”，因為每項證據都包含了生成的答案。斜體文本表示模板。

RAG生成任務：Base LLM竟然比Instruct LLM高出20%-AI.x社區

實驗結果顯示，在RAG任務中，基礎模型在沒有額外的指令特定微調的情況下，平均性能比“instruct”模型高出20%。這一發現挑戰了關于“instruct”LLMs在RAG應用中優越性的普遍假設。進一步的調查揭示了更復雜的情況，提出了對RAG和評估程序的更廣泛討論的需求。

在NQ和TriviaQA上任務指令I的準確度。縮寫C和I分別表示指導模型的聊天版和指導版。后綴T表示使用模板來構建其回答的指導模型。準確度是在不同檢索文檔級別的報告。除了部分例外的Mistral，所有基礎模型在性能上都大幅度超過了它們的指導版本。

在NQ和TriviaQA上，需要提供證明的任務指令II的準確度。縮寫C和I分別表示指導模型的聊天版和指導版。后綴T表示使用模板來構建其回答的指導模型。準確度是在不同檢索文檔級別的報告。在所有考慮的情況下，基礎模型在性能上都大幅度超過了它們的指導版本。

RAG生成任務：Base LLM竟然比Instruct LLM高出20%-AI.x社區

盡管“instruct”模型在遵循任務指令方面更為有效，但它們在準確拒絕回答（即當檢索文檔中不包含答案時回答NO-RES）方面的表現不如基礎模型（備注：這地方的結論貌似與實驗數據不匹配，有需要小伙伴自行評測哈）。此外，當不要求模型在答案不出現在檢索文檔中時回答NO-RES時，基礎模型仍然表現更好，這表明監督微調和對齊過程可能對模型在RAG任務中的能力產生了負面影響。

從參數化記憶中回憶 - Llama 2 7B - TriviaQA。報告的是參數化記憶回憶率，定義為模型在檢索文檔不包含正確答案的情況下仍能正確回答的實例數，除以答案不在上下文中出現的次數。（左）如圖1所示的任務指令I；（右）無拒絕設置，即不指定在檢索文檔中不包含答案時回答NO-RES（如圖6所示的示例）。在這種情況下，兩個模型版本的參數化記憶回憶率都有所提高。

RAG生成任務：Base LLM竟然比Instruct LLM高出20%-AI.x社區

圖6：在NQ上，任務指令I下的基礎版與指導版，不允許拒絕回答。這張圖展示了在不允許拒絕回答的設置下的回答情況，即模型不需要在檢索文檔中不包含答案時回答NO-RES。它比較了Falcon 7B的基礎版和指導版。基礎模型準確地識別出“Rocky”（洛奇）是1976年奧斯卡最佳影片獎的獲獎者，而指導版錯誤地引用了“Network”（電視臺）。

RAG生成任務：Base LLM竟然比Instruct LLM高出20%-AI.x社區

在整個RAG流程中，除了Generation，還涉及Embedding、Indexing等等，PaperAgent團隊RAG專欄進行過詳細的歸納總結：高級RAG之36技（術），可私信留言試看：RAG專欄。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems

本文轉載自??PaperAgent??

標簽

贊

收藏

回復

舉報

回復

相關推薦

LLM和RAG技術的比較探索

51CTO技術棧 ? 4067瀏覽 ? 0回復
通過檢索增強生成(RAG) 增強LLM的實戰演練

51CTO內容精選 ? 3680瀏覽 ? 0回復
AAAI前主席Subbarao Kambhampati：LLM-Modulo框架助力大模型完成規劃任務！

AIGC最前線 ? 3060瀏覽 ? 0回復
HippoRAG：協同LLM、KG與PPR的新型開源檢索框架，R@5比RAPTOR提高28%

PaperAgent ? 1.0w瀏覽 ? 0回復
無限的場景窗口會扼殺LLM微調和RAG嗎？

51CTO內容精選 ? 3345瀏覽 ? 0回復
【LLM】CRAG - 綜合性RAG基準測試

sbf_2000 ? 4813瀏覽 ? 0回復
如何訓練LLM自動在RAG和參數記憶之間進行選擇

51CTO內容精選 ? 2906瀏覽 ? 0回復
應用程序任務驅動：詳細解析LLM的評估指標

51CTO內容精選 ? 3673瀏覽 ? 0回復
LLM 合并新思路：進化算法+零訓練->新任務

amei2000go ? 3185瀏覽 ? 0回復
如何讓LLM學會"試錯" | LLM竟然學會了"自我反省"，它真的有自我意識嗎？

sbf_2000 ? 2752瀏覽 ? 0回復
使用MCTS顯著提升LLM在復雜任務的推理能力

arnoldzhw ? 6704瀏覽 ? 0回復
支持20+視覺任務，多項SOTA！可擴展多任務視覺基礎模型LaVin-DiT：融合時空VAE與DiT

angel ? 2450瀏覽 ? 0回復
20大LLM安全防護機制詳解：保障AI模型的安全、倫理和責任

Halo咯咯 ? 4952瀏覽 ? 0回復
多模態RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 3478瀏覽 ? 0回復
多模態RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

AI科技論談 ? 3620瀏覽 ? 0回復
高效抽取PDF文件打造RAG，從LlamaParse轉向PymuPDF4llm

AI科技論談 ? 3348瀏覽 ? 0回復
MIT：LLM的思考方式竟然和大腦相似

AIGC前沿技術追蹤 ? 2684瀏覽 ? 0回復
LLM合集：MiniMax-01 開源，性能比肩 GPT-4o，上下文窗口領先 20-32 倍

AIPaperDaily ? 2469瀏覽 ? 0回復
小紅書 NoteLLM：用于筆記推薦和標簽生成的 LLM

amei2000go ? 6069瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Doc2X：為知識庫RAG接上高精度文檔解析的“智能引擎” 2天前發布
RAG-Anything：全面的一體化多模態文檔處理 RAG 系統 2天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： RichRAG框架：為用戶提供豐富全面且令人滿意的回答

下一篇：文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級

社區精華內容

目錄

主站蜘蛛池模板：青久草视频| 欧美久久视频 | 精品国产欧美一区二区 | 不卡欧美| 国产免费视频 | 欧美性受xxxx白人性爽 | 一二三四在线视频观看社区 | 日韩中文字幕在线观看 | 国产成人一区在线 | 国产九九精品视频 | 亚洲天堂久久新 | 亚洲第一免费播放区 | 国产成人免费视频网站高清观看视频 | 国产精品自拍啪啪 | 亚洲成人一区二区三区 | 中文字幕在线剧情 | 黄网站涩免费蜜桃网站 | 日韩电影中文字幕 | 久久久久国产精品一区二区 | 午夜精品久久久久久久99黑人 | 久久午夜国产精品www忘忧草 | 国产亚洲欧美日韩精品一区二区三区 | 国产成人精品高清久久 | 九九九久久国产免费 | 亚洲高清电影 | 久久久精品综合 | 欧美影院| 色综合久久天天综合网 | 成在线人视频免费视频 | 久久精品一级 | 91久久精品日日躁夜夜躁欧美 | 日韩精品在线网站 | 国产福利在线视频 | 久久香蕉精品视频 | 国产精品一区二区三区久久 | 黑人巨大精品欧美一区二区一视频 | 99精品国产一区二区三区 | 中文字幕成人av | 亚洲婷婷一区 | 国产欧美在线播放 | 国产99热在线|

<code id="uy8mq"><wbr id="uy8mq"></wbr></code>

<bdo id="uy8mq"></bdo>