成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG工程如何評測? 原創

發布于 2024-10-15 13:58
瀏覽
0收藏

?本篇主要講RAG工程的評測方法。

本篇屬于RAG系列,上一篇整理了RAG的基礎,沒看過的小伙伴也可以參考~本篇來繼續介紹RAG工程如何評測。下面是一個快捷目錄。

一、RAG評估方法

二、RAG 的關鍵指標和能力

三、RAG的評估框架

 一、RAG評估方法

有兩種方法評估RAG:獨立評估端到端

1. 獨立評估

獨立評估就是對檢索模塊和生成模型分布評估。

1)檢索模塊

評估RAG檢索模塊性能的指標主要用于衡量系統(如搜索引擎、推薦系統或信息檢索系統),即根據查詢評估有效性。

具體指標包括:命中率 (Hit Rate)、平均排名倒數 (MRR)、歸一化折扣累積增益 (NDCG)、精確度 (Precision) 等。這塊跟推薦系統的評價指標相同。

  • 命中率 (Hit Rate)

檢索結果中用戶實際檢索的實體詞或者關鍵詞所占的比例。

  • 平均排名倒數 (MRR)

是用來衡量返回結果的排名質量。MRR考慮了用戶第一次遇到相關檢索的排名;

結果列表中,第一個結果匹配,分數為1,第二個匹配分數為0.5,第n個匹配分數為1/n,如果沒有匹配的句子分數為0。最終的分數為所有得分之和,再求平均。

計算方法

對于每個查詢,首先計算倒數排名(即第一個相關檢索的排名的倒數),如果沒有相關檢索結果,則倒數排名為0。然后,計算所有查詢的倒數排名的平均值。

RAG工程如何評測?-AI.x社區

  • 歸一化折扣累積增益 (NDCG)

NDCG用于衡量排名質量。它考慮了所有相關結果的排名,并根據排名對其賦予不同的權重(排名越靠前,權重越大)。

計算方法

首先計算DCG(Discounted Cumulative Gain),然后將其標準化。

RAG工程如何評測?-AI.x社區

2)端到端評估

RAG 對特定輸入生成的最終響應進行評估,主要是模型生成的答案與輸入查詢的相關性和一致性。

  • 對無標簽的內容評估評價指標:答案的準確性、相關性和無害性
  • 有標簽的內容評估評價指標:準確率 (Accuracy) 和精確匹配 (EM)

準確率比較簡單,主要具體講一下精準匹配 (EM)。

精確匹配是指模型給出的答案與參考答案完全一致時的評價指標。  

如果模型的答案與參考答案完全相同,則EM得分為1;否則為0。 

計算公式:  

EM = 1,如果答案與參考答案完全一致;  

EM = 0,如果答案與參考答案不一致。

 二、RAG 的關鍵指標和能力

三個關鍵指標:答案的準確性、答案的相關性和上下文的相關性。

四個關鍵能力:主要是看抗噪聲能力、拒絕無效回答能力、信息綜合能力和反事實穩健性。

 三、RAG的評估框架

這里介紹的主要是RAGAS 和 ARES。

1. RAGAS

RAGAS 是一個基于簡單手寫提示的評估框架,通過這些提示全自動地衡量答案的準確性、 相關性和上下文相關性。

算法原理: 

1) 答案忠實度評估:利用大語言模型 (LLM) 分解答案為多個陳述,檢驗每個陳述與上下文 的一致性。即根據支持的陳述數量與總陳述數量的比例,計算出一個“忠實度得分”。

2) 答案相關性評估:使用大語言模型 (LLM) 創造可能的問題,并分析這些問題與原始問題的相似度。答案相關性得分是通過計算所有生成問題與原始問題相似度的平均值來得出的。 

3)上下文相關性評估:運用大語言模型 (LLM) 篩選出直接與問題相關的句子,以這些句子占上下文總句子數量的比例來確定上下文相關性得分。

2. ARES

ARES 的目標是自動化評價 RAG 系統在上下文相關性、答案忠實度和答案相關性三個方面的性能。

ARES 減少了評估成本,通過使用少量的手動標注數據和合成數據,并應用預測驅動推理 (PDR) 提供統計置信區間,提高了評估的準確性。

算法原理: 

1)生成合成數據集:ARES 首先使用語言模型從目標語料庫中的文檔生成合成問題和答案,創 建正負兩種樣本。 

2)訓練大語言模型 (LLM) 裁判:然后,ARES 對輕量級語言模型進行微調,利用合成數據集訓練它們以評其上下文相關性、答案忠實度和答案相關性。 

3)基于置信區間對RAG系統排名:最后,ARES 使用這些裁判模型為 RAG 系統打分,并結合手動標注的驗證集,采用 PPI 方法生成置信區間,從而可靠地評估RAG 系統的性能。

?

本文轉載自公眾號瓦力算法學研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/sts_izj1OXqN2W6L4kNtXg???

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲国产成人在线视频 | 无码日韩精品一区二区免费 | 免费a大片 | 最新免费黄色网址 | 黄色免费在线观看网址 | 高清18麻豆| 亚洲一区二区三区四区五区中文 | 国产精品黄 | 精品乱码一区二区 | 日韩中文字幕在线不卡 | 精品九九在线 | 91精品国产乱码久久久久久久久 | 日韩二三区| 亚洲一区二区三区在线 | 天堂中文资源在线 | 久久久91精品国产一区二区三区 | 久久久久久久一区 | 粉嫩一区二区三区国产精品 | 毛片免费视频 | 97碰碰碰 | 美女131mm久久爽爽免费 | 中文字幕成人在线 | 99热视 | 成人在线不卡 | 一本大道久久a久久精二百 国产成人免费在线 | 国产日韩精品视频 | 精品动漫一区 | 97热在线 | 天天搞天天操 | 美女在线观看国产 | 国产精品不卡 | 欧美日本亚洲 | 成人在线播放网址 | 午夜影晥 | 在线亚洲欧美 | 亚洲精品一区二区三区蜜桃久 | 日韩国产中文字幕 | 91av入口| 婷婷激情在线 | 日本电影网站 | 麻豆视频国产在线观看 |