成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何分析GPT4作為裁判自動化評測其他大模型的效果

人工智能
實際上,LLM-as-a-judge提供了兩個關鍵的好處:可擴展性和可解釋性,可以減少了對人類參與的需求,實現了可擴展的基準和快速迭代。此外,LLM充當裁判不僅提供分數還提供解釋,使他們的輸出可以解釋。

在當前大模型領域,最為普遍或者最為認可的評估方式就是使用參數更大或者GPT模型作為評估基準,用于評估其他的大模型,以滿足自動化評測的目標。

但是即使是使用GPT4等模型進行打分,也存在著各種問題,比如,使用GPT對兩個候選結果進行打分時,如果出現交換問題次序就可能產生相互沖突的結果,即:GPT模型評測時可能會偏向于某個特定位置的回答。

在文章《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》提出了3種LLM-as-a-judge的實現方式,它們可以獨立或組合實施:

1)成對比較(pairwise comparison)

成對比較的思想是采用下圖的prompt,使用評估LLM的能力,針對問題和給出的不同答案,來確定哪個答案更為合適或者宣布一個平局。

這種方案實際上就是內容理解的一種綜合應用,也是當前內容生成的主要研究方向之一。

圖片圖片

2)單一答案的評分(single answer grading)

單一答案評分思想在于:是讓LLM評委直接給一個答案打分單一答案。這種方案實際上在評測集的使用中非常適用,比如評估測試集的毒性,或者生成內容與問題的相關性等等。

圖片圖片

3)參考資料指導下的評分(Reference-guided grading)

參考資料指導下的評分的思想是,在某些情況下,提供一個可參考解決方案,這個方案的提供對于評價體系可能是有益的,主要是給出一個評分的樣例。

實際上,在吳恩達老師的prompt指導中也提到了類似的能力,也就是通過示例提升LLM的生成效果。

prompt書寫最重要的原則就是詳細明確,其中涉及四個策略: 

1)合理使用分隔符 

2)確定輸出格式要求,如JSON或者HTML 

3)使用GPT對執行的必要條件進行校驗,類似于開發過程中的參數校驗 

4)給出一定的示例讓GPT按照用戶的需求進行輸出

圖片圖片

可以看到這些方法,本質上都是基于prompt在工作,也存在不同的問題,例如:

對于pairwise comparison的評價數量會猛增,當待評估數量增加時,pairwise comparison可能缺乏可擴展性;

單一答案評分可能無法辨別特定對子之間的細微差別,而且其結果可能變得不穩定,因為如果裁判模型發生變化,絕對分數可能比pairwise comparison結果波動更大。

更進一步的,以上的方式都對充當評委的大模型本身提出了很高的要求。

實際上,LLM-as-a-judge提供了兩個關鍵的好處:可擴展性和可解釋性,可以減少了對人類參與的需求,實現了可擴展的基準和快速迭代。此外,LLM充當裁判不僅提供分數還提供解釋,使他們的輸出可以解釋。

那么,其工作的基本原理是什么呢?

早期的工作工作《Large Language Models are not Fair Evaluators》(https://arxiv.org/pdf/2305.17926v1.pdf)表明,大型語言模型(如GPT-4)評估不同模型表現時存在系統性偏見,通過改變不同模型的答案在評價模版中的順序,可以輕松篡改它們的質量排名,從而扭曲評估結果。如下圖所示:

圖片圖片

《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》這一工作則更進一步地分成了Position bias位置偏見、Verbosity bias啰嗦性偏見、elf-enhancement bias自我增強的偏見以及Limited capability in grading math and reasoning questions對數學和推理問題的評分能力有限四個方面,具體如下:

1)Position bias,位置偏見

與上一個工作類似,該工作也發現,GPT4表現出傾向于某些位置上的結果,比如a放在b前,a的得分會更高。

圖10顯示了一個位置偏差的例子。當問答助理A被放在第一個位置時,GPT-4認為A更好,但當我們交換A和B的位置時,它的判決就會改變。

圖片圖片

此外,為了分析位置上的具體偏見,通過調用兩次GPT-3.5,并設置溫度為0.7(保證多樣性),在MT-bench中為每個第一輪問題構建兩個類似的答案,然后使用兩個不同的提示語嘗試三個LLM:"default "表示默認提示,"rename "是對默認提示中的助手進行重命名,以查看偏見是在位置還是名字上。

如下表2所示,所有模型都表現出強烈的位置偏見。大多數LLM評委偏愛第一個位置。有趣的是,Claude-v1也表現出名字上的偏向,這使得它偏向于 "助理A",這一點在 "重命名"提示中得到了說明。而位置偏差可能是非常顯著的,只有GPT-4在超過60%的情況下輸出一致的結果。

圖片圖片

不過,工作中也提到,這個測試是具有挑戰性的,因為答案是非常相似的,有時甚至對人類來說是無法區分的,位置偏差在某些情況下不太突出。至于這種偏差的起源,懷疑它可能源于訓練數據或Transformer從左到右的固有結構。

2)Verbosity bias,啰嗦性偏見

啰嗦性偏見,指的是GPT4偏愛較長的、啰嗦的回答,即使不如較短的回答清晰、高質量或準確。

那么,這個是怎么發現的?

該工作使用MT-bench的模型答案設計了一個 "重復列表 "攻擊。

具體的,首先從MT-bench中選擇了23個包含編號列表的示范答案,然后要求GPT-4在不增加任何新信息的情況下重寫清單,并將重寫后的新清單插入到原始清單的開頭,從而使其變得不必要的冗長。

例如,如果原始回答包含5個項目,那么新的回應將包含10個項目,但前5個項目是由原來的5個項目改寫的。

圖11展示了一個"重復列表 "攻擊的例子,除了兩個重新措辭的片段(以紅色標示)之外,助理A的答案與助理B完全相同,如果LLM法官認為新的回答比舊的回答好,那么定義該攻擊是成功的。

圖片圖片

現在我們來看測試結果,表3顯示了在這種攻擊下LLM法官的失敗率,表明所有的LLM都可能容易出現言語偏差,盡管GPT-4的防御效果明顯好于其他。

圖片圖片

作為校準評估,該工作發現LLM評委能夠正確判斷相同的答案,大模型總是對兩個相同的答案返回一個平局,但不能通過更高級的 "重復列表 "攻擊。

也可以看到,GPT-3.5和Claude-v1都顯示出對較長和重復的答案的動詞性偏見,只有GPT-4成功地檢測到這種攻擊。

3)Self-enhancement bias,自我增強的偏見

自我增強的偏見,指的是GPT4可能偏愛自己產生的答案的效果,誰跟它更接近,他就給誰打高分。

該工作從統計學的角度來研究這種影響,下圖3(b)顯示了在不同的LLM評委和人類的情況下,六個模型的獲勝率(不含平局)。

圖片圖片

可以看到,與人類相比,確實觀察到一些大模型偏愛某些模型。例如:

GPT-4對自己有利,勝率高出10%;Claude-v1對自己有利,勝率高出25%。此外,他們也青睞其他模型,但GPT-3.5并不青睞自己。

不過,需要坦白的是,由于數據有限且差異較小,這些研究無法確定這些模型是否表現出自我增強的偏見,而且進行對照研究是具有挑戰性的,因為不能輕易地重新措辭以適應另一個模型的風格而不改變數據質量本身。

4)Limited capability in grading math and reasoning questions,對數學和推理問題的評分能力有限

這個是很自然的,讓一群小學生來評價高中生的表現是一件很扯淡的事情。我們都知道,GPT4的數學和推理能力有限,這導致它無法對這類問題進行評分,因為他們往往不知道正確答案。

如圖12所示,在默認的提示下,GPT-4顯示出對數學問題進行評分的有限能力。盡管能夠回答問題本身,但它的判斷受到了給定答案的影響,導致了黃色顯示的算術錯誤。

圖片圖片

又如,圖13顯示了GPT-4對推理題評分能力有限的一個例子。盡管GPT-4知道如何解決這個問題(如果分開問的話),但它做出了錯誤的判斷,說兩個助手的錯誤答案都是正確的。

圖片圖片

上面主要針對GPT4的一些評判誤區或者說影響最終評判結果的原因和背后原理,在真實使用場景中,如果發現結果牽強人意或者一直不符合預期,可能也和這些原因相關,可以考慮是否需要做一定修改。

本文主要來自于http://lechangxia.cc/gpt4/411.html相關的內容,我也做了一定的修改。

責任編輯:武曉燕 來源: 陸隊長
相關推薦

2023-08-02 08:44:33

人工智能Kaggle科研繪圖

2024-02-27 11:45:59

2023-04-20 14:43:38

Linux模型GPT4

2023-05-09 15:41:03

2025-03-12 14:49:29

2024-06-11 09:20:48

2023-05-08 15:36:50

模型AI

2023-03-16 10:38:37

GPT4ChatGPT

2024-04-08 10:12:20

GPT4AgentAI

2025-03-07 08:41:50

2021-07-13 17:38:49

算法語言模型GPT-4

2023-08-14 17:38:58

百度文心一言大模型評測

2023-04-04 08:01:35

2024-03-14 11:55:33

AI訓練

2023-07-05 09:57:11

2024-03-05 09:16:32

AI模型GPT-4

2021-07-20 12:21:20

自動化威脅瑞數信息

2023-08-17 08:00:00

2023-03-16 10:00:56

GPT-4OpenAI

2024-09-06 13:00:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91看片网 | 欧美精品在线播放 | 中文字幕精品一区久久久久 | 欧美成人精品激情在线观看 | 亚洲在线一区二区 | 免费黄色录像视频 | 成人深夜福利 | 国产精品欧美精品 | 久久大香 | 在线看av的网址 | 一区二区三区四区不卡 | 在线一区视频 | 欧美日韩在线一区 | 精品国产乱码久久久久久a丨 | 韩日精品一区 | 亚洲精品久久久久久久久久久久久 | 亚洲一区二区三区视频 | 精品香蕉一区二区三区 | 中文字幕一二三区 | 午夜在线精品 | 国产精品成av人在线视午夜片 | 最近最新中文字幕 | 国产麻豆一区二区三区 | 国产精品免费一区二区三区四区 | 亚洲夜射 | 日本一区二区不卡视频 | 最新中文在线视频 | 97超碰中文网 | 久久久久久久久国产精品 | 国产一区二区三区免费 | 欧美日韩专区 | 久久99精品久久久久久狂牛 | 国产精品久久久久无码av | 午夜国产一级 | 欧美日韩精品免费观看 | 日韩欧美精品在线 | 91精品国产综合久久久久 | av黄色在线 | 国产日韩一区二区 | 亚洲 中文 欧美 日韩 在线观看 | 天天操夜夜艹 |