成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

可擴展性長文本評測集——Ada-LEval 詳細解讀

發布于 2024-7-8 07:45
瀏覽
0收藏

長文本評測

隨著大模型能夠處理的上下文信息越來越多,達到百萬級別的詞匯量,人們對于模型長文本能力的研究興趣也隨之增長。

這些工作基于一些開源 / 自建的數據集構建樣本,其構建評測集上的性能已可以一定程度上反映模型的能力。

可擴展性長文本評測集——Ada-LEval 詳細解讀-AI.x社區

因此,在長文本評測這一工作里,我們認為一個好的長文本評測集應該具備以下性質:

  • 樣本長度可控:測試樣本的上下文長度最好是可控的,以便于測量和比較模型在各個上下文長度下的能力變化(若測試集由不同上下文長度的測試樣例混雜而成,則難以精確測量某一長度下的性能)。
  • 全文理解:測試任務應當需要完整閱讀 / 分析整段文本后才能成功完成。一個反例是:此前存在一些長文本總結任務,模型閱讀特定部分文本(如開頭 + 結尾)后即可達到不錯性能。
  • 指標簡明清晰:測試集的指標應當做到定義清晰,其數值可以定量反映模型的性能。
  • 能測試超長上下文:評測集需要能夠測試模型在超長上下文上的性能。目前主流 API 模型的上下文長度已來到了 128,000 token 甚至更長,而早期的一些長文本評測集最長僅覆蓋到 32,000 token。

Ada-LEval評測集

基于以上思考,司南 OpenCompass 團隊構建了長文本評測集——Ada-LEval。Ada-LEval 包含 2 個任務:TSort (文本排序)、BestAnswer (選擇最佳答案),每個任務覆蓋了 1,000 到 128,000 token 的可變長度。

基于 Ada-LEval,我們對一些大語言模型進行了評測。我們發現,大部分的長文本模型在這一測試集上的表現都不盡如意。同時,在 32,000+ token 的上下文長度下,所有模型 (含 GPT-4-Turbo) 都未能取得顯著優于 Random Guess 的結果

可擴展性長文本評測集——Ada-LEval 詳細解讀-AI.x社區



任務1:TSort(文本排序)

TSort(文本排序)

定義:對于一篇長文本 (例如小說),我們從中截取部分分為 N 段,打亂次序提供給 LLM (截取部分的前后臨近段落也會作為上下文提供),并要求 LLM 輸出段落的正確順序。

指標:若輸出的順序完全正確,則記為正確;否則記為錯誤。RandomGuess 的正確率期望為 (1 / N!)。

控制樣本長度:可以通過調整 N,或是每個排序段落的長度來控制測試樣本長度。

處理細節:對于 TSort 任務,我們的原始數據來源于 BookSum 數據集。在構建測試集的過程中,我們去除了文本中的段落號、章節號等顯式的位置信息。

在實驗過程中,我們僅嘗試了 N=4 的設定,并沒有繼續拓展排序段落的數量。因為我們發現,這一任務對于 LLM 來說,似乎異常困難:在全部實驗中,僅 GPT-4 在短上下文設定 (2,000 or 4,000 tokens) 下取得了顯著優于 Random Guess 的精度。在大部分情況下,LLM 能夠跟隨指令并輸出一個 N 排列,但順序并不正確。

另外,由于我們的原始數據均為公開數據,大概率被用于 LLM 預訓練。因此,在測試過程中,我們僅使用生成式的測試,而非基于 PPL。

可擴展性長文本評測集——Ada-LEval 詳細解讀-AI.x社區

任務2:BestAnswer(選擇最佳答案)

定義:給定一個問題,和大量備選答案,要求 LLM 指出問題的最佳答案。在這個任務中,我們的問題來源于 StackOverflow,并以提問者最終選擇的答案作為最佳答案。

指標:若模型選到了正確答案,則記為正確;否則記為錯誤。RandomGuess 的正確率期望為 (1 / M),M 為備選答案數量。

控制樣本長度:可以通過調整備選答案數量來控制樣本長度。

處理細節:

  1. 我們認定提問者最終選擇的答案作為最佳答案。在這個答案之后依然可能有新的回答,此時這些回答不能作為備選答案中的負樣本。
  2. 挑選負樣本時,應當足夠具有迷惑性。實踐中,我們會優先挑選同一問題下的其他答案作為負樣本。在利用其他問題下的答案作為負樣本的時候,我們會保證兩個問題具有一定的相似性 (即 Tag 有所重疊)。

在 BestAnswer 任務上,大部分模型在測試樣例長度較短時 (1,000 / 2,000 tokens) 都顯示了顯著優于 Random Guess 的性能。在 8,000 tokens 以上,所有開源模型的精度下降至 Random Guess 水平;在 32,000 tokens 以上,GPT-4 的精度下降至 Random Guess 水平。

可擴展性長文本評測集——Ada-LEval 詳細解讀-AI.x社區

總結

在這項工作中,我們提供了 4 個 API 模型與 6 個開源模型在 Ada-LEval 的評測結果。

論文:??https://arxiv.org/pdf/2404.06480.pdf??

代碼:???https://github.com/open-compass/Ada-LEval??

本文轉載自 ??司南評測體系??,作者: 司南OpenCompass

已于2024-7-8 07:54:19修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲国产成人精品一区二区 | 99久久精品一区二区毛片吞精 | 国产精品免费观看视频 | 国产一级特黄视频 | 韩国av一区二区 | 国产日韩一区二区 | 在线色网| 久久大全| 午夜视频一区二区三区 | 毛片免费看 | 国产高清在线精品 | 91人人看| 亚洲精选一区二区 | 国产精品美女久久久久aⅴ国产馆 | 天天插日日操 | 欧美日韩亚| 国产在线二区 | 国产精品美女久久久久久久网站 | 激情麻豆视频 | 久久国产精品无码网站 | 99久久久国产精品 | 中文字幕在线观看 | 99久久夜色精品国产亚洲96 | 91精品国产综合久久久久蜜臀 | 成人免费共享视频 | 蜜桃免费一区二区三区 | 欧美成人精品 | 久久综合久色欧美综合狠狠 | 91夜色在线观看 | 精品国产一区二区在线 | 国产精品视频不卡 | 国产精品久久 | 99精品国产成人一区二区 | 欧美日韩大片 | 久久精品亚洲 | 91在线免费视频 | 97人人澡人人爽91综合色 | 国产精品久久久久久久久久久久冷 | 国精品一区二区 | 成年人精品视频在线观看 | 婷婷色在线播放 |