成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

人工智能 新聞
新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

無情戳穿“長上下文”大模型的虛標現象——

英偉達新研究發現,包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長度的都有。

但一番考驗下來,在新指標“有效上下文”上縮水嚴重,能達到32K的都不多。

新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

圖片

這項研究被學者評價為“非常有洞察力”。

圖片

不少網友看到這項新研究后,也非常想看到上下文長度王者玩家Claude和Gemini的挑戰結果。(論文中并未覆蓋)

圖片
圖片

一起來看英偉達是如何定義“有效上下文”指標的。

圖片

測試任務更多、更難

要評測大模型的長文本理解能力,得先選個好標準,現圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評估了模型檢索能力,要么受限于先驗知識的干擾。

所以英偉達剔除的RULER方法,一句話概括就是“確保評估側重于模型處理和理解長上下文的能力,而不是從訓練數據中回憶信息的能力”。

RULER的評測數據減少了對“參數化知識”的依賴,也就是大模型在訓練過程中已經編碼到自身參數里的知識。

具體來說,RULER基準擴展了流行的“大海撈針”測試,新增四大類任務。

圖片

檢索方面,從大海撈針標準的單針檢索任務出發,又加入了如下新類型:

  • 多針檢索(Multi-keys NIAH, MK-NIAH):上下文中插入多個干擾針,模型需檢索指定的那一個
  • 多值檢索(Multi-values NIAH, MV-NIAH):一個鍵(key)對應多個值(values),模型需要檢索出與特定鍵關聯的所有值。
  • 多查詢檢索(Multi-queries NIAH, MQ-NIAH):模型需根據多個查詢在文本中檢索出相應的多個針。

除了升級版檢索,RULER還增加了多跳追蹤(Multi-hop Tracing)挑戰。

具體來說,研究人員提出了變量追蹤(VT),模擬了指代消解(coreference resolution)的最小任務,要求模型追蹤文本中變量的賦值鏈,即使這些賦值在文本中是非連續的。

挑戰第三關是聚合(Aggregation),包括:

  • 常見詞匯提取(Common Words Extraction, CWE):模型需要從文本中提取出現次數最多的常見詞匯。
  • 頻繁詞匯提取(Frequent Words Extraction, FWE):與CWE類似,但是詞匯的出現頻率是根據其在詞匯表中的排名和Zeta分布參數α來確定的。

圖片

挑戰第四關是問答任務(QA),在現有閱讀理解數據集(如SQuAD)的基礎上,插入大量干擾段落,考查長序列QA能力。

各模型上下文實際有多長?

實驗階段,如開頭所述,研究人員評測了10個聲稱支持長上下文的語言模型,包括GPT-4,以及9個開源模型開源模型Command-R、Yi-34B、Mixtral(8x7B)、Mixtral(7B)、ChatGLM、LWM、Together、LongChat、LongAlpaca。

這些模型參數規模范圍從6B到采用MoE架構的8x7B不等,最大上下文長度從32K到1M不等。

在RULER基準測試中,對每個模型評測了13個不同的任務,覆蓋4個任務類別,難度簡單到復雜的都有。對每項任務,生成500個測試樣例,輸入長度從4K-128K共6個等級(4K、8K、16K、32K、64K、128K)。

圖片

為了防止模型拒絕回答問題,輸入被附加了answer prefix,并基于recall-based準確性來檢查目標輸出的存在。

圖片

研究人員還定義了“有效上下文長度”指標,即模型在該長度下能保持與基線Llama-7B在4K長度時的同等性能水平。

為了更細致的模型比較,使用了加權平均分數(Weighted Average, wAvg)作為綜合指標,對不同長度下的性能進行加權平均。采用了兩種加權方案:

  • wAvg(inc):權重隨長度線性增加,模擬以長序列為主的應用場景
  • wAvg(dec):權重隨長度線性減小,模擬以短序列為主的場景

來看結果。

普通大海撈針和密碼檢索測試看不出差距,幾乎所有模型在其聲稱的上下文長度范圍內均取得滿分。

而使用RULER,盡管很多模型聲稱能夠處理32K token或更長的上下文,但除了Mixtral外,沒有模型在其聲稱的長度上保持超過Llama2-7B基線的性能。

圖片

其他結果如下,總的來說,GPT-4在4K長度下表現最佳,并且在上下文擴展到128K時顯示出最小的性能下降(15.4%)。

開源模型中排名前三的是Command-R、Yi-34B和Mixtral,它們都使用了較大的基頻RoPE,并且比其它模型具有更多的參數。

圖片
圖片
圖片
圖片
圖片

此外,研究人員還對Yi-34B-200K模型在增加輸入長度(高達256K)和更復雜任務上的表現進行了深入分析,以理解任務配置和失敗模式對RULER的影響。

他們還分析了訓練上下文長度、模型大小和架構對模型性能的影響,發現更大的上下文訓練通常會帶來更好的性能,但對長序列的排名可能不一致;模型大小的增加對長上下文建模有顯著好處;非Transformer架構(如RWKV和Mamba)在RULER上的表現顯著落后于基于Transformer的Llama2-7B。

更多細節,感興趣的家銀們可以查看原論文。

論文鏈接:https://arxiv.org/abs/2404.06654

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-06-30 09:49:23

模型Meta

2023-11-13 18:19:54

模型訓練

2024-03-25 00:05:00

開源模型AI

2023-05-19 10:16:27

AIGPT-4

2023-07-11 10:02:23

2023-07-01 13:27:55

2024-09-30 14:10:00

2023-08-24 15:57:41

模型文檔檢索

2024-03-14 08:11:45

模型RoPELlama

2023-05-14 14:15:00

GPT-4AI

2017-05-11 14:00:02

Flask請求上下文應用上下文

2023-06-28 18:10:27

羊駝家族大模型集體進化

2023-07-24 12:27:08

論文斯坦福

2024-07-19 12:45:23

2024-05-30 13:20:12

2023-08-25 13:27:00

模型開源

2022-09-14 13:13:51

JavaScript上下文

2024-04-03 10:05:00

LLM性能基準測試

2023-10-11 13:21:12

模型數據

2023-08-29 12:45:32

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色一级特级片 | 国产激情视频在线观看 | 日本午夜一区二区三区 | 精品动漫一区 | 国产欧美日韩一区 | 国产精品福利一区二区三区 | 中文字幕在线二区 | 国产福利视频导航 | 亚洲精品免费在线观看 | 国产一区久久久 | 日韩一区三区 | 成人不卡视频 | 午夜久久av | 日本视频免费观看 | 免费观看黄色一级片 | 亚洲精品一区二区三区免 | 亚洲在线一区 | 亚洲视频在线一区 | 久久精品福利视频 | 国产一区二区成人 | 久久精品中文 | 日韩精品在线网站 | 黄色成人国产 | a在线视频 | 欧洲亚洲视频 | 国产成人免费在线观看 | 午夜精品影院 | 九九99久久 | 久久久久中文字幕 | 视频1区| 一区二区三区影院 | 久久久婷婷 | 亚洲一页 | 久久这里只有精品首页 | a亚洲精品 | 国产成人精品网站 | 日韩中文字幕2019 | 另类在线| 亚洲综合国产精品 | 国产专区在线 | 午夜一区二区三区在线观看 |