成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<wbr id="mgwou"><sup id="mgwou"></sup></wbr><kbd id="mgwou"></kbd>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

英偉達新研究：上下文長度虛標嚴重，32K性能合格的都不多

作者：量子位 2024-06-03 14:24:00

人工智能新聞

新基準名為RULER，包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”，即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

無情戳穿“長上下文”大模型的虛標現象——

英偉達新研究發現，包括GPT-4在內的10個大模型，生成達到128k甚至1M上下文長度的都有。

但一番考驗下來，在新指標“有效上下文”上縮水嚴重，能達到32K的都不多。

新基準名為RULER，包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”，即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

這項研究被學者評價為“非常有洞察力”。

不少網友看到這項新研究后，也非常想看到上下文長度王者玩家Claude和Gemini的挑戰結果。（論文中并未覆蓋）

一起來看英偉達是如何定義“有效上下文”指標的。

測試任務更多、更難

要評測大模型的長文本理解能力，得先選個好標準，現圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么僅評估了模型檢索能力，要么受限于先驗知識的干擾。

所以英偉達剔除的RULER方法，一句話概括就是“確保評估側重于模型處理和理解長上下文的能力，而不是從訓練數據中回憶信息的能力”。

RULER的評測數據減少了對“參數化知識”的依賴，也就是大模型在訓練過程中已經編碼到自身參數里的知識。

具體來說，RULER基準擴展了流行的“大海撈針”測試，新增四大類任務。

檢索方面，從大海撈針標準的單針檢索任務出發，又加入了如下新類型：

多針檢索（Multi-keys NIAH, MK-NIAH）：上下文中插入多個干擾針，模型需檢索指定的那一個
多值檢索（Multi-values NIAH, MV-NIAH）：一個鍵（key）對應多個值（values），模型需要檢索出與特定鍵關聯的所有值。
多查詢檢索（Multi-queries NIAH, MQ-NIAH）：模型需根據多個查詢在文本中檢索出相應的多個針。

除了升級版檢索，RULER還增加了多跳追蹤（Multi-hop Tracing）挑戰。

具體來說，研究人員提出了變量追蹤（VT），模擬了指代消解（coreference resolution）的最小任務，要求模型追蹤文本中變量的賦值鏈，即使這些賦值在文本中是非連續的。

挑戰第三關是聚合（Aggregation），包括：

常見詞匯提取（Common Words Extraction, CWE）：模型需要從文本中提取出現次數最多的常見詞匯。
頻繁詞匯提取（Frequent Words Extraction, FWE）：與CWE類似，但是詞匯的出現頻率是根據其在詞匯表中的排名和Zeta分布參數α來確定的。

挑戰第四關是問答任務（QA），在現有閱讀理解數據集（如SQuAD）的基礎上，插入大量干擾段落，考查長序列QA能力。

各模型上下文實際有多長？

實驗階段，如開頭所述，研究人員評測了10個聲稱支持長上下文的語言模型，包括GPT-4，以及9個開源模型開源模型Command-R、Yi-34B、Mixtral（8x7B）、Mixtral（7B）、ChatGLM、LWM、Together、LongChat、LongAlpaca。

這些模型參數規模范圍從6B到采用MoE架構的8x7B不等，最大上下文長度從32K到1M不等。

在RULER基準測試中，對每個模型評測了13個不同的任務，覆蓋4個任務類別，難度簡單到復雜的都有。對每項任務，生成500個測試樣例，輸入長度從4K-128K共6個等級（4K、8K、16K、32K、64K、128K）。

為了防止模型拒絕回答問題，輸入被附加了answer prefix，并基于recall-based準確性來檢查目標輸出的存在。

研究人員還定義了“有效上下文長度”指標，即模型在該長度下能保持與基線Llama-7B在4K長度時的同等性能水平。

為了更細致的模型比較，使用了加權平均分數（Weighted Average, wAvg）作為綜合指標，對不同長度下的性能進行加權平均。采用了兩種加權方案：

wAvg(inc)：權重隨長度線性增加，模擬以長序列為主的應用場景
wAvg(dec):權重隨長度線性減小，模擬以短序列為主的場景

來看結果。

普通大海撈針和密碼檢索測試看不出差距，幾乎所有模型在其聲稱的上下文長度范圍內均取得滿分。

而使用RULER，盡管很多模型聲稱能夠處理32K token或更長的上下文，但除了Mixtral外，沒有模型在其聲稱的長度上保持超過Llama2-7B基線的性能。

其他結果如下，總的來說，GPT-4在4K長度下表現最佳，并且在上下文擴展到128K時顯示出最小的性能下降（15.4%）。

開源模型中排名前三的是Command-R、Yi-34B和Mixtral，它們都使用了較大的基頻RoPE，并且比其它模型具有更多的參數。

此外，研究人員還對Yi-34B-200K模型在增加輸入長度（高達256K）和更復雜任務上的表現進行了深入分析，以理解任務配置和失敗模式對RULER的影響。

他們還分析了訓練上下文長度、模型大小和架構對模型性能的影響，發現更大的上下文訓練通常會帶來更好的性能，但對長序列的排名可能不一致；模型大小的增加對長上下文建模有顯著好處；非Transformer架構（如RWKV和Mamba）在RULER上的表現顯著落后于基于Transformer的Llama2-7B。

更多細節，感興趣的家銀們可以查看原論文。

論文鏈接：https://arxiv.org/abs/2404.06654

責任編輯：張燕妮來源：量子位

英偉達模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：黄色一级特级片 | 国产激情视频在线观看 | 日本午夜一区二区三区 | 精品动漫一区 | 国产欧美日韩一区 | 国产精品福利一区二区三区 | 中文字幕在线二区 | 国产福利视频导航 | 亚洲精品免费在线观看 | 国产一区久久久 | 日韩一区三区 | 成人不卡视频 | 午夜久久av | 日本视频免费观看 | 免费观看黄色一级片 | 亚洲精品一区二区三区免 | 亚洲在线一区 | 亚洲视频在线一区 | 久久精品福利视频 | 国产一区二区成人 | 久久精品中文 | 日韩精品在线网站 | 黄色成人国产 | a在线视频 | 欧洲亚洲视频 | 国产成人免费在线观看 | 午夜精品影院 | 九九99久久 | 久久久久中文字幕 | 视频1区| 一区二区三区影院 | 久久久婷婷 | 亚洲一页 | 久久这里只有精品首页 | a亚洲精品 | 国产成人精品网站 | 日韩中文字幕2019 | 另类在线| 亚洲综合国产精品 | 国产专区在线 | 午夜一区二区三区在线观看 |

<em id="qscmg"><abbr id="qscmg"></abbr></em><rt id="qscmg"><wbr id="qscmg"></wbr></rt>

<code id="qscmg"><sup id="qscmg"></sup></code>

<samp id="qscmg"></samp><dl id="qscmg"></dl><samp id="qscmg"><button id="qscmg"></button></samp>

<samp id="qscmg"><del id="qscmg"></del></samp>