成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟LongRoPE v2:幾乎無損的上下文擴展!

發布于 2025-3-6 09:15
瀏覽
0收藏

論文筆記,LongRoPE2: Near-Lossless LLM Context Window Scaling, https://arxiv.org/pdf/2502.20082。 longrope v1的升級工作,應對長度外推的。

longrope v1簡單回顧,核心思想是非均勻插值+漸進式微調:

  • 對比 NTK、YaRN 之類的插值方式,LongROPE 的每個頻率都有自己的縮放因子。所以先進行基于困惑度的進化搜索,得到每個 rope 維度的最佳縮放因子。
  • 在應用當前階段的 Rescaled RoPE 后,對模型進行 微調,讓模型權重適應新的上下文窗口大小和位置編碼方式。
  • 4k -> 256k -> 2048k,上一階段微調后的模型作為下一階段的 起始模型,重復這個過程。

微軟LongRoPE v2:幾乎無損的上下文擴展!-AI.x社區

v2 覺著 v1版本,忽略了對高維度位置編碼的重點訓練,傳統的困惑度,是對整個文檔的所有 token 計算平均值,這存在兩個問題:

  • 噪音干擾: 長文檔通常包含大量不重要或低依賴的 token,這些 token 的困惑度對評估長上下文能力貢獻不大,反而會干擾對關鍵 token 的評估。
  • 無法有效捕捉長上下文能力: 平均困惑度無法有效區分模型是否真正理解了長上下文,并提取了關鍵信息。

所以v2提出了,“針驅動” 的 困惑度,更聚焦于聚焦于長文檔中需要深度上下文理解的關鍵 “針” (Needle) token,只計算這些 “針” token 的困惑度。從而更精準地評估模型的長上下文能力。

最后,為了解決 LongRoPE v1 中存在的短上下文性能下降問題,LongRoPE2 引入了 混合上下文窗口訓練 方法。。

  • 短上下文窗口:用于訓練模型在原始短上下文下的性能,使用原始 RoPE 編碼,通過注意力掩碼防止跨文檔的注意力。
  • 長上下文窗口:用于訓練模型適應 rescaled RoPE 和長上下文,使用 LongRoPE2 搜索到的最佳縮放因子。

最后LongRoPE2 是第一個能夠 在擴展上下文窗口到 128k 的同時,仍然保持超過 97% 原始短上下文性能 的 RoPE rescaling 方法。

且只需 10B tokens 的微調數據 即可將 LLaMA3-8B 的上下文窗口擴展到 128k,而 Meta 的 LLaMA3.1 擴展到 128k 需要 800B tokens 的訓練。

微軟LongRoPE v2:幾乎無損的上下文擴展!-AI.x社區

本文轉載自??NLP前沿??,作者:NLP前沿

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩在线中文字幕 | 亚洲综合二区 | 伊人最新网址 | 综合久久av | 久久99精品久久久久久国产越南 | 久久99精品久久久久久青青日本 | 黄色a三级 | av喷水 | 国产美女精品 | 美女激情av| 中文字幕一区二区三区在线乱码 | 久草新视频| 精品国产一区二区三区久久狼黑人 | 久久免费精品 | 日韩一区二区在线视频 | 国产精品视频免费看 | 欧美成人精品二区三区99精品 | 涩涩视频在线播放 | 韩国av一区二区 | 91九色视频 | 亚洲欧美中文日韩在线v日本 | a黄视频| 国产精品亚洲片在线播放 | 国产精品久久久久久影视 | 激情av免费看 | 成人二区三区 | 国产精品一区二区视频 | 国产在线一区二区三区 | 亚洲免费网站 | 久久久久黄色 | 国产精品视频一 | 久久久人成影片一区二区三区 | 国产一区二区精华 | 亚洲三区在线观看 | 成人亚洲视频 | 精品国产乱码久久久久久丨区2区 | 国产精品无码永久免费888 | 国产精品成人国产乱一区 | 岛国av免费观看 | 日韩电影在线 | 久久久久久久久中文字幕 |