Qwen2.5更新百萬超長上下文，推理速度4.3倍加速，網(wǎng)友：RAG要過時了

作者：量子位 2024-11-20 09:36:00

一口氣讀三本《三體》不費事，并且45秒左右就能完整總結(jié)出這69萬token的主要內(nèi)容

國產(chǎn)大模型，最近有點卷。

這不，剛在寫代碼這事兒上刷新SOTA，Qwen2.5系列又雙叒突然更新了——

一口氣讀三本《三體》不費事，并且45秒左右就能完整總結(jié)出這69萬token的主要內(nèi)容，be like：

還真不是糊弄事兒，“大海撈針”實驗顯示，這個全新的Qwen2.5-Turbo在100萬token上下文中有全綠的表現(xiàn)。

也就是說，這100萬上下文里，有細節(jié)Qwen2.5-Turbo是真能100%捕捉到。

沒錯，Qwen2.5系列新成員Qwen2.5-Turbo，這回主打的就是支持超長上下文，并且把性價比卷出了花兒：

關(guān)鍵是還便宜：0.3元/1M tokens。這意味著，在相同成本下，Qwen2.5-Turbo可以處理的token數(shù)量是GPT-4o-mini的3.6倍。

看到這波更新，不少網(wǎng)友直接爆出了***：

有人直言：這么長的上下文這么快的速度下，RAG已經(jīng)過時了。

還有人開啟大贊特贊模式：現(xiàn)在在開源領(lǐng)域，Qwen比Llama還值得期待了。

上下文能力擴展不影響性能

除了一口氣啃下3本長篇小說，Qwen官方還展示了Qwen2.5-Turbo超長上下文的更多實用功能。

比如快速掌握一整個代碼庫的信息。

如Demo所演示，上傳包含Qwen-Agent倉庫中所有代碼文件的文本文件（13.3萬token），只需幾秒鐘，大模型就能讀完全部代碼并準確輸出各種細節(jié)。

用戶：這個存儲庫中有哪些Agent子類？提供它們的文件路徑。
Qwen2.5-Turbo：

一口氣讀7篇論文，完成論文分類、論文摘要，也不在話下：

我們也實際測試了一下。可以看到，在沒有給任何提示的情況下，Qwen2.5-Turbo能準確掌握不同論文的細節(jié)信息，并完成對比分析。

除了大海撈針實驗之外，Qwen團隊還在更復(fù)雜的長文本任務(wù)上測試了Qwen2.5-Turbo的能力。

包括：

RULER：基于大海撈針的擴展基準，任務(wù)包括在無關(guān)上下文中查找多“針”或回答多個問題，或找到上下文中出現(xiàn)最多或最少的詞。數(shù)據(jù)的上下文長度最長為128K。
LV-Eval：要求同時理解眾多證據(jù)片段的基準測試。Qwen團隊對LV-Eval原始版本中的評估指標進行了調(diào)整，避免因為過于嚴苛的匹配規(guī)則所導(dǎo)致的假陰性結(jié)果。數(shù)據(jù)的上下文長度最長為128K。
Longbench-Chat：一個評價長文本任務(wù)中人類偏好對齊的數(shù)據(jù)集。數(shù)據(jù)的上下文長度最長為100K。