Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！

發布于 2024-4-29 10:07

瀏覽

0收藏

盡管許多大型語言模型（LLMs）能夠處理長篇輸入，但它們仍然難以充分利用長文本中的信息，這被稱為“中間丟失（lost-in-the-middle）”挑戰。這個問題可能是源于長文本訓練期間缺乏明確的監督，未能強調長文本中任何位置都可能包含關鍵信息。基于這一直覺，提出了一種名為INformation-INtensive（IN2，信息密集）訓練的方法，這是一種純粹的數據驅動解決方案，用以克服“中間丟失”的問題，達到GPT-4-Turbo同等水平！

探測結果表明，IN2訓練顯著克服了骨干模型的“中間丟失”問題。它還能增強開源模型的性能，使其達到與GPT-4-Turbo等專有大型語言模型（LLMs）相當甚至更加穩健的性能水平。

Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！-AI.x社區

Information-Intensive訓練

訓練數據構建

IN2訓練的目標是明確教會模型，長文本中的任何位置都可能包含關鍵信息。利用了一個合成的長文本問答數據集，其中的答案需要（1）對合成的長文本（4K-32K個token）中的一個短片段（約128個token）有細粒度的信息意識，（2）整合和推理兩個或更多短片段中的信息。

IN2訓練的數據構建過程，旨在提高細粒度信息意識（上部），以及信息的整合和推理（下部）

Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！-AI.x社區圖片

FILM-7B訓練細節（Filling-the-Middle，填補中間）

使用上述構建的訓練數據，對Mistral-7B-Instruct-v0.2模型進行進一步的微調，得到FILM-7B模型。

IN2訓練采用指令調整范式：長文本和問題用作指令，答案部分的損失用于更新模型。

Information-Intensive評測

為了全面評估FILM-7B利用長文本的能力，設計了三種探測任務，涵蓋了各種上下文風格（文檔、代碼和結構化數據上下文）和信息檢索模式（前向、后向和雙向檢索）。

在VAL探測中的三個任務，檢索模式由檢索關鍵詞與要檢索的信息之間的相對位置決定。

Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！-AI.x社區

探測任務結果表明，FILM-7B能夠在其32K的上下文窗口中穩健地檢索信息。

FILM-7B在VAL探測中的性能以及與(a) Mistral、(b) LongAlign和(c) InternLM2的比較。X軸是上下文中的相對位置（約32K個token）。

Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！-AI.x社區

除了這些探測任務，FILM-7B在真實世界的長文本任務上顯著提高了性能（例如，在NarrativeQA上，F1分數從23.5提高到26.9）

Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！-AI.x社區

FILM-7B同時在短文本任務上保持了相當的性能（例如，在MMLU上的準確率保持在59.3、59.2，GSM8K，MATH上則有不少提升）。

Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！-AI.x社區

Make Your LLM Fully Utilize the Context
https://arxiv.org/pdf/2404.16811
https://github.com/microsoft/FILM/tree/main

本文轉載自??PaperAgent??，作者：PaperAgent

標簽

FILM-7B

模型

GPT-4

已于2024-4-29 19:21:12修改

贊

回復

舉報

回復

相關推薦

7B超越百億級，北大開源aiXcoder-7B最強代碼大模型，企業部署最佳選擇

輕薄滴假象 ? 4725瀏覽 ? 0回復
Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負谷歌

輕薄滴假象 ? 2628瀏覽 ? 0回復
GPT-4 Turbo更新：視覺能力+無限制使用

echo_ning ? 4223瀏覽 ? 0回復
大模型參數量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.3w瀏覽 ? 0回復
8B文字多模態大模型指標逼近GPT4V，字節、華師、華科聯合提出TextSquare

輕薄滴假象 ? 2796瀏覽 ? 0回復
AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 3126瀏覽 ? 0回復
MIT最新力作：用GPT-3.5解決時間序列異常檢測問題

海因斯DK ? 4610瀏覽 ? 0回復
大語言模型llama-2-7b推理服務實戰

zhcs333 ? 4965瀏覽 ? 0回復
DeepSeek Coder V2開源發布，首超GPT4-Turbo代碼能力

Aceryt ? 7700瀏覽 ? 0回復
全面對標GPT-4 Turbo，訊飛星火V4.0 重磅發布！

51CTO技術棧 ? 2587瀏覽 ? 0回復
如何解決模型的災難性遺忘問題？清華大學提出新方法！

AI論文解讀 ? 5289瀏覽 ? 0回復
8B尺寸達到GPT-4級性能！北大等提出醫療專家模型訓練方法

duhorse ? 2339瀏覽 ? 0回復
RegMix-用回歸任務解決大模型數據混合問題

NLP工作站 ? 3452瀏覽 ? 0回復
大模型解決實際問題的能力，大模型的產品化過程

AI探索時代 ? 2863瀏覽 ? 0回復
語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員

angel ? 2704瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！！（擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 4792瀏覽 ? 0回復
多模態RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 3468瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

Aceryt ? 2542瀏覽 ? 0回復
清華發布GLM 4！32B參數模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 2639瀏覽 ? 0回復

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！

目錄