成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<small id="pmngm"><tbody id="pmngm"><strong id="pmngm"></strong></tbody></small>

<cite id="pmngm"><dl id="pmngm"></dl></cite>

<abbr id="pmngm"></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法

發布于 2024-9-19 12:14

瀏覽

0收藏

引言：探索小規模語料庫中的知識獲取

在現代的自然語言處理領域，大規模預訓練模型已經顯示出了在各種知識密集型任務中的卓越性能。這些模型通常依賴于大量的、結構化不強的互聯網文本數據進行訓練，從而獲取豐富的世界知識。然而，這種知識獲取方式存在一個明顯的問題：數據效率低下。為了學習特定的事實，模型必須在成百上千的不同表述中進行訓練，這在面對小規模、特定領域的語料庫時尤為突出，因為在這些語料庫中，每個事實可能很少出現或僅出現一次。

為了解決這一問題，本文提出了一種新的方法——合成持續預訓練（synthetic continued pretraining）。這種方法首先利用小規模的特定領域語料庫合成一個更易于學習的大規模語料庫，然后在此合成語料庫上繼續進行預訓練。通過這種方式，模型能夠在沒有訪問源文檔的情況下回答問題和遵循與源文檔相關的指令。

本研究的核心貢獻包括提出了一種新的從小規模語料庫中獲取知識的方法，并通過實驗驗證了該方法的有效性。此外，本文還構建了一個簡單的數學模型來分析合成數據增強算法，并展示了如何通過合成數據增強來“重新排列”知識，以實現更高效的學習。

論文標題: Synthetic Continued Pretraining

機構: Stanford University

論文鏈接:??https://arxiv.org/pdf/2409.07431.pdf??

研究背景與動機

在自然語言處理領域，大規模預訓練模型已經顯示出了在獲取世界知識方面的顯著能力，這使得它們能夠執行知識密集型任務。然而，這種知識獲取過程是數據低效的，模型需要在成百上千的不同表達中學習到特定的事實。這在適應特定領域的小規模文檔集時尤為挑戰，因為在這些文檔中，某些事實可能很少出現或只出現一次。

為了解決從小規模語料庫中獲取知識的問題，我們提出了一種使用合成數據繼續預訓練的方法。這種方法首先使用小規模的領域特定語料庫來合成一個更適合學習的大規模語料庫，然后在這個合成的語料庫上進行繼續預訓練。這種方法的核心在于，通過合成數據增強算法來增加數據的多樣性，從而提高模型的數據效率和學習能力。

斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法-AI.x社區

方法介紹：EntiGraph合成數據增強算法

1. 算法概述

EntiGraph是一種基于實體的數據增強算法，它通過分析文檔中的實體及其關系來合成新的文本數據。該算法首先從源文檔中提取關鍵實體，然后利用語言模型生成關于這些實體之間關系的文本描述，通過這種方式迭代地填充知識圖譜。

2. 實體提取

EntiGraph首先對文檔進行實體提取，識別出文檔中的關鍵實體，如人名、地點、概念等。這一步是通過向預訓練的語言模型輸入文檔并請求它標識出文檔中的主要實體來完成的。

3. 實體描述生成

對于每個提取出的實體，EntiGraph使用語言模型生成該實體在文檔上下文中的詳細描述。這包括實體的定義、它在文檔中的作用以及與其他實體的關系等。

4. 關系分析

在實體描述生成之后，EntiGraph進一步分析不同實體之間的關系。算法會探索實體對或實體組合之間的潛在聯系，并生成描述這些關系的文本。這一步驟幫助模型理解和學習實體之間復雜的相互作用和依賴。

通過這三個步驟，EntiGraph能夠從一個小規模的、信息密度高的語料庫中生成一個大規模的、信息豐富且多樣化的合成語料庫，為語言模型的繼續預訓練提供了更豐富的訓練材料。這種方法不僅增強了模型對特定領域知識的理解，還提高了模型在面對新領域或少見事實時的適應能力和表現。

實驗設置

在本研究中，我們提出了一種名為“合成持續預訓練”（synthetic continued pretraining）的方法，旨在通過合成數據增強來提高語言模型從小規模語料庫中學習的效率。我們使用了一個名為EntiGraph的數據增強算法，該算法通過分析和合成文檔中的實體關系來生成新的文本數據。

斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法-AI.x社區

實驗設計與評估方法

我們的實驗基于標準的閱讀理解數據集（QuALITY, Pang et al. (2022)）。在這個設置中，我們首先從一個包含265本書籍的小規模語料庫（總共1.3M個token）中，使用EntiGraph生成了600M個合成token。接著，我們在這些合成token上繼續預訓練一個名為Llama 3 8B的語言模型，并在QuALITY問題集上評估模型的問答準確性。

數據增強算法：EntiGraph

EntiGraph算法首先從源文檔中提取關鍵實體，然后利用語言模型生成關于這些實體的文本描述，以及這些實體之間的關系描述。這一過程包括三個步驟：

實體提?。簭奈臋n中識別出關鍵實體。
單實體描述：為每個實體生成詳細的文本描述。
關系分析：生成描述實體間相互關系的文本。

通過這種方法，我們能夠從一個高度濃縮的知識表示中生成一個大規模、多樣化的合成語料庫，為模型提供更豐富的學習材料。

主要實驗結果與分析

問答準確性評估

在使用EntiGraph生成的600M合成token進行預訓練后，我們觀察到模型在QuALITY問題集上的表現顯著提升。具體來說，模型的問答準確率從基線模型的39.49%提高到56.42%。這一結果表明，合成持續預訓練能夠有效地提高模型處理特定領域問題的能力。

與基線模型的比較

我們還將EntiGraph預訓練模型與兩個基線模型進行了比較：

原始語料預訓練（Raw CPT）：直接在原始QuALITY文章上進行預訓練。
重述語料預訓練（Rephrase CPT）：在重述后的QuALITY文章上進行預訓練。

結果顯示，EntiGraph預訓練模型在問答任務上的表現顯著優于這兩個基線模型，特別是與重述語料預訓練模型相比，EntiGraph模型展示了更好的知識獲取和應用能力。

斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法-AI.x社區

斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法-AI.x社區

斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法-AI.x社區

數據增強的影響

通過對比不同數量的合成token對模型性能的影響，我們發現模型的準確率與使用的合成token數量呈對數線性關系。這一發現支持了我們的假設：通過增加合成數據的多樣性和數量，可以有效地提升模型的學習效率和最終性能。

綜上所述，合成持續預訓練和EntiGraph數據增強算法在提高語言模型從小規模、專業領域語料庫中學習的效率方面顯示出了顯著的潛力。這些結果為未來在更廣泛的應用中使用合成數據生成技術提供了有價值的見解和證據。

總結

本研究提出了一種新穎的合成持續預訓練方法，通過EntiGraph算法生成高質量的合成數據，有效地支持了小規模語料庫上的知識學習。實驗結果表明，該方法能夠顯著提高模型在特定領域的表現，尤其是在閉書問答和指令遵循任務上。此外，我們還探討了合成數據的多樣性和質量、模型的泛化能力以及計算效率和可擴展性等未來的研究方向。

通過合成持續預訓練，我們不僅提高了模型在特定領域的表現，還為未來在數據受限環境下的模型訓練提供了新的思路和方法。希望未來的研究能夠在此基礎上，進一步探索和優化合成數據生成和模型預訓練的方法，以應對更廣泛的應用場景和挑戰。

本文轉載自 ??AI論文解讀??，作者：柏企

標簽

贊

收藏

回復

舉報

回復

相關推薦

斯坦福大學Gordon Wetzstein教授團隊提出全息增強現實眼鏡

AIGC最前線 ? 4950瀏覽 ? 0回復
斯坦福新研究：RAG能幫助LLM更靠譜嗎？

duhorse ? 2738瀏覽 ? 0回復
值得細讀的八個視覺大模型生成式預訓練方法

angel ? 6074瀏覽 ? 0回復
LLM 預訓練語料、預處理和數據集索引、加載總結

amei2000go ? 6517瀏覽 ? 0回復
香港中文大學提出新算法MoFO助力AI記住預訓練知識！

AI論文解讀 ? 3986瀏覽 ? 0回復
谷歌前CEO斯坦福大學演講內容泄露，直指 AI 是強者之間的游戲，“富者更富，窮者唯有盡力而為”

51CTO技術棧 ? 3467瀏覽 ? 0回復
破解AI多模態理解難題：浙江大學與字節跳動聯手推出Molecule-Space新方法

AI論文解讀 ? 2966瀏覽 ? 0回復
斯坦福大學和倫敦大學學院聯合打造多智能體系統中的安全防線，應對大模型即時感染

xuxiangda ? 3560瀏覽 ? 0回復
多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds'，讓AI更懂人類思維

AI論文解讀 ? 3400瀏覽 ? 0回復
英偉達&斯坦福大學發布GRS：從真實世界觀測中生成機器人仿真任務

angel ? 3250瀏覽 ? 0回復
斯坦福大學：VideoAgent基于大語言模型的視頻QA系統

大語言模型論文跟蹤 ? 2453瀏覽 ? 0回復
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 2486瀏覽 ? 0回復
蘋果開源通用視覺模型：創新訓練方法，超1000顆星

Aceryt ? 1894瀏覽 ? 0回復
OpenAI 發布GPT-4.5：更大規模、更知識淵博的模型，預訓練的巔峰之作，COT升級為COD

Syrupup ? 3492瀏覽 ? 0回復
UniversalRAG：跨多種模態和粒度語料庫的檢索增強生成

AIRoobt ? 1345瀏覽 ? 0回復
FineWeb：大規模篩選網絡，獲取最優質（LLM預訓練）文本數據

AIRoobt ? 4028瀏覽 ? 0回復
斯坦福大學：2025 年人工智能指數報告

歐米伽未來研究所 ? 1467瀏覽 ? 0回復
深度強化學習賦能城市消防優化，中科院團隊提出DRL新方法破解設施配置難題

HyperAI超神經 ? 984瀏覽 ? 0回復
斯坦福大學CS25：大語言模型推理（Reasoning）

chengganfei ? 1000瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

深度剖析：為何擴散模型會成為語言模型的未來？ 2025-03-14 07:45:15發布
一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體 2025-03-04 10:43:21發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：增強問答文本檢索的排序（RAG）模型，你學會了嗎？

下一篇： 3D語言模型的新突破：解鎖虛擬現實中的'幻覺'問題

社區精華內容

目錄

主站蜘蛛池模板：久草青青草 | 99热在线免费 | 无码一区二区三区视频 | 国产毛片久久久久久久久春天 | 精品影院 | 欧美中文字幕一区二区三区亚洲 | 精品亚洲一区二区三区 | 一区二区三区播放 | 91综合网| 精品美女久久久 | 可以看黄的视频 | 亚洲精品久久久久久久久久久 | 国产精品久久久久久久久免费樱桃 | www国产亚洲精品久久网站 | 日本不卡一区二区三区 | 一区二区免费视频 | 狠狠爱一区二区三区 | 天天成人综合网 | 国产亚洲精品综合一区 | 中文字幕亚洲一区 | 综合久| 国产精品亚洲成在人线 | 美女久久| 久久久久无码国产精品一区 | 久久久久久国产 | 在线观看成人免费视频 | 91精品国产手机 | 99日韩| 超碰成人av | 久久久www成人免费无遮挡大片 | 久久五月婷 | 欧美日韩毛片 | 一区视频在线播放 | 91久久精品一区二区二区 | 日本欧美在线 | 亚洲欧美在线观看 | 亚洲国产一区二区在线 | 国产伦一区二区三区 | 欧美不卡| 国产午夜精品一区二区三区在线观看 | 久久在线免费 |

<button id="ixegz"></button>

<abbr id="ixegz"><dl id="ixegz"></dl></abbr>