英偉達開源大模型對齊框架—NeMo-Aligner

Aceryt

發布于 2024-5-15 10:38

瀏覽

0收藏

隨著ChatGPT、Midjourney等大模型產品的影響力、應用場景越來越多，為了確保輸出的內容安全、可靠，對齊成為開發人員的關注重點和難點。

但現在的模型參數少則幾百億多則上千億，想通過傳統的監督式微調方法來完成對齊效果往往不理想。

因此，英偉達的研究人員開源了安全對齊框架NeMo-Aligner。這是一個包括人類反饋進行強化學習（RLHF）、直接偏好優化（DPO）、SteerLM和自我對弈微調等技術合集，可幫助開發人員極大提升模型的安全性能和穩定輸出。

開源地址：??https://github.com/nvidia/nemo-aligner??

論文地址：https://arxiv.org/abs/2405.01481v1

英偉達開源大模型對齊框架—NeMo-Aligner-AI.x社區

下面為大家介紹兩個效果比較好、常用的NeMo-Aligner對齊方法。

RLHF

RLHF是NeMo-Aligner框架的核心模塊之一，主要通過人類反饋來引導大模型學習，使其輸出更符合人類的價值觀和偏好，同時采用了近端策略算法（PPO）來優化語言模型的行為。

英偉達開源大模型對齊框架—NeMo-Aligner-AI.x社區

訓練過程主要分為三個階段：初始階段，從預訓練的基礎模型開始，進行監督微調。在監督微調中，使用輸入提示和期望的回復對基礎模型的參數進行更新，使其盡可能地模仿期望的回復。這一階段是為了確保基礎模型能夠生成符合用戶指令的回復。

獎勵模型訓練階段，使用一組設定好的人類偏好數據，例如，問答的特定輸出格式，來訓練一個獎勵模型，以最大化預測獎勵與人類偏好一致的可能性。通常，會在監督微調的模型之上初始化一個線性獎勵模型頭部，并在其上進行訓練。

英偉達開源大模型對齊框架—NeMo-Aligner-AI.x社區

策略優化訓練，基于訓練好的獎勵模型，通過PPO進行優化訓練。在訓練過程中，使用基于KL散度的正則化項，防止策略偏離起始點太遠并利用獎勵模型的盲點。

SteerLM

SteerLM主要通過引導大模型的生成流程來實現安全對齊，使用了一種“引導信號”的指導策略。可將開發者希望的輸出模式注入到模型的訓練中，以引導模型生成更符合預期的響應。

首先，需要準備一個包含輸入提示和期望輸出的數據集對。這些輸入提示可以是用戶提供的指令或問題，而期望輸出是模型生成的響應。

英偉達開源大模型對齊框架—NeMo-Aligner-AI.x社區

根據輸入提示和期望輸出，生成引導信號。引導信號可以采用不同的方式生成，例如，使用規則、基于規則的策略或者其他的啟發式方法，可以控制生成文本的風格、主題、情感等內容。

例如，在多輪AI對話中，可以指導模型生成符合用戶期望的回答；在文本摘要任務中，可以指導模型生成更加準確和有信息量的摘要內容；在機器翻譯任務中，可以使模型生成更加準確和流暢的翻譯結果。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/yib6ITPC9slRY0tPgvy-yw??

標簽

開源

模型

贊

回復

舉報

回復

相關推薦

英偉達股價暴跌！或與 Llama 3 發布有關？

開發者阿橙 ? 3559瀏覽 ? 0回復
Ctrl-X：可控文生圖新框架（加州大學&英偉達）

angel ? 4543瀏覽 ? 0回復
英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o

duhorse ? 3098瀏覽 ? 0回復
又來一個RAG：RankRAG，英偉達RAG新思路

大語言模型論文跟蹤 ? 2925瀏覽 ? 0回復
英偉達開源新大模型：訓練數據減少40倍，算力節省1.8倍

Aceryt ? 3177瀏覽 ? 0回復
谷歌擁抱英偉達！推出云端GPU，把AI引進無服務器，開源大模型愛好者福利來了

51CTO技術棧 ? 2630瀏覽 ? 0回復
英偉達重磅開源超強大模型--Nemotron

Aceryt ? 3325瀏覽 ? 0回復
英偉達出手即王炸！重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術棧 ? 2237瀏覽 ? 0回復
五大主流開源大模型RAG評估框架詳解

玄姐聊AGI ? 7073瀏覽 ? 0回復
一夜小模型王座易主！英偉達發布超強小模型，性能、速率、緩存全面超越Llama3.2！

51CTO技術棧 ? 2208瀏覽 ? 0回復
英偉達NVLM多模態大模型細節和數據集

大模型自然語言處理 ? 2714瀏覽 ? 0回復
“大模型+知識圖譜”雙輪驅動的見解、技術和評估 - 英偉達的GraphRAG

知識圖譜科技 ? 3080瀏覽 ? 0回復
博通連續30天暴漲，英偉達將遭平替？AMD優勢不夠，英偉達卡生產過剩

51CTO技術棧 ? 2753瀏覽 ? 0回復
英偉達開源世界大模型，完美模擬物理世界！

Aceryt ? 3340瀏覽 ? 0回復
英偉達發布天氣模型CorrDiff，預測效率大漲

Aceryt ? 1968瀏覽 ? 0回復
英偉達全力發展AI Agent！開源專屬大模型，最強AI工廠

Aceryt ? 1774瀏覽 ? 0回復
英偉達開源通用機器人大模型—GR00T N1

Aceryt ? 1901瀏覽 ? 0回復
英偉達開源15T數據集：32萬個機器人訓練軌跡

Aceryt ? 1655瀏覽 ? 0回復
英偉達押注Agent新基建！AI專屬搜索引擎問世

探索AGI ? 1758瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

英偉達開源大模型對齊框架—NeMo-Aligner

目錄