成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大型語言模型如何教會自己遵循人類指令?

譯文
人工智能
大型語言模型(LLM)自我改進的領域之一是指令微調(IFT),也就是讓大型語言模型教會自己遵循人類指令。

譯者 | 李睿

審校 | 重樓

如今,人們對能夠使大型語言模型(LLM)在很少或沒有人為干預的情況下改進功能的技術越來越感興趣。大型語言模型(LLM)自我改進的領域之一是指令微調(IFT),也就是讓大型語言模型教會自己遵循人類指令。

指令微調(IFT)是ChatGPT和Claude等大型語言模型(LLM)獲得成功的一個主要原因。然而,指令微調(IFT)是一個復雜的過程,需要耗費大量的時間和人力。Meta公司和紐約大學的研究人員在共同發表的一篇論文中介紹了一種名為“自我獎勵語言模型”的新技術,這種技術提供了一種方法,使預訓練的語言模型能夠創建和評估示例,從而教會自己進行微調。

這種方法的優點是,當多次應用時,它會繼續改進語言模型。自我獎勵語言模型不僅提高了它們的指令遵循能力,而且在獎勵建模方面也做得更好。

自我獎勵的語言模型

對大型語言模型(LLM)進行微調以適應指令遵循的常用方法是基于人類反饋強化學習(RLHF)。

在人類反饋強化學習(RLHF)中,語言模型根據從獎勵模型收到的反饋來學習優化其反應。獎勵模型是根據人類注釋者的反饋進行訓練的,這有助于使語言模型的響應與人類的偏好保持一致。人類反饋強化學習(RLHF)包括三個階段:預訓練大型語言模型(LLM),創建基于人類排名輸出的獎勵模型,以及強化學習循環,其中大型語言模型(LLM)根據獎勵模型的分數進行微調,以生成與人類判斷一致的高質量文本。

圖1人類反饋強化學習(RLHF)圖1人類反饋強化學習(RLHF)

另一種方法是直接偏好優化(DPO),在這種方法中,語言模型可以生成多個答案,并從人類那里接收直接反饋得知哪一個答案更可取。在直接偏好優化(DPO)中,不需要創建單獨的獎勵模型。

雖然這些技術已被證明是有效的,但它們都受到人類偏好數據的大小和質量的限制。人類反饋強化學習(RLHF)具有額外的限制,即一旦訓練完成,獎勵模型就會被凍結,其質量在大型語言模型(LLM)的整個微調過程中都不會改變。

自我獎勵語言模型(SRLM)的思想是創建一種克服這些限制的訓練算法。研究人員在論文中寫道:“這種方法的關鍵是開發一個擁有訓練過程中所需的所有能力的代理,而不是將它們分成不同的模型,例如獎勵模型和語言模型。”

自我獎勵語言模型(SRLM)有兩個主要功能:首先,它可以對用戶的指令提供有益且無害的響應。其次,它可以創建和評估指令和候選響應的示例。

這使得它能夠在人工智能反饋(AIF)上迭代訓練自己,并通過創建和訓練自己的數據來逐步改進。

在每次迭代中,大型語言模型(LLM)在遵循指令方面變得更好。因此,它在為下一輪訓練創建示例方面也有所改進。

自我獎勵語言模型(SRLM)的工作原理

圖2自我獎勵語言模型(SRLM)創建自己的訓練示例并對其進行評估圖2自我獎勵語言模型(SRLM)創建自己的訓練示例并對其進行評估

自我獎勵的語言模型從在大量文本語料庫上訓練的一個基礎大型語言模型(LLM)開始。然后,該模型在一小部分人類注釋的示例上進行微調。其種子數據包括指令微調(IFT)示例,其中包括成對的指令和響應對。

為了改進結果,種子數據還可以包括評估微調(EFT)示例。在評估微調(EFT)中,為大型語言模型(LLM)提供一條指令和一組響應。它必須根據響應與輸入提示的相關性對響應進行排序。評估結果由推理描述和最終分數組成,這些例子使大型語言模型(LLM)能夠發揮獎勵模型的作用。

一旦在初始數據集上進行了訓練,該模型就可以為下一次訓練迭代生成數據。在這個階段,模型從原始的指令微調(IFT)數據集中采樣示例,并生成一個新的指令提示符。然后,它為新創建的提示生成幾個候選響應。

最后,該模型采用LLM-as-a-Judge對響應進行評估。LLM-as-a-Judge需要一個特殊的提示,包括原始請求、候選人回復和評估回復的說明。

圖3 LLM-as-a-judge提示圖3 LLM-as-a-judge提示

一旦模型創建了指令示例并對響應進行了排序,自我獎勵語言模型(SRLM)就會使用它們來創建人工智能反饋訓練(AIFT)數據集可以使用這些說明以及回答和排名分數來創建偏好數據集。有兩種方法可以組裝訓練數據集。一個是該數據集可以與直接偏好優化(DPO)一起使用,以教會語言模型區分好響應和壞響應。另一個是可以創建一個僅包含最高排名響應的監督微調(SFT)數據集。研究人員發現,加入排名數據可以提高訓練模型的性能。

一旦新創建的示例被添加到原始數據集中,就可以再次訓練模型。這個過程將重復多次,每次循環都會創建一個模型,該模型既能更好地遵循指示又能更好地評估響應。

研究人員寫道:“重要的是,由于該模型既可以提高其生成能力,又可以通過相同的生成機制作為自己的獎勵模型,這意味著獎勵模型本身可以通過這些迭代得到改進我們相信,這可以提高這些學習模式未來自我完善的潛力上限,消除了制約瓶頸。”

實驗自我獎勵語言模型(SRLM)

研究人員以Llama-2-70B為基礎模型測試了自我獎勵語言模型。作為指令微調的種子數據,他們使用了包含數千個指令微調示例的Open Assistant數據集。Open Assistant還提供了具有多個排序響應的指令示例,這些指令可用于評估微調(EFT)。

他們的實驗表明,自我獎勵語言建模的每一次迭代都提高了大型語言模型(LLM)遵循指令的能力。此外,大型語言模型(LLM)在獎勵建模方面變得更好,這反過來又使它能夠為下一次迭代創建更好的訓練示例。他們在AlpacaEval基準測試上的測試表明,三次迭代自我獎勵語言模型(SRLM)的Llama-2表現優于Claude 2、Gemini Pro和GPT-4.0613。

但是,這種方法也有局限性。像其他允許大型語言模型(LLM)自我改進的技術一樣自我獎勵語言模型(SRLM)可能導致模型陷入“獎勵黑客”陷阱,在這個陷阱中,它開始優化響應以獲得所需的輸出,但其原因是錯誤的。獎勵黑客攻擊可能導致不穩定的語言模型在現實世界的應用程序和不同于其訓練示例的情況下表現不佳。也不清楚這個過程可以在多大程度上根據模型大小和迭代次數進行縮放。

但是自我獎勵語言模型(SRLM)具有明顯的優勢,可以為訓練數據提供更多信息。如果已經有一個帶注釋的訓練示例的數據集,那么可以使用自我獎勵語言模型(SRLM)來提高大型語言模型(LLM)的能力,而無需向數據集添加更多示例。

研究人員寫道:“我們相信這是一個令人興奮的研究方向,因為這意味著該模型能夠在未來的迭代中更好地為改進指令遵循分配獎勵——這是一種良性循環。雖然這種改進在現實情況下可能會飽和,但它仍然允許持續改進的可能性,而人類的偏好通常用于建立獎勵模型和指令遵循模型。”

原文標題:How language models can teach themselves to follow instructions,作者:Ben Dickson

責任編輯:華軒 來源: 51CTO
相關推薦

2024-03-29 15:43:32

大型語言模型人工智能

2024-04-16 16:14:01

人工智能LLMRAG

2025-03-07 11:06:06

大型語言模型AICoD

2024-11-21 16:30:21

2023-11-17 15:44:01

2024-05-30 08:40:41

大型語言模型LLM人工智能

2024-12-23 08:03:13

2023-06-19 16:05:22

大型語言模型人工智能

2020-09-30 17:12:09

人工智能技術數據

2023-05-15 13:43:08

ChatGPT語言模型

2023-06-09 08:00:00

QLoRa語言模型微調

2024-10-07 13:29:26

2024-12-12 09:11:58

2024-09-26 10:23:46

2024-06-13 10:52:43

2023-11-06 08:38:50

LLM語言模型ChatGPT

2023-03-26 00:24:15

2023-07-10 16:01:56

2025-03-13 12:09:27

2025-05-08 05:00:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久一区 | 日本污视频 | 亚洲精品免费在线观看 | 日本精品一区二区 | 亚洲91 | 黄色免费网址大全 | 狠狠操网站 | 欧美成人手机视频 | 91精品国产91久久久久久丝袜 | 亚洲国产一区二区在线 | 亚洲精选久久 | 99re在线视频 | 成人亚洲综合 | 欧美日日日日bbbbb视频 | 中文字幕在线网 | www.99re| 国产在线视频一区二区董小宛性色 | 夜夜爽99久久国产综合精品女不卡 | 国产精品成人一区二区三区 | 日日操夜夜操视频 | 国产精品爱久久久久久久 | 天天操夜夜拍 | 国产福利在线 | 中文字幕在线观看国产 | 久久久久无码国产精品一区 | 亚洲精品高清视频在线观看 | 中文字幕日韩一区 | 成人性生交大免费 | 国产女人第一次做爰毛片 | 国产高潮好爽受不了了夜色 | 国产综合精品 | 日本五月婷婷 | 一级黄色片日本 | 久久日本 | 国产精品永久免费视频 | 日韩无 | 99热碰 | 欧美日韩国产一区二区三区 | 国产精品久久久久久238 | 国产激情视频 | 成人夜晚看av |