成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福新作:無(wú)指令調(diào)優(yōu)的指令遵循

人工智能 新聞
本文中,來(lái)自斯坦福大學(xué)的研究者更進(jìn)一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語(yǔ)言模型中產(chǎn)生,即通過(guò)并非明確設(shè)計(jì)的方法產(chǎn)生。

指令調(diào)優(yōu)(Instruction tuning)是一種優(yōu)化技術(shù),通過(guò)對(duì)模型的輸入進(jìn)行微調(diào),以使其更好地適應(yīng)特定任務(wù)。先前的研究表明,指令調(diào)優(yōu)樣本效率是很高效的,只需要大約 1000 個(gè)指令-響應(yīng)對(duì)或精心制作的提示和少量指令-響應(yīng)示例即可。

本文中,來(lái)自斯坦福大學(xué)的研究者更進(jìn)一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語(yǔ)言模型中產(chǎn)生,即通過(guò)并非明確設(shè)計(jì)的方法產(chǎn)生。本文發(fā)現(xiàn)了兩種執(zhí)行隱式指令調(diào)優(yōu)的適應(yīng)形式,與顯式指令調(diào)優(yōu)相比,它們似乎存在缺陷:(1)響應(yīng)調(diào)優(yōu),僅對(duì)響應(yīng)進(jìn)行訓(xùn)練;(2)單任務(wù)調(diào)優(yōu),僅對(duì)來(lái)自狹窄目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行訓(xùn)練,如詩(shī)歌生成。

圖片


  • 論文標(biāo)題:Instruction Following without Instruction Tuning
  • 論文地址:https://arxiv.org/pdf/2409.14254
  • 博客地址:https://nlp.stanford.edu/~johnhew/instruction-following.html

首先,該研究證明,響應(yīng)調(diào)優(yōu)(僅對(duì)響應(yīng)進(jìn)行訓(xùn)練而不對(duì)其指令進(jìn)行條件限制)足以產(chǎn)生指令遵循。特別是使用 LIMA 數(shù)據(jù)集進(jìn)行調(diào)優(yōu),在 AlpacaEval 2 上的評(píng)估表明,響應(yīng)調(diào)優(yōu)模型與指令調(diào)優(yōu)模型相比,有43%的勝率,在同等性能下則對(duì)應(yīng) 50% 的勝率。

響應(yīng)調(diào)優(yōu)不提供有關(guān)從指令到響應(yīng)映射的明確信息,只提供有關(guān)所需響應(yīng)分布的信息。這表明,指令-響應(yīng)映射可以在預(yù)訓(xùn)練期間學(xué)習(xí),但所有理想響應(yīng)的概率都太低而無(wú)法生成。

從響應(yīng)調(diào)優(yōu)的結(jié)果來(lái)看,指令調(diào)優(yōu)的關(guān)鍵部分是得到期望響應(yīng)的分布。然而,作者發(fā)現(xiàn)這也不重要。對(duì)單任務(wù)、窄域數(shù)據(jù)進(jìn)行微調(diào),例如將英語(yǔ)請(qǐng)求映射到Python片段,或者從詩(shī)歌標(biāo)題生成詩(shī)歌,也會(huì)產(chǎn)生廣泛的指令遵循行為。

也就是說(shuō),盡管訓(xùn)練只生成 Python 代碼或詩(shī)歌,但模型在收到指令后仍會(huì)生成傳記或食譜。例如,經(jīng)過(guò)詩(shī)歌調(diào)優(yōu)的 Llama-2-7B 在 AlpacaEval 2 中與經(jīng)過(guò)指令調(diào)優(yōu)的 Llama-2-7B 勝出 23.7%,而基礎(chǔ)模型勝出率為 2.4%。

總之,本文結(jié)果表明, 即使適應(yīng)方法本意不在于產(chǎn)生指令遵循行為,它們也可能隱式地做到這一點(diǎn)。

圖片

論文作者之一John Hewitt 表示:這是他在斯坦福 NLP 的最后一篇論文。Hewitt即將加入哥倫比亞大學(xué)擔(dān)任助理教授。圖片

實(shí)驗(yàn)設(shè)置

指令調(diào)優(yōu)。指令調(diào)優(yōu)可以對(duì)一個(gè)語(yǔ)言模型的參數(shù)θ進(jìn)行微調(diào),以調(diào)整它的行為并針對(duì)查詢給出包含相關(guān)有幫助答案的響應(yīng)。給定包含指令和對(duì)應(yīng)響應(yīng)的一組示例D_ins = {instruction_i , response_i }^k _i=1,指令調(diào)優(yōu)可以優(yōu)化:

圖片 

指令格式。在語(yǔ)言模型實(shí)踐中,指令和響應(yīng)之間的區(qū)別通過(guò)輸入中的格式化token來(lái)指定。研究者使用了 Tulu 格式。之所以會(huì)介紹指令格式,是因?yàn)樗赡軐?duì)從語(yǔ)言模型中產(chǎn)生指令遵循行為的難易程度很重要。

圖片 
定義指令遵循行為。研究者區(qū)分了指令遵循行為和非指令遵循行為,實(shí)際上存在一系列更好和更糟糕的響應(yīng),沒(méi)有單一的界限。為了保證一定程度的系統(tǒng)性,他們使用了以下評(píng)估設(shè)置

AlpacaEval vs 可比較的指令調(diào)優(yōu)模型。研究者根據(jù)AlpacaEval LLM-as-a-judge框架來(lái)測(cè)量每個(gè)模型與可比較指令調(diào)優(yōu)模型在長(zhǎng)度控制方面的正面交鋒勝率。

貪婪解碼。研究者從模型中貪婪地解碼,以觀察指令遵循響應(yīng)什么時(shí)候最有可能是模型的延續(xù)。

響應(yīng)調(diào)優(yōu)產(chǎn)生指令遵循

在本章中,研究者探討了響應(yīng)調(diào)優(yōu),即僅對(duì)響應(yīng)進(jìn)行微調(diào),而無(wú)需任何相應(yīng)的指令。

響應(yīng)調(diào)優(yōu)方法,給定包含指令和對(duì)應(yīng)響應(yīng)的一組示例D_ins = {instructioni , response_i }^k_i=1,響應(yīng)調(diào)優(yōu)將指令字符串替換為空字符串,并優(yōu)化如下:


圖片 
研究者比較了指令調(diào)優(yōu)和響應(yīng)調(diào)優(yōu)。對(duì)于適應(yīng)數(shù)據(jù)集,研究者使用包含1030個(gè)訓(xùn)練示例的LIMA。對(duì)于基礎(chǔ)預(yù)訓(xùn)練模型,研究者使用了Llama-2-7B 和 OLMo-7B-Feb2024語(yǔ)言模型,并對(duì)這兩個(gè)模型的所有參數(shù)進(jìn)行微調(diào)。對(duì)于超參數(shù)選擇,研究者在為本文開發(fā)的held-out驗(yàn)證集上使用了 AlpacaEval 相對(duì)GPT-3.5-turbo的勝率。驗(yàn)證集部分手寫部分由GPT-4生成,包含各種知識(shí)、蒸餾、翻譯和行政指令,比如「給我安排兩天假期去玩《虛幻勇士》」。

結(jié)果發(fā)現(xiàn),響應(yīng)調(diào)優(yōu)的Llama-2-7B模型對(duì)指令調(diào)優(yōu)的Llama-2-7B的平均勝率是43.3%,而基礎(chǔ)模型對(duì)指令調(diào)優(yōu)模型的勝率為2.4%。對(duì)于OLMo-7B-Feb2024,響應(yīng)調(diào)優(yōu)模型對(duì)指令調(diào)優(yōu)模型的勝率為 43.7%, 而基礎(chǔ)模型的勝率為 4.7%。研究者在下圖2中提供了響應(yīng)調(diào)優(yōu)、指令調(diào)優(yōu)和基礎(chǔ)Llama-2-7B模型的示例。


圖片

對(duì)于Llama-2-7B 和 OLMo-7B-Feb2024 基礎(chǔ)模型,響應(yīng)調(diào)優(yōu)模型的行為比基礎(chǔ)模型更接近指令調(diào)優(yōu)模型。指令調(diào)優(yōu)始終優(yōu)于響應(yīng)調(diào)優(yōu),但差別不大。因此在調(diào)整過(guò)程中指定指令會(huì)帶來(lái)一些收益,但這對(duì)于產(chǎn)生基線水平的指令遵循行為并不重要。


響應(yīng)排序能力研究者提出了響應(yīng)排序能力:為一個(gè)指令的正確響應(yīng)分配的可能性高于一個(gè)其他隨機(jī)指令的預(yù)期響應(yīng)。對(duì)于獨(dú)立的指令-響應(yīng)對(duì)(instruction, response)~ D 和(instruction′ , response′)~ D 以及一個(gè)模型 pθ,若如下公式(3)所示,則響應(yīng)排序能力成立。圖片

由于這兩個(gè)概率可能都很小,因此即使沒(méi)有遵循指令的模型,響應(yīng)排序能力也可以成立。通過(guò)響應(yīng)調(diào)優(yōu)來(lái)增加預(yù)期響應(yīng)的概率,并且當(dāng)模型的很多指令具有響應(yīng)排序能力時(shí),可能會(huì)產(chǎn)生預(yù)期的響應(yīng)。

對(duì)于Alpaca訓(xùn)練集,研究者針對(duì)預(yù)訓(xùn)練、LIMA 指令調(diào)優(yōu)和響應(yīng)調(diào)優(yōu)模型,計(jì)算了它們指令對(duì)的響應(yīng)排序能力成立的可能性。結(jié)果表明,預(yù)訓(xùn)練模型的響應(yīng)排序能力成立的可能性與指令調(diào)優(yōu)模型類似。具體如下表2所示。圖片

單任務(wù)微調(diào)產(chǎn)生指令遵循

此方法與指令調(diào)優(yōu)相同,只是輸入和輸出的分布發(fā)生了變化。

研究發(fā)現(xiàn),在每個(gè)單任務(wù)微調(diào)數(shù)據(jù)集上對(duì) Llama-2-7B 和 OLMo-7B-Feb2024 進(jìn)行微調(diào)都會(huì)導(dǎo)致一般的指令遵循行為,并且與基礎(chǔ)模型相比,指令調(diào)優(yōu)模型(表 3)的勝率明顯更高。
圖片 
在 OLMo-7B-Feb2024 和 Llama-2-7B上,對(duì) GSM 數(shù)據(jù)集進(jìn)行微調(diào)可獲得最高的 AlpacaEval 勝率。圖 4 提供了模型輸出的示例。
圖片 
如圖 5 所示,對(duì)于非常類似于 GSM 的指令,模型輸出遵循 GSM 樣式及其使用的特定數(shù)學(xué)符號(hào)。然而,對(duì)于大多數(shù)指令,作者注意到輸出僅受到 GSM 的細(xì)微影響:它們具有普遍存在的 GSM 序列結(jié)尾樣式,以四個(gè)哈希和一個(gè)整數(shù)答案結(jié)尾,例如 ####1。


圖片

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-28 09:52:00

2012-03-21 21:38:27

蘋果

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬(wàn)內(nèi)核

2023-10-18 09:25:08

模型推理

2022-10-20 15:38:02

谷歌模型

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2022-02-09 10:06:21

觸覺(jué)設(shè)備計(jì)算機(jī)人工智能

2024-12-03 10:30:00

AI模型

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2017-11-28 14:18:29

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2016-09-27 16:06:48

2024-04-24 09:47:36

2025-04-09 11:25:36

2024-07-12 13:40:23

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2021-03-05 10:57:33

AI 數(shù)據(jù)人工智能

2021-03-10 14:48:27

人工智能

2022-07-04 09:12:09

AI技術(shù)論文
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲一区视频在线 | 日韩精品一区二区三区免费观看 | 久久精品视频一区二区 | 亚洲欧美日韩成人在线 | 日韩电影在线一区 | 天堂中文av | 欧美一级免费看 | 美女视频网站久久 | 亚洲精品电影在线观看 | 精品1区| 国产一区二区影院 | 国产亚洲久| 玖草资源 | 日本精品在线播放 | 久国久产久精永久网页 | 久久99精品久久久久久 | 国产精品99久久久久久动医院 | 久久精品一区 | 亚洲精品日日夜夜 | 国产日韩久久久久69影院 | 精品在线观看一区二区 | 嫩草视频入口 | 午夜成人免费视频 | 免费h在线| 国产精品一区二区不卡 | 黄色骚片 | 91视频18| 成人在线中文 | 在线一区| 日韩毛片 | 亚洲精品久久久久久一区二区 | 欧美性极品xxxx做受 | 精品欧美一区二区精品久久 | 精品国产99 | 特a毛片| 精品视频久久久 | 99爱视频 | 中文字幕成人在线 | 日韩久久综合网 | 国产精品视频网址 | 亚洲人成一区二区三区性色 |