成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法

發(fā)布于 2024-7-2 09:34
瀏覽
0收藏

大規(guī)模語(yǔ)言模型(LLMs)的持續(xù)預(yù)訓(xùn)練是提升其在特定領(lǐng)域性能的重要方法。通過(guò)在新領(lǐng)域的語(yǔ)料庫(kù)上預(yù)訓(xùn)練大語(yǔ)言模型,這一過(guò)程能夠顯著增加模型的領(lǐng)域知識(shí)儲(chǔ)備和任務(wù)能力。


然而,盡管已有許多研究探討了從頭預(yù)訓(xùn)練的LLMs的學(xué)習(xí)機(jī)制和性質(zhì),關(guān)于持續(xù)預(yù)訓(xùn)練過(guò)程中LLMs行為的研究卻相對(duì)較少。


最近北京大學(xué)、香港科技大學(xué)等開(kāi)源了一個(gè)8B醫(yī)學(xué)大模型,通過(guò)測(cè)試模型在連續(xù)預(yù)訓(xùn)練和指令微調(diào)實(shí)驗(yàn)過(guò)程中的表現(xiàn)變化,發(fā)現(xiàn)了許多有趣的現(xiàn)象。


8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法-AI.x社區(qū)

論文鏈接:https://arxiv.org/abs/2406.14833

開(kāi)源地址:https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

先下降后上升: 模型訓(xùn)練中存在的穩(wěn)定性缺失問(wèn)題  

本文首先選取TinyLLaMa-1b 和OpenLLaMA-3b模型作為基座模型,并在5百億醫(yī)療tokens上做做連續(xù)單輪預(yù)訓(xùn)練。在預(yù)訓(xùn)練過(guò)程中,作者每隔5b測(cè)試一次模型在醫(yī)療維基語(yǔ)料上的困惑度(PPL)和下游醫(yī)療任務(wù)的平均表現(xiàn)。


如圖1 所示,盡管模型在醫(yī)療維基語(yǔ)料上的困惑度持續(xù)下降(圖1b),但在連續(xù)預(yù)訓(xùn)練初期,模型在醫(yī)學(xué)任務(wù)上的表現(xiàn)卻出現(xiàn)了下降 (圖1a)。隨著更多數(shù)據(jù)的訓(xùn)練,任務(wù)表現(xiàn)逐漸恢復(fù)并超過(guò)了原始模型的水平 。


8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法-AI.x社區(qū)

圖1:(a)預(yù)訓(xùn)練過(guò)程中模型在四個(gè)醫(yī)療QA任務(wù)上的平均表現(xiàn)(b)預(yù)訓(xùn)練過(guò)程中模型在醫(yī)療維基語(yǔ)料上的困惑度


為了解釋表現(xiàn)先下降后上升的行為,我們借鑒了持續(xù)學(xué)習(xí)中的穩(wěn)定性差距概念。基于它的解釋,醫(yī)療任務(wù)表現(xiàn)最初下降是因?yàn)閷W(xué)習(xí)新領(lǐng)域的可塑性梯度超過(guò)了維持通用任務(wù)能力的穩(wěn)定性梯度,導(dǎo)致未能維持醫(yī)療任務(wù)的性能。隨后,任務(wù)損失增強(qiáng)了穩(wěn)定性梯度,這一前后穩(wěn)定性差距最終導(dǎo)致性能恢復(fù)并上升。


為了驗(yàn)證以上假設(shè),我們進(jìn)一步測(cè)試了模型在醫(yī)療持續(xù)預(yù)訓(xùn)練中的通用任務(wù)表。如圖2顯示,一般任務(wù)性能呈現(xiàn)類似的V形曲線,表明一般指令跟隨能力在最初下降后恢復(fù)。


8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法-AI.x社區(qū)

圖2:預(yù)訓(xùn)練過(guò)程中模型在10個(gè)常識(shí)和閱讀理解任務(wù)上的平均表現(xiàn)

  三個(gè)針對(duì)穩(wěn)定性差距的訓(xùn)練策略 


為了克服持續(xù)預(yù)訓(xùn)練中存在的穩(wěn)定性差距問(wèn)題,本文提出了三種有效策略:


策略1:在適當(dāng)大小的數(shù)據(jù)子集上進(jìn)行多輪預(yù)訓(xùn)練,而不是在大數(shù)據(jù)集上進(jìn)行單輪預(yù)訓(xùn)練。這種策略減少了每次預(yù)訓(xùn)練所需的高可塑性梯度,促進(jìn)了穩(wěn)定性梯度的上升,進(jìn)而加速了性能恢復(fù)。


策略2:僅在高質(zhì)量的子語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,以快速提升特定領(lǐng)域的性能。


策略3:按照預(yù)訓(xùn)練數(shù)據(jù)分布采取其它來(lái)源的數(shù)據(jù)并和醫(yī)療高質(zhì)量數(shù)據(jù)混合訓(xùn)練,減少預(yù)訓(xùn)練分布和連續(xù)預(yù)訓(xùn)練差距,促進(jìn)模型穩(wěn)定性梯度的形成。


8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法-AI.x社區(qū)

表1:在醫(yī)療預(yù)訓(xùn)練完成后模型在四個(gè)醫(yī)療任務(wù)上的zero-shot表現(xiàn)


實(shí)驗(yàn)結(jié)果:本文通過(guò)對(duì)比多種基線方法來(lái)驗(yàn)證提出的三條策略的有效性, 其中包括500億醫(yī)療數(shù)據(jù)單輪訓(xùn)練、學(xué)習(xí)率Re-warming and Re-decaying、重采樣和參數(shù)固定等基線。


如下表1所示,基于本文的策略,OpenLLaMa模型只需要在高質(zhì)量50億數(shù)據(jù)上訓(xùn)練4個(gè)輪次(即原計(jì)算預(yù)算的40%),便可以在醫(yī)療任務(wù)平均表現(xiàn)上顯著超越了所有基線,尤其在PubMedQA等醫(yī)學(xué)問(wèn)答任務(wù)中表現(xiàn)突出。

面向GPT4水平的8B醫(yī)療專家模型  

連續(xù)預(yù)訓(xùn)練:本文按照提出的三種策略對(duì)Llama-3-8B模型做進(jìn)一步的醫(yī)療連續(xù)預(yù)訓(xùn)練。在這個(gè)過(guò)程中使用了50億高質(zhì)量醫(yī)學(xué)數(shù)據(jù),并對(duì)模型做四個(gè)輪次的重復(fù)訓(xùn)練。


指令微調(diào):連續(xù)預(yù)訓(xùn)練完成后,本文采用多個(gè)類型的醫(yī)療任務(wù)指令對(duì)模型做指令微調(diào),包括問(wèn)答任務(wù)、分類任務(wù)、關(guān)系提取任務(wù)、自然語(yǔ)言推理任務(wù)和總結(jié)任務(wù)。


微調(diào)過(guò)程中,研究團(tuán)隊(duì)繼續(xù)采用提出的三種策略來(lái)優(yōu)化指令微調(diào)效果。首先是多輪次訓(xùn)練,這在醫(yī)學(xué)指令微調(diào)過(guò)程中是常見(jiàn)的。其次,利用Deita自動(dòng)指令數(shù)據(jù)選擇器,選擇高質(zhì)量的醫(yī)學(xué)指令數(shù)據(jù)子集。最后,使用高質(zhì)量的通用指令數(shù)據(jù)集,如Airoboros-3.2,以緩解模型在通用任務(wù)完成能力上的遺忘。


8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法-AI.x社區(qū)

圖3:指令微調(diào)過(guò)程中模型的醫(yī)療平均表現(xiàn)


如圖3所示,在指令微調(diào)過(guò)程中,使用所有數(shù)據(jù)做微調(diào)仍然可能在初始訓(xùn)練階段時(shí)面臨表現(xiàn)下降問(wèn)題。而通過(guò)我們的三種策略,模型僅需25%的指令數(shù)據(jù)就能達(dá)到最佳性能,這降低了計(jì)算資源的消耗。


實(shí)驗(yàn)比較:本文進(jìn)一步將達(dá)到最佳表現(xiàn)的指令微調(diào)模型Llama-3-Physician-8B-insturct與其它醫(yī)療模型比較。如表2所示,Llama-3-Physician-8B-insturct在醫(yī)療問(wèn)答任務(wù)上明顯優(yōu)于其它同尺寸的開(kāi)源模型,并且超過(guò)了閉源的GPT-3.5-turbo模型。同時(shí),它的平均醫(yī)療問(wèn)答任務(wù)表現(xiàn)也接近GPT-4.


8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法-AI.x社區(qū)

表2:指令微調(diào)結(jié)束后各模型在四個(gè)醫(yī)療問(wèn)答任務(wù)上的zero-shot表現(xiàn)


本文進(jìn)一步考慮Llama-3-Physician-8B-insturct在其它類型(非問(wèn)答)的醫(yī)療任務(wù)上的表現(xiàn)。如表3所示,Llama-3-Physician-8B-insturct在醫(yī)療分類,關(guān)系抽取,推理和總結(jié)任務(wù)上都取得了優(yōu)異表現(xiàn),且明顯超過(guò)GPT-4表現(xiàn)。


8B尺寸達(dá)到GPT-4級(jí)性能!北大等提出醫(yī)療專家模型訓(xùn)練方法-AI.x社區(qū)

表3:指令微調(diào)結(jié)束后各模型在醫(yī)療分類,關(guān)系抽取,推理和總結(jié)任務(wù)上的zero-shot表現(xiàn)

總結(jié)  

1. 本論文研究了在對(duì)LLMs(大語(yǔ)言模型)進(jìn)行新領(lǐng)域語(yǔ)料庫(kù)的連續(xù)預(yù)訓(xùn)練時(shí)的行為,并觀察到模型初始性能下降,隨后緩慢恢復(fù)的現(xiàn)象。本文使用穩(wěn)定性差距這一概念來(lái)描述這一現(xiàn)象,并從可塑性和穩(wěn)定性梯度的角度對(duì)此解釋


2. 本文進(jìn)一步提出了三種有效提高LLM在特定領(lǐng)域表現(xiàn)并降低計(jì)算成本的策略,從而克服穩(wěn)定性差距。這些策略包括:在適當(dāng)大小的數(shù)據(jù)子集上進(jìn)行多輪預(yù)訓(xùn)練,選取高質(zhì)量子集和按預(yù)訓(xùn)練數(shù)據(jù)分布混合采樣數(shù)據(jù)。


3. 本文將這些策略應(yīng)用于最新的Llama-3-8B模型的連續(xù)預(yù)訓(xùn)練和指令微調(diào)過(guò)程中,所得到的Llama-3-Physician-8B-insturct不僅在同規(guī)模開(kāi)源模型中表現(xiàn)最強(qiáng),并且優(yōu)于閉源的GPT-3.5模型,接近GPT-4的表現(xiàn)。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/Y0IsaHAiKPH-W6DBhYXtmg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品久久久久久久久免费 | www.久| 欧美色综合一区二区三区 | 在线免费观看黄视频 | 丁香婷婷久久久综合精品国产 | 美女日批免费视频 | 美国一级黄色片 | 精品日韩在线 | 欧美性高潮 | 在线国产一区二区 | 国产在线精品一区二区三区 | 电影91久久久| 日韩伦理电影免费在线观看 | 国产一区二区三区在线观看免费 | 99精品电影 | 国产日产精品一区二区三区四区 | 国产欧美日韩在线一区 | 精品美女视频在免费观看 | 毛片网络 | 天天插天天舔 | 中文字幕在线播放不卡 | 成人中文字幕av | 亚洲第一色站 | 国产精品99 | 免费在线观看一区二区三区 | 色av一区 | 国产免费一级片 | 国产乱人伦 | 国产亚洲成av人片在线观看桃 | 久久久国产一区 | 久在线精品视频 | 香蕉视频91 | 成人国产综合 | 成人欧美一区二区三区黑人孕妇 | 在线观看国产视频 | 亚洲一区精品在线 | 毛片一区二区三区 | 二区av| 在线播放日韩 | 日韩亚洲一区二区 | 成人在线视频免费看 |