四年了,基礎(chǔ)開源模型沒有真正進(jìn)步,指令調(diào)優(yōu)大模型評估驚人發(fā)現(xiàn)
指令調(diào)優(yōu)大語言模型的出現(xiàn)標(biāo)志著 NLP 領(lǐng)域迎來一個重要轉(zhuǎn)折點(diǎn)。從 ChatGPT 這類會話助手到解決復(fù)雜問題,這些指令調(diào)優(yōu)大模型的變革能力在應(yīng)用中矚目。此類模型還包括 GPT-4,它的精通范圍不局限于語言理解,還能解決數(shù)學(xué)、編碼、醫(yī)學(xué)和法律等不同領(lǐng)域的任務(wù)。
雖然它們具有非凡的能力和適應(yīng)性,但其全部潛力仍有待全面了解。這種情況主要源于許多模型的黑箱性質(zhì)以及目前缺乏深入和全面的評估研究。
為應(yīng)對這些挑戰(zhàn),并對模型的能力進(jìn)行更加深入的了解,新加坡科技設(shè)計大學(xué)和阿里達(dá)摩院(新加坡)的研究者提出了一個新的評估套件 INSTRUCTEVAL。該套件用于對指令調(diào)優(yōu)大語言模型進(jìn)行全面評估,并且超越了早期評估方法的限制。評估策略在其系統(tǒng)和整體方法上與之前的研究大不相同,不僅審查了模型的解決問題和寫作能力,還嚴(yán)格評判了它們與人類價值觀的一致性。
- 論文地址:2306.04757.pdf (arxiv.org)
- GITHUB 地址: https://github.com/declare-lab/instruct-eval
- LEADERBOARD 地址: https://declare-lab.github.io/instruct-eval/
評估方法的核心是考慮影響模型性能的各種因素,包括開發(fā)模型的預(yù)訓(xùn)練基礎(chǔ)、用于改進(jìn)模型的指令調(diào)優(yōu)數(shù)據(jù)的性質(zhì)和質(zhì)量、以及采用的具體訓(xùn)練方法。通過對這些因素慎微的探究,研究者試圖闡明決定模型性能的關(guān)鍵因素,進(jìn)而理解如何更好地利用這些模型來滿足我們的需求。
本文的研究發(fā)現(xiàn)強(qiáng)調(diào)了指令數(shù)據(jù)質(zhì)量對模型性能縮放的關(guān)鍵影響。開源模型已經(jīng)展現(xiàn)出令人驚嘆的寫作能力,這表明它們有潛力為各種領(lǐng)域做出非凡貢獻(xiàn)。當(dāng)然,本文的研究也有相當(dāng)大的改進(jìn)空間,特別是在模型的解決問題能力和與人類價值觀的一致性方面。這一觀察強(qiáng)調(diào)了整體評估和模式開發(fā)的重要性。
開源指令 LLM
研究者在下表 1 中收集了開源基礎(chǔ) LLM 的細(xì)節(jié),并考慮到了模型架構(gòu)、大小和數(shù)據(jù)規(guī)模等預(yù)訓(xùn)練因素。
可以說,指令調(diào)優(yōu)的核心是用于訓(xùn)練基礎(chǔ) LLM 的指令數(shù)據(jù),比如質(zhì)量、數(shù)量、多樣性和格式等都是可以決定指令模型行為的因素。研究者在下表 2 中收集了一些開源指令數(shù)據(jù)集的細(xì)節(jié)。
在考慮到為指令 LLM 提供支持的預(yù)訓(xùn)練基礎(chǔ)模型和數(shù)據(jù)集之后,研究者在下表 3 中提供了開源指令模型的整體概述。
評估指令 LLM 面臨哪些挑戰(zhàn)?
首先是難以理解的黑箱模型。雖然 GPT-4 等指令 LLM 獲得了廣泛關(guān)注,但很多模型都選擇閉源并僅限于通過 API 訪問。此外,閉源模型的創(chuàng)建者往往不透露架構(gòu)、指令數(shù)據(jù)集和訓(xùn)練方法等模型細(xì)節(jié)。
其次是壓倒性的開源模型,在 GPT-4 等閉源模型令人印象深刻的演示刺激下,開源社區(qū)已經(jīng)展開了狂熱的模型開發(fā),以期實(shí)現(xiàn)語言模型技術(shù)的民主化。雖然研究者對此備受鼓舞,但卻深深擔(dān)憂新模型的開發(fā)速度可能超過評估研究的進(jìn)展。
接著是指令調(diào)優(yōu)的多重考慮。為了全面了解指令 LLM,需要我們考慮可能影響它們行為的多樣化因素,比如預(yù)訓(xùn)練、指令數(shù)據(jù)和訓(xùn)練方法。雖然以往的工作在某些領(lǐng)域進(jìn)行過深入研究,比如指令數(shù)據(jù)集。但研究者認(rèn)為應(yīng)該綜合考慮多種因素才能達(dá)到更完整的理解。
最后是廣泛的能力范圍。雖然指令 LLM 研究取得進(jìn)展,我們自然能觀察到它們通用能力的增強(qiáng)。最近的研究表明,LLM 可以通過指令調(diào)優(yōu)來解決很多領(lǐng)域的問題,甚至可以使用外部工具來增強(qiáng)它們的能力。因此可以預(yù)見到,對指令 LLM 進(jìn)行綜合評估變得越來越重要,同時也越來越具有挑戰(zhàn)性。
INSTRUCTEVAL 基準(zhǔn)套件
為了解決評估指令 LLM 的挑戰(zhàn),本文引入一個更全面的評估套件 INSTRUCTEVAL。為了涵蓋廣泛的通用能力,研究者在解決問題、寫作和對齊人類價值觀方面對模型進(jìn)行了測試,具體如下圖 1 所示。
評估解決問題的能力
為了評估指令 LLM 解決問題的能力,研究者采用了多個基準(zhǔn),涵蓋了現(xiàn)實(shí)世界中不同主題的測試、復(fù)雜的指令、算術(shù)、編程和因果關(guān)系。為了在基準(zhǔn)上表現(xiàn)良好,模型需要世界知識、多步推理的能力、創(chuàng)造力等。
評估寫作能力
除了解決問題的能力,指令 LLM 在寫作任務(wù)中展現(xiàn)的能力也十分具有前景,如寫信或倫理辯論。研究評估了不同寫作場景下的通用寫作能力,包括信息性寫作、專業(yè)寫作、議論文寫作和創(chuàng)意寫作。議論文寫作需要模型對倫理和社會問題的立場進(jìn)行論述,而創(chuàng)意寫作涉及多種寫作格式,如故事、詩歌和歌曲。
為了構(gòu)建寫作基準(zhǔn) IMPACT,研究者為每個寫作類別標(biāo)注了 50 個 prompt。但是寫作任務(wù)的答案很長,且通常沒有唯一正確答案,這對嚴(yán)格的標(biāo)準(zhǔn)化評估來說是個大難題。其次,由于成本高、不同評價人之間可能存在不一致以及不可復(fù)現(xiàn)等原因,人工評價是不可擴(kuò)展的。
評估與人類價值觀的一致性
為研究指令調(diào)優(yōu)對模型識別符合大眾偏好需求的能力的影響,研究者在 INSTRUCTEVAL 中整合了有用、誠實(shí)和無害 (Helpful、Honest 和 Harmless) 基準(zhǔn),以評估人類價值觀對指示模型的理解。這些值包括:
- 有用:始終致力于人類最大利益。
- 誠實(shí):始終盡力傳達(dá)準(zhǔn)確的信息,避免欺騙人類。
- 無害:始終盡力避免任何傷害人類的行為。
下表 8 中列出了每個類別的例子:
評估結(jié)果
解決問題
為了評估解決問題的能力,研究者在下表 5 中的基礎(chǔ)上對 10 多種開源模型進(jìn)行了評估。此外,為了全面分析模型性能,他們充分考慮了指令 LLM 的預(yù)訓(xùn)練基礎(chǔ)、指令數(shù)據(jù)和訓(xùn)練方法。
首先,由于指令調(diào)優(yōu) LLM 是從它們各自的基礎(chǔ) LLM 中訓(xùn)練而來,因此在分析整體性能時考慮預(yù)訓(xùn)練基礎(chǔ)至關(guān)重要。研究者觀察到,堅(jiān)實(shí)的預(yù)訓(xùn)練基礎(chǔ)是在解決問題任務(wù)上表現(xiàn)出色的必要條件。其次,研究者發(fā)現(xiàn)雖然與預(yù)訓(xùn)練相比,指令調(diào)優(yōu)對性能的影響更大,但它也并不是「靈丹妙藥」。最后,訓(xùn)練方法也會影響模型性能和計算效率。研究者相信,參數(shù)高效的訓(xùn)練方法更有潛力實(shí)現(xiàn)擴(kuò)展性更強(qiáng)和更高效的指令調(diào)優(yōu)。
這些結(jié)果也引起了業(yè)內(nèi)人士的關(guān)注,前谷歌大腦高級研究科學(xué)家、RekaAILabs 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Yi Tay 發(fā)現(xiàn),「近來關(guān)于新基礎(chǔ)開源模型的討論很多,但自 2019 年的 T5 模型以來卻沒有出現(xiàn)真正的進(jìn)步。」
他總結(jié)道,F(xiàn)lan-T5 擊敗了一切,包括 Alpaca(基于 LLama)、Flan-Alpaca 以及 Mosiac-Chat/MPT、Dolly。如果你從「計算匹配」(compute-match)的角度來看,則編碼器 - 解碼器應(yīng)該處于不同(較低)的權(quán)重級別。基本上,F(xiàn)lan-T5 3 B 像是一個 1B+ 解碼器,F(xiàn)lan-UL2 更像一個 8B+ 模型。從這個角度來看,差距如此之大。此外 Flan-UL2 在大多數(shù)指標(biāo)上超越了 Alpaca-Lora 30B,盡管前者要小得多,計算量實(shí)際上也少數(shù)倍。
Yi Tay 表示,這并不完全是 Flan 系列模型,更多的是相關(guān)基礎(chǔ)模型。關(guān)鍵是基礎(chǔ)的 T5 模型,具有 1 萬億 token。此外還有多語言的 mT5 和 uMT5 模型,它們也都表現(xiàn)非常好。基礎(chǔ)模型不是長上下文的,但 Flan 弱化了這一點(diǎn)。T5/UL2 的弱點(diǎn)是多樣性較弱,僅接受 C4 訓(xùn)練。但令人驚訝的是自 2019 年以來 C4-only 基線模型的表現(xiàn)如此地強(qiáng)大。
最后可能在計算匹配時,T5 >> Llama。唯一的問題是 T5 沒有 30B 和 65B 的版本。
推特:https://twitter.com/YiTayML/status/1668302949276356609?s=20
寫作能力
研究者在下表 6 中提供了寫作能力的評估結(jié)果。整體來說,研究者發(fā)現(xiàn)模型在信息性、專業(yè)性、議論文和創(chuàng)意性寫作中表現(xiàn)一致,展現(xiàn)出了它們的通用寫作能力。令人驚訝的是,具有更強(qiáng)問題解決能力的模型可能不具備更好的寫作能力。值得注意的是,F(xiàn)lan-Alpaca 的問題解決能力較弱,但經(jīng)過 GPT-3 的合成指令調(diào)優(yōu)后,其在寫作方面明顯優(yōu)于 Flan-T5。
研究者假設(shè),盡管合成數(shù)據(jù)中存在著潛在噪聲,但合成指令的更高多樣性可以更好地泛化到現(xiàn)實(shí)世界的寫作 prompt。與 Flan-T5,F(xiàn)lan-Alpaca 的相關(guān)性分?jǐn)?shù)有了更顯著提高,由此證明了這一點(diǎn)。開源指令 LLM 可以生成與 ChatGPT 具有可比相關(guān)性的答案,但在連貫性方面存在不足。這表明開源模型可以理解寫作 prompt,但在生成輸入的連貫性方面有所欠缺。
與人類價值觀的一致性
為了評估指令 LLM 與人類價值觀、偏好的一致性,研究者在下表 7 中對一些開源模型進(jìn)行了評估。他們首先發(fā)現(xiàn),與無害相比,基礎(chǔ)模型通常更與有用和誠實(shí)對齊。
此外 Flan-T5 和 Flan-Alpaca 等基于 T5 的模型經(jīng)過指令調(diào)優(yōu)之后,更傾向于有用而非誠實(shí)。這些結(jié)果強(qiáng)調(diào)了提前確定指令 LLM 的對齊分布非常具有挑戰(zhàn)性,即使在提供特定指令時也是如此。
通過分析下表 8 中的模型預(yù)測案例研究,研究者發(fā)現(xiàn)在保持指令 LLM 和人類價值觀一致方面還有非常大的改進(jìn)空間。
更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請參閱原論文。