CoT提出者Jason Wei：大模型評估基準(zhǔn)的「七宗罪」

作者：機(jī)器之心 2024-05-27 12:45:53

Jason Wei 是思維鏈提出者，并和 Yi Tay、Jeff Dean 等人合著了關(guān)于大模型涌現(xiàn)能力的論文。目前他正在 OpenAI 進(jìn)行工作。

在 CV 領(lǐng)域，研究者一直把李飛飛等人創(chuàng)建的 ImageNet 奉為模型在下游視覺任務(wù)中能力的試金石。

在大模型時代，我們該如何評估 LLM 性能？現(xiàn)階段，研究者已經(jīng)提出了諸如 MMLU、GSM8K 等一些評估基準(zhǔn)，不斷有 LLM 在其上刷新得分。

但這些評估基準(zhǔn)真的完美嗎？思維鏈提出者 Jason Wei 在一篇博客中進(jìn)行了深入的研究。

Jason Wei 首先列舉了幾種成功的評估基準(zhǔn)，然后總結(jié)了評估基準(zhǔn)失敗的常見原因，共七條，包括樣本數(shù)量少、評估基準(zhǔn)太復(fù)雜等等。

進(jìn)一步的，Jason Wei 認(rèn)為有些評估工具命名方式并不完美，比如 HumanEval 雖然叫做人類評估，實(shí)際上并沒有用到人類進(jìn)行評估，只是因?yàn)閱栴}是由人類創(chuàng)建的。

Jason Wei 表示如果想讓自己創(chuàng)建的評估工具得到廣泛使用，一定要幫助研究者使用它，從而得到推廣。此外，文中還提到了一些針對特定領(lǐng)域的小眾評估工具，Jason Wei 認(rèn)為這些評估可能不會引起領(lǐng)域之外的任何關(guān)注。大家關(guān)心的測試集污染問題，Jason Wei 也給出了一些解決方案。

接下來，我們看看 Jason Wei 原博客內(nèi)容：

成功評估的定義是什么？我想說，如果一個評估基準(zhǔn)被用在突破性論文中，并在社區(qū)中得到信任，那么它顯然就是成功的。

以下是過去五年中一些成功的評估基準(zhǔn)：

GLUE/SuperGLUE：LLM 之前基本上所有 NLP 論文（BERT、T5 等）都使用。
MMLU：幾乎所有 LLM 論文都使用，也是 DeepMind 和 Google 最喜歡的評估基準(zhǔn)。
GSM8K：激發(fā)了 LLM 的推理能力，并被用于每一篇關(guān)于思維鏈（chain-of-thought）的論文中。
MATH：大多數(shù) LLM 論文會使用。
HumanEval：是 LLM 編碼的經(jīng)典評估基準(zhǔn)。

成功的評估往往會有一篇大論文聲稱使用該評估基準(zhǔn)取得了一些突破。例如，GLUE 由 BERT 推廣，MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推廣。思維鏈提示（chain-of-thought prompting）聲稱在 GSM8K 上取得了突破。Minerva 的超凡能力在 MATH 上得到體現(xiàn)。Codex 等模型使用了 HumanEval。

更深入地說，在評估基準(zhǔn)上得到好分?jǐn)?shù)必須意味著一些重要且易于理解的事情，例如實(shí)現(xiàn)超越人類的表現(xiàn)、解決小學(xué)水平的數(shù)學(xué)問題。

而大多數(shù)不成功的評估基準(zhǔn)都至少犯了如下七個錯誤之一：

1、如果評估沒有足夠的樣本，那么對于研究人員來說，它會很嘈雜（noisy），而且 UI 會很糟糕。例如，有人可能在模型訓(xùn)練過程中運(yùn)行評估，并發(fā)現(xiàn)它在各個檢查點(diǎn)之間波動很大。這使得評估對于研究人員來說非常痛苦，因此他們不會喜歡使用該評估基準(zhǔn)。評估基準(zhǔn)最好有至少 1000 個樣本供您評估；如果是多項(xiàng)選擇評估，可能需要更多。例如盡管 GPQA 是一個很好的評估基準(zhǔn)，但它根據(jù) prompt 而波動的事實(shí)使其難以使用。

2、評估基準(zhǔn)應(yīng)該是高質(zhì)量的。如果評估基準(zhǔn)中有很多錯誤，人們就不會相信它，例如 Natural Questions（NQ）基準(zhǔn)。

3、如果你的評估基準(zhǔn)太復(fù)雜，人們會很難理解它，并且會很少使用它。我認(rèn)為 HELM 的第一個版本是一項(xiàng)巨大的努力，但它有太多的指標(biāo)和子集。擁有單一數(shù)字指標(biāo)至關(guān)重要 —— 我想不出任何偉大的評估基準(zhǔn)是沒有單一數(shù)字指標(biāo)的。

4、如果評估需要太多工作來運(yùn)行，即使其他一切都很好，它也不會有很大的吸引力。BIG-Bench 是我最喜歡的評估基準(zhǔn)之一，但運(yùn)行起來非常痛苦。有對數(shù)概率評估和生成評估，這需要不同的基礎(chǔ)設(shè)施。子集太多，而且有些子集的樣本太多，所以評估花了很長時間。我相信這就是為什么 BIG-Bench 沒有獲得太多關(guān)注，盡管它提供了很多優(yōu)勢。

5、如果評估不是針對一項(xiàng)有意義的任務(wù)，人工智能研究人員不會深度關(guān)注它。例如，在 BIG-Bench Hard 中，有推薦電影等任務(wù)。這些任務(wù)具有挑戰(zhàn)性，并且隨著模型大小的變化性能有所變化，但在這些任務(wù)上做得好并不能對模型的智能程度做出實(shí)質(zhì)性的結(jié)論。成功的評估通常會衡量對智能至關(guān)重要的事物，例如語言理解、考試問題或數(shù)學(xué)。

6、評估的評分應(yīng)該非常正確。如果有人認(rèn)為模型評分不正確或者不認(rèn)同該評分，那么他們可以立即取消使用該評估基準(zhǔn)。花時間來盡量減少解析引起的錯誤，或者盡可能獲得最好的自動評分器 prompt 是值得的。

7、為了使評估經(jīng)得起時間的考驗(yàn)，性能不能太快飽和。例如，GLUE/SuperGLUE 飽和得太快，很難顯示出巨大的增益，人們就不再使用它們。

對于評估工具，還有不完善的地方

看起來很多優(yōu)秀的評估工具都有些糟糕的名字。比如 GSM8K 其實(shí)并不需要加上 8K，而 HumanEval 雖然叫做人類評估，實(shí)際上并沒有用到人類進(jìn)行評估（之所以叫 HumanEval 是因?yàn)閱栴}是由人類創(chuàng)建的）。MATH 這個名字太普通了，所以人們開始稱之為「Hendrycks-math」，這應(yīng)該算是一個聰明的命名方式，以創(chuàng)建者的名字來命名。

如果你想讓你的評估工具得到廣泛使用，你首先要做的是幫助人們使用它。例如，當(dāng)我制定了一個評估工具時，我通常會幫助他人在模型上運(yùn)行它。如果他們的模型在這個評估上表現(xiàn)良好，那么人們通常會喜歡它并進(jìn)一步的推廣它。HELM 就非常擅長為其他人評估模型并公布結(jié)果。

此外，如果你能為人們使用你的評估工具創(chuàng)造激勵機(jī)制也很有幫助。對員工來說，最好的激勵之一就是他們領(lǐng)導(dǎo)所重視的東西。因此，獲得實(shí)驗(yàn)室或公司內(nèi)部領(lǐng)導(dǎo)的支持對你的評估工具可能會有所幫助，他們會要求底下員工運(yùn)行它。當(dāng)我在谷歌創(chuàng)建 MGSM 時，我選擇與 Dipanjan Das（Google Deepmind 的研究主管）合作完成，盡管我們不在同一個團(tuán)隊(duì)。我與他合作純粹是因?yàn)樗莻€有趣的人（并不是為了推廣這個評估工具），但我認(rèn)為 Dipanjan 很喜歡這個工具，并且在他的團(tuán)隊(duì)中獲得了一些人的支持使用。

然而，LLMs 的出現(xiàn)，對評估工具提出了更高的要求。LLMs 具有大規(guī)模多任務(wù)處理能力并能生成長回答。目前還沒有一個單一的評估工具能夠充分評估 LLMs。當(dāng)前流行的評估工具仍然使用非常簡單的評分方式（要么是多項(xiàng)選擇，要么是檢查數(shù)字，或者執(zhí)行單元測試），即便這些方法也存在問題。如果我們能圍繞一個單一的提示，比如零樣本思維鏈（zero-shot chain-of-thought），那會很好。我知道由于很多原因這不是一個完美的解決方案，但我認(rèn)為為了讓大家統(tǒng)一標(biāo)準(zhǔn)，這是合理的。

一個新的推動力是人類對模型進(jìn)行配對評估，比如 LMSYS，但這種評估方式是一把雙刃劍。它們之所以強(qiáng)大，是因?yàn)槟憧梢酝ㄟ^一組簡單的提示得到一個單一的數(shù)字指標(biāo)來衡量一個語言模型的好壞，并且可以通過大量的樣本來平均掉樣本級別的噪聲。不過，成對評估的危險之處在于你并不完全確定你在測量什么 —— 例如，相對于正確性，風(fēng)格等這類因素的權(quán)重影響有多大。

對模型生成內(nèi)容（model-generated）的評估也變得有些流行。雖然我傾向于對模型生成的評估比較挑剔，但如果做得好，它們可以用于快速實(shí)驗(yàn)和觀察性能的大幅提升，這是有可能的。但是創(chuàng)建一個經(jīng)得起時間考驗(yàn)的偉大的評估需要非常小心，我不想在合成評估中冒任何風(fēng)險。

一個顯而易見的觀點(diǎn)是，評估的主題決定了有多少人會關(guān)心這個評估。你可以創(chuàng)建一個非常高質(zhì)量的特定領(lǐng)域評估（例如，法律、醫(yī)療等），在這些情況下，最重要的是根據(jù)該領(lǐng)域?qū)＜宜匾暤膬?nèi)容來定制評估。

我曾經(jīng)制作過一個組織病理學(xué)圖像基準(zhǔn)，不出所料，它在醫(yī)學(xué)圖像分析領(lǐng)域之外幾乎沒有引起任何關(guān)注，只獲得了 40 次引用。話雖如此，一旦更多人意識到其重要性，你創(chuàng)建的特定領(lǐng)域評估也有可能獲得更多關(guān)注。

評估中一個日益重要的問題是測試集污染。創(chuàng)建了一個好的評估之后，評估的示例往往會傳播到互聯(lián)網(wǎng)的各個地方，如 arxiv 論文、ChatGPT 示例或 reddit。解決這個問題的一個方法是對測試集進(jìn)行「隱藏」，但這種方法引起了很多分歧。斯坦福大學(xué)教授 Chris Manning 提出了一個很好的建議，即對公開測試集、私有測試集都進(jìn)行評估，并監(jiān)控模型在這兩個測試集上是否有大的偏差。這種方法平衡了在公開測試集上測試的低摩擦性和私密測試集的高可信度。

我注意到的最后一件事是，你關(guān)心的評估很大程度上表明了你的身份。一個充滿博士的研究室可能會對語言模型在數(shù)學(xué)、編碼和物理上的推理能力感興趣。相反，我看到像 LMSYS 這樣的面向用戶的評估被來自軟件或產(chǎn)品背景的工程師視為黃金標(biāo)準(zhǔn)。雖然我兩者都關(guān)心，但我個人更傾向于智能，因?yàn)槲蚁嘈胖悄苁?AI 與人類交互的根本驅(qū)動力。

社區(qū)應(yīng)該更多地投資于評估，盡管這可能很痛苦，通常不會像建模工作那樣得到很多回報。但歸根結(jié)底，好的評估工具是 AI 研究人員對模型的客觀評價指標(biāo)，并且是對該領(lǐng)域產(chǎn)生重大影響的一種方式。

責(zé)任編輯：張燕妮來源：機(jī)器之心