成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM評估綜述論文問世,分三方面全面總結(jié),還帶資料庫

人工智能 新聞
這是一篇關(guān)于評估大型語言模型的研究,文中參考了許多重要文獻,值得一讀。

大型語言模型(LLM)已經(jīng)得到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,而為了開發(fā)出好用的 LLM,適當?shù)脑u估方法必不可少。現(xiàn)在,一篇有關(guān) LLM 評估的綜述論文終于來了!其中分三方面對 LLM 評估的相關(guān)研究工作進行了全面的總結(jié),可幫助相關(guān)研究者索引和參考。

不僅如此,該論文作者還創(chuàng)建了一個開源資料庫,讓用戶可以方便地添加和共享相關(guān)的新研究:https://github.com/MLGroupJLU/LLM-eval-survey

圖片

對科學(xué)家來說,理解智能的本質(zhì)以及確定機器是否能具有智能是極具吸引力的課題。人們普遍認為,人類之所以有能力執(zhí)行推理、檢驗假設(shè)以及為未來做準備,就是因為我們具有真正的智能。人工智能研究者關(guān)注的是開發(fā)基于機器的智能。正確的度量方式有助于理解智能。舉個例子,為了測試人類的智能水平 / 智力,常常會用到 IQ 測試。

而在 AI 領(lǐng)域,AI 開發(fā)的一個長期目標是讓 AI 通過圖靈測試(Turing Test),這需要一個能被廣泛認可的測試集,通過辨別 AI 和人類對其的響應(yīng)來評估 AI 的智能水平。研究者普遍相信,如果計算機能成功通過圖靈測試,那么就可以認為它具有智能。因此,從更廣泛的視角看,AI 的編年史可描述為智能模型和算法的創(chuàng)造和評估的時間線。每當出現(xiàn)一個新的 AI 模型或算法,研究者都會使用有難度的特定任務(wù)來仔細評估其在真實世界場景中的能力。

舉個例子,曾在上世紀 50 年代被吹捧為通用人工智能(AGI)方法的感知器算法之后被證明名不符實,因為其難以求解 XOR(異或)問題。之后興起并得到應(yīng)用的支持向量機(SVM)和深度學(xué)習(xí)都是 AI 發(fā)展圖景中的重大里程碑,但它們也都各有短板。

過去的研究歷程向我們揭示了評估的重要性。評估是一種重要工具,能幫助我們識別當前系統(tǒng)的局限性并讓我們獲得設(shè)計更強模型的信息。

目前而言,學(xué)術(shù)界和產(chǎn)業(yè)界最感興趣的技術(shù)方法是大型語言模型(LLM)。已有的研究表明:LLM 表現(xiàn)優(yōu)異,已經(jīng)成為 AGI 的有力候選。相比于之前受限于特定任務(wù)的模型,LLM 有能力解決多種不同任務(wù)。由于 LLM 既能應(yīng)對一般性自然語言任務(wù),又能處理特定領(lǐng)域的任務(wù),因此越來越受有特定信息需求的人的歡迎,比如學(xué)生和病人。

評估對于 LLM 的成功來說至關(guān)重要,原因如下。

首先,評估 LLM 有助于我們更好地了解 LLM 的優(yōu)勢和劣勢。舉個例子,PromptBench 基準測試表明,當前的 LLM 對對抗性 prompt 很敏感,因此為了更好的性能,必需仔細設(shè)計 prompt。

第二,更好的評估可以為人類與 LLM 的交互提供更好的指引,這能為未來的交互設(shè)計和實現(xiàn)提供思路。

第三,LLM 由于廣泛適用于多種任務(wù),因此確保其安全性和可靠性就至關(guān)重要了,尤其是在金融和醫(yī)療等行業(yè)。

最后,隨著 LLM 能力增多,其也在越來越大,因此現(xiàn)有的評估方法可能不足以評估它們的能力和潛在風險。這就引出了這篇綜述論文的目標:讓 AI 社區(qū)認識到 LLM 評估的重要性并指引有關(guān) LLM 評估協(xié)議的未來新研究。

隨著 ChatGPT 和 GPT-4 的推出,已經(jīng)出現(xiàn)了一些旨在從不同方面評估 ChatGPT 和其它 LLM 的研究工作(圖 2),其中涵蓋很多因素,包括自然語言任務(wù)、推理、穩(wěn)健性、可信度、醫(yī)學(xué)應(yīng)用和道德考量。盡管如此,仍然缺乏一篇涵蓋整個評估圖景的全面綜述。此外,LLM 的持續(xù)演進還會引入需要評估的新方面,這會給現(xiàn)有評估帶來困難,并由此更加需要徹底的和多方面的評估技術(shù)。盡管有一些研究工作宣傳 GPT-4 可以被視為 AGI 的星星之火,但另一些人則反對這個說法,因為 GPT-4 的評估方法本質(zhì)上還是啟發(fā)式的。

這篇來自吉林大學(xué)、微軟亞洲研究院和卡內(nèi)基?梅隆大學(xué)等機構(gòu)論文對大型語言模型評估進行了全面綜述。如圖 1 所示,作者從三個維度對現(xiàn)有研究工作進行了探索:1) 評估什么,2) 何處評估,3) 如何評估。

圖片

論文地址:https://arxiv.org/pdf/2307.03109.pdf

具體來說,「評估什么」涵蓋 LLM 現(xiàn)有的評估任務(wù),「何處評估」涉及對所用的數(shù)據(jù)集和基準的適當選擇,「如何評估」關(guān)注的是給定任務(wù)和數(shù)據(jù)集下的評估過程。這三個維度是 LLM 評估不可或缺的一部分。之后,作者還會討論 LLM 評估領(lǐng)域潛在的未來挑戰(zhàn)。

圖 1:論文的結(jié)構(gòu)


圖 2:LLM 評估論文隨時間的趨勢,從 2020 年到 2023 年 6 月(6 月數(shù)據(jù)包含 7

圖 2:LLM 評估論文隨時間的趨勢,從 2020 年到 2023 年 6 月(6 月數(shù)據(jù)包含 7 月的部分論文)

本文的主要貢獻包括:

  1. 本文從三方面全面地概述了 LLM 評估:評估什么、何處評估、如何評估。其中采用的分類方法是普適的并且涵蓋 LLM 評估的整個生命周期。
  2. 在「評估什么」方面,本文總結(jié)了多個領(lǐng)域的現(xiàn)有任務(wù),并得到了有關(guān) LLM 的成功和失敗案例的富有洞見的結(jié)論。
  3. 在「何處評估」方面,本文對評估指標、數(shù)據(jù)集和基準進行了總結(jié),可幫助讀者透徹地理解 LLM 評估的當前圖景。在「如何評估」方面,本文探索了當前協(xié)議并總結(jié)了新的評估方法。
  4. 本文還進一步討論了評估 LLM 方面的未來挑戰(zhàn)。為了促進構(gòu)建一個有關(guān) LLM 評估的合作社區(qū),作者還維護著一個 LLM 評估相關(guān)材料的資源庫并已開源:https://github.com/MLGroupJLU/LLM-eval-survey

背景

大型語言模型(LLM)

GPT-3、InstructGPT 和 GPT-4 等許多 LLM 背后的核心模塊是 Transformer 中的自注意力模塊,Transformer 則是語言建模任務(wù)的基本構(gòu)建模塊。Transformer 已經(jīng)為 NLP 領(lǐng)域帶來了變革,因為其能高效處理序列數(shù)據(jù)、支持并行化并能捕獲文本中的長程依賴關(guān)系。

LLM 的一大關(guān)鍵特性是上下文學(xué)習(xí),即模型可被訓(xùn)練基于給定的上下文或 prompt 生成文本。這讓 LLM 可以生成更為連貫且更長上下文相關(guān)的響應(yīng),從而讓它們更適用于交互式和會話應(yīng)用。

根據(jù)人類反饋的強化學(xué)習(xí)(RLHF)是 LLM 的另一重要方面。該技術(shù)是使用人類生成的響應(yīng)作為獎勵對模型進行微調(diào),從而讓模型可以學(xué)習(xí)自身的錯誤并隨時間提升性能。

圖片

表 1:對比傳統(tǒng)機器學(xué)習(xí)、深度學(xué)習(xí)和 LLM

AI 模型評估

AI 模型評估是評估模型性能的重要步驟。目前已有一些標準模型評估協(xié)議,包括 K-fold 交叉驗證、Holdout 驗證、Leave One Out 交叉驗證(LOOCV)、Bootstrap 和 Reduced Set。

圖片

圖 3:AI 模型的評估過程

隨著 LLM 應(yīng)用增多,其可解釋性卻越來越差,因此現(xiàn)有的評估協(xié)議可能不足以徹底評估 LLM 的真實能力。

評估什么

開發(fā)語言模型(尤其是大型語言模型)的最初目標是提升 AI 在自然語言處理任務(wù)上的性能,其中包含理解任務(wù)和生成任務(wù)。正因為此,大多數(shù)評估研究關(guān)注的也主要是自然語言任務(wù)。

自然語言處理任務(wù)

圖片

表 2:基于自然語言處理任務(wù)的評估概況:NLU(自然語言理解,包括 SA(情感分析)、TC(文本分類)、NLI(自然語言推理)和其它 NLU 任務(wù))、Rng.(推理)、NLG(自然語言生成,包括 Summ.(摘要)、Dlg.(對話)、Tran.(翻譯)、QA(問答)和其它 NLG 任務(wù))和 Mul.(多語言任務(wù))

穩(wěn)健性、道德、偏見和可信度

LLM 的評估涵蓋穩(wěn)健性、道德、偏見和可信度等關(guān)鍵方面。為了全面評估 LLM 的表現(xiàn),這些因素的重要性正在提升。 

圖片

表 3:在穩(wěn)健性、道德、偏見和可信度方面的 LLM 評估研究概況

社會科學(xué)

社會科學(xué)研究的是人類社會和個人行為,包括經(jīng)濟學(xué)、社會學(xué)、政治學(xué)、法學(xué)等學(xué)科。評估 LLM 在社會科學(xué)領(lǐng)域的表現(xiàn)對于學(xué)術(shù)研究、政策制定和社會問題解決而言具有重要意義。這些評估有助于推進模型在社會科學(xué)領(lǐng)域的應(yīng)用并改善模型的質(zhì)量,提升對人類社會的理解以及推動社會進步。

自然科學(xué)和工程學(xué)

評估 LLM 在自然科學(xué)和工程學(xué)領(lǐng)域的表現(xiàn)有助于引導(dǎo)科學(xué)研究的應(yīng)用和發(fā)展、技術(shù)開發(fā)以及工程研究。

圖片

表 4:在自然科學(xué)和工程學(xué)任務(wù)方面的評估研究概況,其中涉及三個方面:數(shù)學(xué)、科學(xué)和工程學(xué)

醫(yī)學(xué)應(yīng)用

LLM 在醫(yī)學(xué)領(lǐng)域的應(yīng)用最近引起了極大的關(guān)注。這里從四個方面介紹 LLM 在醫(yī)學(xué)領(lǐng)域的應(yīng)用:醫(yī)學(xué)問答、醫(yī)學(xué)檢查、醫(yī)學(xué)評估和醫(yī)學(xué)教育。

圖片

表 5:LLM 的醫(yī)學(xué)應(yīng)用方面的評估研究概況,其中涉及四個方面:Med. Exam.(醫(yī)學(xué)檢查)、Med. Ass.(醫(yī)學(xué)評估)、Med. QA(醫(yī)學(xué)問答)和 Med. Edu.(醫(yī)學(xué)教育)

智能體應(yīng)用

LLM 不僅專注于一般語言任務(wù),而是可以用作一種強大工具,應(yīng)對不同領(lǐng)域的任務(wù)。通過為 LLM 配備外部工具,可以極大擴展模型能力。

其它應(yīng)用

除了上述分類,LLM 還能用于其它一些不同領(lǐng)域,包括教育、搜索和推薦、性格測試以及特定領(lǐng)域的應(yīng)用。

圖片

表 6:LLM 的其它應(yīng)用方面的評估研究概況,其中涉及四個方面:Edu.(教育)、Sea. & Rec. (搜索和推薦)、Pers. Test.(性格測試)和 Specific applications(特定領(lǐng)域的應(yīng)用)

何處評估:數(shù)據(jù)集和基準

LLM 評估數(shù)據(jù)集的作用是測試和比較不同語言模型在各種任務(wù)上的性能。GLUE 和 SuperGLUE 等數(shù)據(jù)集的目標是模擬真實世界的語言處理場景,其中涵蓋多種不同任務(wù),如文本分類、機器翻譯、閱讀理解和對話生成。這里不關(guān)注用于語言模型的任何單個評估數(shù)據(jù)集,關(guān)注的則是用于評估 LLM 的基準。

由于 LLM 在不斷演進,因此基準也會變化,這里列出了 13 個常用的基準。每個基準側(cè)重于不同的方面和評估指標,都為各自領(lǐng)域提供了寶貴的貢獻。為了更好地進行總結(jié),這里將基準分為兩類:通用語言任務(wù)基準和特定下游任務(wù)基準。

圖片

表 7:LLM 評估基準概況 

如何評估

常用的評估方法分為兩大類:自動評估和人類評估。顧名思義,這里就不多介紹了。

總結(jié)

任務(wù):LLM 的成功和失敗案例 

現(xiàn)在總結(jié)一下 LLM 在不同任務(wù)中的成功和失敗案例。注意,以下結(jié)論都是基于現(xiàn)有評估工作得出的,結(jié)果可能取決于具體的數(shù)據(jù)集。 

LLM 擅長做什么? 

  • LLM 熟練掌握了文本生成,能生成流暢和精確的語言表達。 
  • LLM 能出色地應(yīng)對涉及語言理解的任務(wù),比如情感分析和文本分類。 
  • LLM 展現(xiàn)出了穩(wěn)健的上下文理解能力,讓它們能生成與給定輸入相符的連貫響應(yīng)。 
  • LLM 在多種自然語言處理任務(wù)上的表現(xiàn)都值得稱贊,包括機器翻譯、文本生成和問答。 

LLM 不擅長做什么? 

  • LLM 可能會在生成過程中展現(xiàn)出偏見和不準確的問題,從而得到帶偏見的輸出。 
  • LLM 在理解復(fù)雜邏輯和推理任務(wù)方面的能力有限,經(jīng)常在復(fù)雜的上下文中發(fā)生混淆或犯錯。 
  • LLM 處理大范圍數(shù)據(jù)集和長時記憶的能力有限,這可能使其難以應(yīng)對很長的文本和涉及長期依賴的任務(wù)。
  • LLM 整合實時和動態(tài)信息的能力有限,這讓它們不太適合用于需要最新知識或快速適應(yīng)變化環(huán)境的任務(wù)。 
  • LLM 對 prompt 很敏感,尤其是對抗性 prompt,這會激勵研究者開發(fā)新的評估方法和算法,以提升 LLM 的穩(wěn)健性。 
  • 在文本摘要領(lǐng)域,人們觀察到大型模型可能在特定評估指標上表現(xiàn)不佳,原因可能在于這些特定指標的固有局限性和不足之處。

基準和評估協(xié)議

隨著 LLM 的快速發(fā)展和廣泛使用,在實際應(yīng)用和研究中評估它們的重要性變得至關(guān)重要。這個評估過程不僅應(yīng)該包括任務(wù)層面的評估,還應(yīng)該包括它們在社會方面的潛在風險。表 8 總結(jié)了現(xiàn)有的基準和評估協(xié)議。

圖片

表 8:新型 LLM 評估協(xié)議概況

巨大挑戰(zhàn)

最后來看看 LLM 評估研究方面面臨的挑戰(zhàn)。作者認為,為了推動 LLM 和其它 AI 模型的成功發(fā)展,應(yīng)當將評估當作一門關(guān)鍵性學(xué)科來對待。現(xiàn)有的協(xié)議不足以透徹地評估 LLM,還有許多挑戰(zhàn)有待攻克,下面將簡單羅列出這些挑戰(zhàn),但它們也是 LLM 評估方面的未來研究的新機會。

  • 設(shè)計 AGI 評估基準
  • 對完整行為進行評估
  • 穩(wěn)健性評估
  • 動態(tài)和演化評估
  • 有原則且值得信任的評估
  • 支持所有 LLM 任務(wù)的統(tǒng)一評估
  • 超越評估:LLM 強化
責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2010-02-24 14:24:35

.NET 4.0

2010-04-28 17:39:26

網(wǎng)絡(luò)負載均衡

2015-12-01 17:09:11

金融轉(zhuǎn)型華為

2010-09-08 19:35:12

2013-09-13 10:19:27

iOS 7IT

2017-11-17 08:27:21

2017-08-25 10:50:13

運行多云模式

2011-03-24 09:59:01

VMware vSphXenDesktop

2009-11-03 16:04:29

2010-04-12 09:41:01

2018-03-12 12:38:30

混合云私有云云計算

2010-06-24 13:30:36

FTP協(xié)議

2014-08-12 10:41:50

大數(shù)據(jù)

2011-05-18 09:56:15

2014-08-12 10:52:16

大數(shù)據(jù)

2010-11-17 13:23:12

2022-03-01 10:25:20

算法大數(shù)據(jù)殺熟

2020-09-23 16:48:36

人臉識別技術(shù)交通

2015-04-30 09:35:31

程序員心態(tài)飲食

2021-12-27 15:45:12

人工智能AI深度學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品99在线| 日皮视频免费 | 日韩色综合 | 久久亚洲天堂 | 成人国产精品一级毛片视频毛片 | 神马久久久久久久久久 | 成人免费小视频 | 欧美精品一区二区三区在线 | 国产美女视频黄a视频免费 国产精品福利视频 | 久久精品国产亚洲一区二区 | av免费看在线 | 国产成人综合亚洲欧美94在线 | 98成人网| 国产精品一区二区三区在线 | 日本超碰 | 免费视频一区二区 | 久久精品亚洲一区二区三区浴池 | 视频在线一区二区 | 国产精品亚洲第一区在线暖暖韩国 | 久久久久国产一区二区三区 | 国产欧美一区二区三区久久手机版 | 亚洲va欧美va天堂v国产综合 | 欧美在线天堂 | 香蕉久久久 | 久久久国产精品 | 国产精品亚洲成在人线 | 国产小视频自拍 | 久久免费观看视频 | 日韩欧美视频 | 精品在线观看一区 | 国产精品久久av | 美女天堂在线 | 亚洲手机视频在线 | 色爱区综合| 国产ts一区| 国产成人在线观看免费 | 波多野结衣一区二区三区 | 欧美视频福利 | 日韩高清一区 | 亚洲视频 欧美视频 | 黄色在线 |