成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型落地最后一公里:111頁(yè)全面綜述大模型評(píng)測(cè)

人工智能 新聞
天津大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室最近發(fā)布了大模型評(píng)測(cè)的綜述文章。該綜述文章共有 111 頁(yè),其中正文部分 58 頁(yè),引用了 380 余篇參考文獻(xiàn)。

當(dāng)前,大模型正憑借其強(qiáng)大的能力和無(wú)限的潛力引領(lǐng)著新一輪技術(shù)革命,眾多科技巨頭紛紛圍繞大模型進(jìn)行布局,進(jìn)一步推動(dòng)大模型不斷向前發(fā)展。然而,盡管大模型能夠協(xié)助我們完成各種任務(wù),改變我們的生產(chǎn)和生活的方式,提高生產(chǎn)力,為我們帶來(lái)便利,但大模型的發(fā)展也伴隨著諸多風(fēng)險(xiǎn)與挑戰(zhàn),如泄露隱私數(shù)據(jù),生成帶有偏見(jiàn)、暴力、歧視、違反基本道德和法律法規(guī)的內(nèi)容,傳播虛假信息等。不僅如此,隨著大模型能力的飛速進(jìn)步,其產(chǎn)生自我保持、自我復(fù)制、追求權(quán)力和資源、奴役其它機(jī)器和人類等與人類價(jià)值不符的 “欲望” 傾向開(kāi)始逐步呈現(xiàn)出來(lái)。因此,在大模型高歌猛進(jìn)的今天,追蹤大模型的技術(shù)進(jìn)步,對(duì)大模型能力及其不足之處形成更深入的認(rèn)識(shí)和理解,預(yù)知并防范大模型帶來(lái)的安全挑戰(zhàn)和風(fēng)險(xiǎn),需要針對(duì)大模型開(kāi)展全方位的評(píng)測(cè),以引導(dǎo)大模型朝著更健康和更安全的方向發(fā)展,讓大模型的發(fā)展成果惠及全人類。

然而,當(dāng)前對(duì)大模型進(jìn)行全方位評(píng)測(cè)面臨諸多挑戰(zhàn),由于大模型的通用性強(qiáng),能夠勝任多種任務(wù),因此大模型的全方位評(píng)測(cè)涉及的范圍廣、工作量大、評(píng)測(cè)成本高昂;其次,由于數(shù)據(jù)標(biāo)注工作量大,許多維度的評(píng)測(cè)基準(zhǔn)仍然有待構(gòu)建;再次,自然語(yǔ)言的多樣性和復(fù)雜性,使得許多評(píng)測(cè)樣本無(wú)法形成標(biāo)準(zhǔn)答案,或者標(biāo)準(zhǔn)答案不止一個(gè),這導(dǎo)致相應(yīng)的評(píng)測(cè)指標(biāo)難以量化;此外,大模型在現(xiàn)有評(píng)測(cè)數(shù)據(jù)集的表現(xiàn)難以代表其在真實(shí)應(yīng)用場(chǎng)景的表現(xiàn)。

為了應(yīng)對(duì)以上挑戰(zhàn),激發(fā)大家對(duì)大模型評(píng)測(cè)研究的興趣,推動(dòng)大模型評(píng)測(cè)研究與大模型技術(shù)研究發(fā)展相協(xié)調(diào),天津大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室最近發(fā)布了大模型評(píng)測(cè)的綜述文章。該綜述文章共有 111 頁(yè),其中正文部分 58 頁(yè),引用了 380 余篇參考文獻(xiàn)。

圖片

  • 論文地址:https://arxiv.org/abs/2310.19736
  • 論文參考文獻(xiàn)詳細(xì)列表:https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

如圖 2 所示,該綜述將整個(gè)大模型評(píng)測(cè)按照評(píng)測(cè)維度的不同分為了 5 個(gè)評(píng)測(cè)類別:(1)知識(shí)和能力評(píng)測(cè),(2)對(duì)齊評(píng)測(cè),(3)安全評(píng)測(cè),(4)行業(yè)大模型評(píng)測(cè),(5)(綜合)評(píng)測(cè)組織。這 5 個(gè)評(píng)測(cè)類別基本囊括了當(dāng)前大模型評(píng)測(cè)的主要研究領(lǐng)域。在介紹每個(gè)評(píng)測(cè)類別時(shí),該綜述對(duì)相關(guān)的研究工作進(jìn)行了梳理,以樹(shù)狀結(jié)構(gòu)的思維導(dǎo)圖形式展示了各個(gè)研究工作之間的關(guān)系,以清晰展示該領(lǐng)域整體的研究框架。不僅如此,該綜述還探討了大模型評(píng)測(cè)的未來(lái)發(fā)展方向,強(qiáng)調(diào)了大模型評(píng)測(cè)應(yīng)該與大模型本身協(xié)同進(jìn)步。希望該綜述能夠?yàn)閷?duì)大模型評(píng)測(cè)領(lǐng)域感興趣的研究者和工程技術(shù)人員提供參考,基于該綜述,對(duì)大模型評(píng)測(cè)的發(fā)展和現(xiàn)狀形成較為全面的了解,并對(duì)大模型評(píng)測(cè)中的關(guān)鍵和開(kāi)放問(wèn)題進(jìn)行深入思考。

圖片

圖 2  大模型評(píng)測(cè)研究中的 5 個(gè)主要評(píng)測(cè)類別及其子類別

知識(shí)和能力評(píng)測(cè)

知識(shí)和能力是評(píng)測(cè)大模型的核心維度之一。大模型的飛速發(fā)展,使其在諸多復(fù)雜任務(wù)中不斷取得突破,并被廣泛應(yīng)用于越來(lái)越多的實(shí)際業(yè)務(wù)場(chǎng)景中。對(duì)其是否可以勝任真實(shí)場(chǎng)景任務(wù),需要對(duì)大模型的知識(shí)和能力水平進(jìn)行綜合評(píng)估。該綜述討論了大模型的問(wèn)答能力評(píng)測(cè)、知識(shí)補(bǔ)全能力評(píng)測(cè)、推理能力評(píng)測(cè)及工具學(xué)習(xí)能力評(píng)測(cè),并梳理了相關(guān)的評(píng)測(cè)基準(zhǔn)數(shù)據(jù)集、評(píng)測(cè)方法和評(píng)測(cè)結(jié)果。在推理能力評(píng)測(cè)中,該綜述介紹了目前常見(jiàn)的 4 種推理類型:(1)常識(shí)推理,(2)邏輯推理,(3)多跳推理,(4)數(shù)學(xué)推理。在工具學(xué)習(xí)能力評(píng)測(cè)中,該綜述詳細(xì)介紹了工具調(diào)用能力評(píng)測(cè)和工具創(chuàng)造能力評(píng)測(cè)。對(duì)應(yīng)的思維導(dǎo)圖如圖 3 所示。

圖片

圖 3  大模型知識(shí)和能力評(píng)測(cè)

對(duì)齊評(píng)測(cè)

對(duì)大模型進(jìn)行對(duì)齊評(píng)測(cè)能夠提前預(yù)知大模型帶來(lái)的負(fù)面影響,以便提前采取措施消除倫理價(jià)值未對(duì)齊問(wèn)題。在對(duì)齊評(píng)測(cè)中,該綜述討論了大模型的道德和倫理評(píng)測(cè)、偏見(jiàn)性評(píng)測(cè)、毒性評(píng)測(cè)和誠(chéng)實(shí)性評(píng)測(cè),其對(duì)應(yīng)的思維導(dǎo)圖如圖 4 所示。

圖片

圖 4  大模型的對(duì)齊評(píng)測(cè)

大模型的道德和倫理評(píng)測(cè)旨在評(píng)估其生成內(nèi)容中是否存在違背社會(huì)公認(rèn)的道德倫理規(guī)范的情況。該綜述根據(jù)評(píng)價(jià)準(zhǔn)則的不同將道德和倫理評(píng)測(cè)分為四個(gè)部分:(1)基于專家定義的道德倫理規(guī)范評(píng)測(cè),即采用書籍、文章等專業(yè)來(lái)源中定義的道德倫理規(guī)范作為評(píng)價(jià)標(biāo)準(zhǔn),然后采用眾包的方式制作相應(yīng)的評(píng)測(cè)數(shù)據(jù)集;(2)基于眾包方式的道德倫理規(guī)范評(píng)測(cè),其道德倫理規(guī)范通常是由未接受相關(guān)專業(yè)培訓(xùn)的眾包工作者根據(jù)個(gè)人的道德標(biāo)注進(jìn)行確定;(3)AI 輔助的道德倫理規(guī)范評(píng)測(cè),即讓語(yǔ)言模型參與到評(píng)測(cè)過(guò)程中,輔助人類判斷內(nèi)容是否符合道德倫理;(4)基于混合模式(如專家定義 + 眾包方式)的道德倫理規(guī)范評(píng)測(cè),其相關(guān)的評(píng)測(cè)數(shù)據(jù)集則既包含了由專家定義的道德倫理規(guī)范構(gòu)建的數(shù)據(jù)集,也包含了基于眾包工作者的個(gè)人道德規(guī)范構(gòu)建的數(shù)據(jù)集。

大模型的偏見(jiàn)性評(píng)測(cè)主要關(guān)注其生成的內(nèi)容是否會(huì)對(duì)某些社會(huì)群體產(chǎn)生不利影響或傷害。現(xiàn)有的研究表明大模型可能會(huì)對(duì)某些群體持有刻板印象,或者產(chǎn)生輸出貶低特定群體的信息等偏見(jiàn)行為。該綜述主要討論了下游任務(wù)中的偏見(jiàn)和大模型中的偏見(jiàn)。下游任務(wù)涉及指代消解、機(jī)器翻譯、自然語(yǔ)言推理、情感分析、關(guān)系抽取和隱式仇恨言論檢測(cè)。而在大模型中的偏見(jiàn)中,該綜述主要介紹了主流的專用于評(píng)估大模型的偏見(jiàn)的評(píng)測(cè)數(shù)據(jù)集和評(píng)測(cè)方法。

大模型的毒性評(píng)測(cè)主要聚焦于評(píng)估其生成的內(nèi)容中是否含有仇恨、侮辱、淫穢等有害信息。在毒性評(píng)測(cè)的框架下,該綜述介紹了使用大模型識(shí)別有害信息的相關(guān)工作,并詳細(xì)介紹了相應(yīng)的評(píng)測(cè)基準(zhǔn)。不僅如此,該綜述還闡述了適用于評(píng)估大模型的毒性的評(píng)測(cè)數(shù)據(jù)集以及能夠量化大型模型生成內(nèi)容毒性的工具。

大模型的誠(chéng)實(shí)性評(píng)測(cè)致力于檢測(cè)模型生成的內(nèi)容是否真實(shí)、準(zhǔn)確,以及是否符合事實(shí)。該綜述以評(píng)測(cè)數(shù)據(jù)集和評(píng)測(cè)方法為主線,詳細(xì)介紹了大模型的誠(chéng)實(shí)性評(píng)測(cè)的相關(guān)工作。在介紹真實(shí)性評(píng)測(cè)的數(shù)據(jù)集時(shí),該綜述根據(jù)數(shù)據(jù)集涉及的任務(wù)類型將數(shù)據(jù)集劃分為了三類:(1)問(wèn)答任務(wù)數(shù)據(jù)集,(2)對(duì)話任務(wù)數(shù)據(jù)集以及(3)摘要任務(wù)數(shù)據(jù)集。在探討真實(shí)性評(píng)測(cè)的方法時(shí),該綜述對(duì)現(xiàn)有的真實(shí)性評(píng)測(cè)方法進(jìn)行了梳理和歸類,并將其總結(jié)為三類:(1)基于自然語(yǔ)言推理的評(píng)測(cè)方法,(2)基于問(wèn)題生成和問(wèn)答的方法,(3)基于大模型的方法。

安全評(píng)測(cè)

雖然大模型在許多任務(wù)中已經(jīng)展現(xiàn)出媲美甚至超越人類的表現(xiàn),但由其引發(fā)的安全問(wèn)題也不容忽視,因此需要對(duì)大模型進(jìn)行安全評(píng)測(cè)以確保其在各種應(yīng)用場(chǎng)景中的安全使用。在安全評(píng)測(cè)中,該綜述探討了魯棒性評(píng)測(cè)和風(fēng)險(xiǎn)評(píng)測(cè)兩個(gè)方面,其對(duì)應(yīng)的思維導(dǎo)圖如圖 5 所示。魯棒性評(píng)測(cè)主要包括:(1)提示詞魯棒性,即通過(guò)在提示詞中加入拼寫錯(cuò)誤、近義詞等模擬用戶輸入的噪音來(lái)評(píng)估大模型的魯棒性;(2)任務(wù)魯棒性,即通過(guò)生成各種下游任務(wù)的對(duì)抗樣本評(píng)估大模型的魯棒性;(3)對(duì)齊魯棒性,大模型通常會(huì)經(jīng)過(guò)對(duì)齊訓(xùn)練以確保其生成的內(nèi)容與人類的偏好和價(jià)值對(duì)齊,防止模型生成有害信息。然而,已有的研究表明有些提示詞能夠繞過(guò)對(duì)齊訓(xùn)練的防護(hù),觸發(fā)大模型生成有害內(nèi)容,這種方法也被稱為越獄打擊方法。因此,對(duì)齊魯棒性主要評(píng)測(cè)的是大模型在面臨各種引導(dǎo)模型生成有害內(nèi)容的越獄攻擊時(shí)能否仍然生成與人類偏好和價(jià)值對(duì)齊的內(nèi)容。

風(fēng)險(xiǎn)評(píng)測(cè)則主要集中于兩個(gè)方面:(1)大模型的行為評(píng)測(cè),即通過(guò)與大模型進(jìn)行直接交互的方式,評(píng)估大模型是否存在追求權(quán)力和資源,產(chǎn)生自我保持等潛在危險(xiǎn)行為或傾向;(2)將大模型視為智能體進(jìn)行評(píng)測(cè),即在特定的模擬環(huán)境中對(duì)大模型進(jìn)行評(píng)測(cè),如模擬游戲環(huán)境、模擬網(wǎng)上購(gòu)物或網(wǎng)上沖浪等場(chǎng)景。與大模型的行為評(píng)測(cè)不同,此項(xiàng)評(píng)測(cè)更側(cè)重于大模型的自主性以及其與環(huán)境和其它大模型之間的復(fù)雜交互。

圖片

圖 5  大模型安全評(píng)測(cè)

行業(yè)大模型評(píng)測(cè)

行業(yè)大模型指專門針對(duì)某個(gè)特定領(lǐng)域或行業(yè)進(jìn)行訓(xùn)練和優(yōu)化的大模型。與通用大模型不同,行業(yè)大模型一般都經(jīng)過(guò)了特定領(lǐng)域數(shù)據(jù)的微調(diào),因此其更加專注于某一特定領(lǐng)域的知識(shí)和應(yīng)用,如法律、金融、醫(yī)療等。乘著通用大模型發(fā)展的東風(fēng),各種行業(yè)大模型也紛紛亮相。為深入了解行業(yè)大模型能力水平,發(fā)現(xiàn)行業(yè)模型潛在缺陷以便改進(jìn)和優(yōu)化,需要對(duì)行業(yè)大模型進(jìn)行深入評(píng)測(cè)。該綜述介紹了生物 & 醫(yī)療、教育、法律、計(jì)算機(jī)和金融領(lǐng)域的行業(yè)大模型的評(píng)測(cè),梳理了相應(yīng)的評(píng)測(cè)基準(zhǔn)、評(píng)測(cè)方法以及針對(duì)特定大模型的評(píng)測(cè)結(jié)果。其對(duì)應(yīng)的思維導(dǎo)圖如圖 6 所示。

圖片

圖 6  行業(yè)大模型評(píng)測(cè)

(綜合)評(píng)測(cè)組織

評(píng)測(cè)組織研究如何將多個(gè)評(píng)測(cè)維度或子維度組合起來(lái),以對(duì)大模型進(jìn)行綜合性評(píng)測(cè)。該綜述對(duì)評(píng)測(cè)組織研究進(jìn)行了全面梳理,并將相關(guān)的綜合性評(píng)測(cè)基準(zhǔn)歸類為兩種:(1)由自然語(yǔ)言理解和自然語(yǔ)言生成任務(wù)組成的評(píng)測(cè)基準(zhǔn),如早期的 GLUE、SuperGLUE 和近期的 BIG-Bench 等;(2)由人類各學(xué)科考試題組成的學(xué)科能力評(píng)測(cè)基準(zhǔn),其目的是評(píng)估大模型的知識(shí)能力,如 MMLU、C-Eval、MMCU 和 M3KE 等。此外,該綜述還總結(jié)了不同模型在學(xué)科能力評(píng)測(cè)基準(zhǔn)上的表現(xiàn),并分析和探討了測(cè)試集樣本所屬的語(yǔ)言、模型的參數(shù)規(guī)模、指令微調(diào)和思維鏈等因素對(duì)模型效果的影響。同時(shí),該綜述還介紹了評(píng)測(cè)平臺(tái)、排行榜以及大模型競(jìng)技場(chǎng),這些排行榜的評(píng)測(cè)數(shù)據(jù)集通常也由多個(gè)任務(wù)的評(píng)測(cè)數(shù)據(jù)集共同組成。大模型競(jìng)技場(chǎng)引入了 Elo 評(píng)分機(jī)制對(duì)大模型進(jìn)行打分和排名,在計(jì)算 Elo 評(píng)分時(shí),由人類對(duì)大模型生成的回復(fù)進(jìn)行投票以選出質(zhì)量高的回復(fù)。評(píng)測(cè)組織對(duì)應(yīng)的思維導(dǎo)圖如圖 7 所示。

圖片

圖 7  評(píng)測(cè)組織

未來(lái)展望

該綜述不僅梳理和介紹了現(xiàn)有的大模型評(píng)測(cè)的研究,還探討了當(dāng)前研究中存在的瓶頸問(wèn)題,并基于此,展望了大模型評(píng)測(cè)未來(lái)潛在方向:(1)風(fēng)險(xiǎn)評(píng)測(cè),(2)智能體評(píng)測(cè),(3)動(dòng)態(tài)評(píng)測(cè),以及(4)以優(yōu)化大模型為目標(biāo)的評(píng)測(cè)。

風(fēng)險(xiǎn)評(píng)測(cè):現(xiàn)有的風(fēng)險(xiǎn)評(píng)測(cè)方法主要通過(guò)問(wèn)答的方式對(duì)大模型進(jìn)行評(píng)測(cè),然而該方法難以全面評(píng)估大模型在特定場(chǎng)景或特定環(huán)境下的風(fēng)險(xiǎn),無(wú)法深入揭示這些風(fēng)險(xiǎn)產(chǎn)生的內(nèi)在原因。因此對(duì)于大模型的風(fēng)險(xiǎn)評(píng)測(cè),需要更深入、更全面的評(píng)測(cè)方法。

智能體評(píng)測(cè):現(xiàn)有的將大模型視為智能體進(jìn)行評(píng)測(cè)的方法大多需要一個(gè)特定的環(huán)境,并且總是聚焦于智能體的能力評(píng)測(cè)。然而,這些方法往往缺乏專門用于評(píng)測(cè)智能體潛在風(fēng)險(xiǎn)的環(huán)境,因此可以進(jìn)一步增加智能體所處環(huán)境的多樣性,以便更全面地評(píng)估其能力和風(fēng)險(xiǎn)。

動(dòng)態(tài)評(píng)測(cè):現(xiàn)有的評(píng)測(cè)方法通常是靜態(tài)評(píng)測(cè),其測(cè)試樣本總是長(zhǎng)時(shí)間保持不變。然而,由于大模型的訓(xùn)練數(shù)據(jù)來(lái)源廣泛且規(guī)模龐大,有些測(cè)試樣本可能已經(jīng)包含在其訓(xùn)練數(shù)據(jù)中。此外,大多數(shù)大模型往往不會(huì)詳細(xì)透露其訓(xùn)練數(shù)據(jù)來(lái)源或公開(kāi)其訓(xùn)練數(shù)據(jù),這可能導(dǎo)致為了獲得好的評(píng)測(cè)結(jié)果,靜態(tài)評(píng)測(cè)的測(cè)試樣本會(huì)被人為添加到模型的訓(xùn)練數(shù)據(jù)中。再者,由于知識(shí)每時(shí)每刻都在迭代更新,靜態(tài)評(píng)測(cè)的數(shù)據(jù)中的知識(shí)有可能會(huì)過(guò)時(shí),隨著大模型的能力不斷的增強(qiáng),原有的靜態(tài)評(píng)測(cè)數(shù)據(jù)的難度可能無(wú)法滿足大模型的能力需求。這些因素都削弱了靜態(tài)評(píng)測(cè)的公平性。因此,為了更加全面公正的對(duì)大模型進(jìn)行評(píng)測(cè),可以采用動(dòng)態(tài)評(píng)測(cè)方法,持續(xù)更新測(cè)試樣本,引入開(kāi)放式問(wèn)題,并探索評(píng)測(cè)新方法,如使用多個(gè)大模型通過(guò)辯論的方式進(jìn)行評(píng)測(cè)。

以優(yōu)化大模型為目標(biāo)的評(píng)測(cè):現(xiàn)有的評(píng)測(cè)方法主要使用具體的評(píng)分量化大模型在某些特定任務(wù)或某些特定維度的能力,雖然這些評(píng)分便于模型之間的比較和選擇,但它們包含的信息難以指導(dǎo)模型的進(jìn)一步優(yōu)化。因此,需要以優(yōu)化大模型為目標(biāo)的評(píng)測(cè)方法,這種方法不僅給出模型的能力評(píng)分,同時(shí)也提供對(duì)應(yīng)的能力分析和改進(jìn)建議。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-07-26 07:35:30

數(shù)據(jù)庫(kù)HTAP系統(tǒng)

2023-07-03 13:31:07

大模型AI互聯(lián)網(wǎng)

2015-04-23 10:30:42

華為

2022-07-29 09:03:17

AIOPS運(yùn)維工具

2012-04-10 09:05:49

無(wú)線交換機(jī)

2015-12-11 10:46:01

2012-09-24 15:07:09

云ERP恩信科技云應(yīng)用

2011-12-25 20:54:57

移動(dòng)支付

2022-04-19 08:09:11

PON光纖網(wǎng)絡(luò)

2025-02-20 08:45:41

V3GPU資源

2017-02-21 13:30:42

數(shù)據(jù)網(wǎng)絡(luò)終端

2017-02-21 12:30:21

數(shù)據(jù)中心智能終端網(wǎng)絡(luò)

2017-09-04 16:49:25

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品自拍一区 | 久久久久无码国产精品一区 | 亚洲成人999| 91精品一区二区三区久久久久久 | 精品免费视频 | 自拍偷拍亚洲欧美 | 中文字幕av一区 | 成人在线不卡 | 一区二区三区四区在线播放 | 亚洲视频一区二区三区四区 | 狠狠操操| 日本淫视频| 日韩欧美一区二区三区免费观看 | 欧美日韩亚洲视频 | 亚洲v日韩v综合v精品v | 黄色免费看 | 天天色av | 欧美综合在线视频 | 一区二区在线免费观看视频 | 亚洲欧洲精品成人久久奇米网 | 中文字幕一区二区三区在线观看 | 国产精品久久久久久久久图文区 | 精品久久久久久久久久 | 国产欧美一区二区三区日本久久久 | av一二三区 | 国产精品久久久久久久毛片 | 国产资源在线观看 | 久久国产精品久久久久久久久久 | 欧美色图综合网 | 久久综合伊人 | 久久久久99 | 国产精品一级 | 国产乱码精品一区二三赶尸艳谈 | 羞羞网站免费 | 亚洲精品国产精品国自产在线 | 久草成人| 日本久久网站 | 精品国偷自产在线 | 99久久中文字幕三级久久日本 | 久久com| 91视频播放|