成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

戰(zhàn)勝100多位NLP研究人員!楊笛一團(tuán)隊(duì)最新百頁(yè)論文:首次統(tǒng)計(jì)學(xué)上證明,LLM生成的idea新穎性優(yōu)于人類(lèi)

人工智能 新聞
斯坦福大學(xué)的最新研究通過(guò)大規(guī)模實(shí)驗(yàn)發(fā)現(xiàn),盡管大型語(yǔ)言模型(LLMs)在新穎性上優(yōu)于人類(lèi)專(zhuān)家的想法,但在可行性方面略遜一籌,還需要進(jìn)一步研究以提高其實(shí)用性。

大型語(yǔ)言模型(LLMs)在各個(gè)領(lǐng)域都是一個(gè)優(yōu)秀的助手,廣大科研人員也對(duì)LLM在加速科學(xué)發(fā)現(xiàn)方面的潛力充滿期待,比如已經(jīng)有研究提出了能夠自主生成和驗(yàn)證新想法的研究智能體。

然而,至今還沒(méi)有評(píng)估結(jié)果能夠證明LLM系統(tǒng)能夠生成新穎的、達(dá)到專(zhuān)家水平的想法(idea),更不用說(shuō)接手完成整個(gè)研究流程了。

為了填補(bǔ)這一空白,斯坦福大學(xué)的研究人員最近發(fā)布了耗時(shí)一年完成的新實(shí)驗(yàn),獲得了第一個(gè)具有統(tǒng)計(jì)學(xué)意義的結(jié)論:LLM生成的想法比人類(lèi)專(zhuān)家撰寫(xiě)的想法更新穎!

圖片

論文鏈接:https://arxiv.org/pdf/2409.04109

在論文中,研究人員設(shè)計(jì)了一個(gè)完整的實(shí)驗(yàn),可以評(píng)估模型在新研究思路生成方面的能力,同時(shí)對(duì)可能的干擾因素進(jìn)行控制,首次將專(zhuān)家級(jí)的自然語(yǔ)言處理(NLP)研究人員與LLM創(chuàng)意代智能體進(jìn)行直接比較。

實(shí)驗(yàn)招募了超過(guò)100名高水平NLP研究人員來(lái)撰寫(xiě)新想法,然后對(duì)LLM生成的想法和人類(lèi)想法進(jìn)行盲審,參與者來(lái)自 36 個(gè)不同的機(jī)構(gòu),大部分是博士和博士后。

通過(guò)這種方式,研究人員首次得出「LLM在研究創(chuàng)意生成」能力的統(tǒng)計(jì)顯著結(jié)論:LLM生成的想法在新穎性方面優(yōu)于人類(lèi)專(zhuān)家的想法(p < 0.05),但在可行性方面略遜一籌。

在深入研究基線模型時(shí),研究人員發(fā)現(xiàn)了構(gòu)建和評(píng)估研究智能體中的一些開(kāi)放性問(wèn)題,包括LLM自我評(píng)估的不足以及在生成過(guò)程中缺乏多樣性。

在實(shí)驗(yàn)過(guò)程中,研究人員意識(shí)到,即使是專(zhuān)家,對(duì)想法新穎性的判斷可能也非常困難,因此,文中提出了一個(gè)端到端的研究設(shè)計(jì),招募研究人員將這些想法轉(zhuǎn)化為完整的項(xiàng)目。

問(wèn)題設(shè)置

研究人員將科研想法評(píng)估(research idea evaluation)分為三個(gè)獨(dú)立的子部分,主要關(guān)注潛在的混雜因素,如研究領(lǐng)域、研究想法的格式和評(píng)估過(guò)程。

1. 想法本身,根據(jù)指令產(chǎn)生;

2. 傳達(dá)想法的書(shū)面報(bào)告(writeup);

3. 專(zhuān)家對(duì)書(shū)面報(bào)告的評(píng)估。

構(gòu)想的范圍和指令(Ideation Scope and Instructions )

研究想法既可以是一個(gè)能夠提高模型性能的技巧,也可以是博士論文中描述的大規(guī)模研究計(jì)劃,任何關(guān)于構(gòu)想的實(shí)驗(yàn)都必須仔細(xì)平衡研究想法的「現(xiàn)實(shí)性」和「趣味性」。

受思維鏈等項(xiàng)目的啟發(fā),一些簡(jiǎn)單的提示思路就能大幅提升LLM的性能,還能夠在不復(fù)雜的計(jì)算硬件上執(zhí)行,所以研究人員選擇「基于提示的自然語(yǔ)言處理」研究作為初步實(shí)驗(yàn)領(lǐng)域。

在提示詞的編寫(xiě)思路上,LLM更傾向于安全的主題,與人類(lèi)的偏好不一致,所以研究人員為了統(tǒng)一目標(biāo),從最近的NLP會(huì)議的征稿頁(yè)面中提取了七個(gè)具體的研究主題,包括偏見(jiàn)(bias)、編碼(coding)、安全性(safety)、多語(yǔ)言性(multilingual)、事實(shí)性(factuality)、數(shù)學(xué)(math)和不確定性(uncertainty)。

圖片

想法書(shū)面報(bào)告(idea writeup)

一個(gè)想法只有在被寫(xiě)出來(lái)后,其他人才能以此交流并評(píng)估,但寫(xiě)作過(guò)程會(huì)引入其他混雜因素,例如人類(lèi)研究者可能會(huì)用春秋筆法讓研究?jī)?nèi)容看起來(lái)更高大上,比如包括更多的例子和實(shí)現(xiàn)細(xì)節(jié)。

研究人員從資助申請(qǐng)中使用的指南中獲得靈感,編寫(xiě)了一個(gè)模板來(lái)指定想法提案的結(jié)構(gòu)和詳細(xì)程度,包括標(biāo)題、問(wèn)題陳述、動(dòng)機(jī)、提出的方法、逐步實(shí)驗(yàn)計(jì)劃、測(cè)試用例示例和備選計(jì)劃等字段。

不過(guò),即使有了模板,可能仍然存在微妙的寫(xiě)作風(fēng)格差異,例如,人類(lèi)可能傾向于以更具吸引力和非正式的語(yǔ)氣寫(xiě)作。

為此,研究人員又開(kāi)發(fā)了一個(gè)風(fēng)格標(biāo)準(zhǔn)化提示,使用LLM將所有想法轉(zhuǎn)換為相同的寫(xiě)作和格式化風(fēng)格,而不改變?cè)純?nèi)容。

評(píng)審和評(píng)估(review and evaluation)

對(duì)研究想法的評(píng)審?fù)侵饔^的,研究人員的目標(biāo)是設(shè)計(jì)一個(gè)明確定義所有評(píng)審標(biāo)準(zhǔn)的表格,以盡可能地將評(píng)審過(guò)程標(biāo)準(zhǔn)化和錨定評(píng)估。

研究人員在設(shè)計(jì)評(píng)審表格時(shí),遵循了AI領(lǐng)域會(huì)議(如ACL和ICLR)評(píng)審的最佳實(shí)踐,定義了四個(gè)分解指標(biāo),包括新穎性(novelty)、興奮度(excitement)、可行性(feasibility)和預(yù)期效果(expected effectiveness)。

每個(gè)指標(biāo)在評(píng)審時(shí),都有一個(gè)1-10的數(shù)字評(píng)分,和一段文本作為理由。

盲審評(píng)估從三種不同條件下對(duì)想法進(jìn)行對(duì)比:

1. 人類(lèi)想法(human ideas):由招募的專(zhuān)家研究者撰寫(xiě)的想法提案。

2. AI想法:由LLM智能體生成的想法提案,直接從智能體的輸出中獲取排名靠前的想法。

3. AI想法+人類(lèi)重新排名:由LLM智能體生成的想法提案,再由人工手動(dòng)從LLM智能體生成的所有想法中選擇了排名靠前的想法,以便更好地估計(jì)AI想法的上限質(zhì)量。

想法生成智能體(idea generation agent)

論文檢索

為了使創(chuàng)意生成有據(jù)可依,智能體需要檢索與給定研究主題相關(guān)的論文,以便在生成新創(chuàng)意時(shí)能夠了解相關(guān)研究。

研究人員利用檢索增強(qiáng)生成(RAG),給定一個(gè)研究主題后,例如「能夠提高事實(shí)性并減少大型語(yǔ)言模型幻覺(jué)的新型提示方法」,首先提示一個(gè)LLM生成一系列對(duì)Semantic Scholar API的函數(shù)調(diào)用,然后使用claude-3-5-sonnet-20240620作為智能體的骨干模型,論文檢索的動(dòng)作空間包括:{KeywordQuery(關(guān)鍵詞), PaperQuery(論文ID), GetReferences(論文ID)}。

然后根據(jù)一系列標(biāo)準(zhǔn)對(duì)檢索到的文獻(xiàn)進(jìn)行評(píng)分和排序,包括文獻(xiàn)與主題的相關(guān)性、是否包含計(jì)算實(shí)驗(yàn)的經(jīng)驗(yàn)性研究,以及文獻(xiàn)的創(chuàng)新性和啟發(fā)性,最多檢索120篇論文。

創(chuàng)意生成

研究人員的思路是,首先用LLM為每個(gè)研究主題生成4000個(gè)種子創(chuàng)意,創(chuàng)意生成提示包括示范示例和檢索到的論文;然后用排序器來(lái)從中選取出一小部分高質(zhì)量的,為了從龐大的候選創(chuàng)意池中去除重復(fù)的創(chuàng)意,使用Sentence-Transformers中的all-MiniLM-L6-v2對(duì)所有種子創(chuàng)意進(jìn)行編碼,然后計(jì)算成對(duì)的余弦相似度來(lái)進(jìn)行一輪去重,最后得到大約5%非重復(fù)創(chuàng)意。

創(chuàng)意排名

為了對(duì)創(chuàng)意進(jìn)行排名,研究人員利用了1200篇ICLR 2024會(huì)議中與大型語(yǔ)言模型相關(guān)的論文及其評(píng)審分?jǐn)?shù)和接受決定的數(shù)據(jù)。

結(jié)果發(fā)現(xiàn),當(dāng)直接要求LLMs預(yù)測(cè)論文的最終分?jǐn)?shù)或接受決定時(shí),模型的預(yù)測(cè)準(zhǔn)確性不高,但在成對(duì)比較中判斷哪篇論文更優(yōu)秀時(shí),卻能夠達(dá)到較高的準(zhǔn)確性。

研究人員使用Claude-3.5-Sonnet模型作為自動(dòng)排名器,在零樣本提示下,通過(guò)成對(duì)比較任務(wù)達(dá)到了71.4%的準(zhǔn)確率,優(yōu)于其他模型。

為了確保所有項(xiàng)目提案的排名可靠性,采用瑞士制比賽系統(tǒng)進(jìn)行多輪評(píng)分;在驗(yàn)證集上,發(fā)現(xiàn)排名前10的論文與排名后10的論文在平均評(píng)審分?jǐn)?shù)上有明顯差異,證明了排序器的有效性;在實(shí)驗(yàn)中,選擇了5輪作為評(píng)分標(biāo)準(zhǔn)。

此外,為了比較AI排序器與人類(lèi)專(zhuān)家的差異,研究人員還設(shè)置了一個(gè)條件,即由人工手動(dòng)對(duì)生成的項(xiàng)目提案進(jìn)行重排,結(jié)果顯示兩種排名方法存在一定差異。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-06-17 07:47:00

2025-03-20 13:02:34

2022-01-04 10:19:23

架構(gòu)運(yùn)維技術(shù)

2025-01-24 15:30:00

2014-12-25 09:51:32

2023-05-09 12:27:52

亞馬遜微服務(wù)重構(gòu)

2023-05-17 15:11:23

2023-02-16 20:24:07

OpenAI谷歌ChatGPT

2015-02-02 10:55:10

光纖

2009-12-16 09:52:15

Linux操作系統(tǒng)

2021-04-05 14:25:02

谷歌黑客網(wǎng)絡(luò)安全

2021-02-02 09:32:06

黑客攻擊l安全

2024-02-04 09:31:44

大語(yǔ)言模型

2021-09-02 08:44:06

漏洞網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2017-09-26 11:43:42

互聯(lián)網(wǎng)

2020-10-09 08:34:57

AI

2019-08-23 09:27:25

機(jī)器學(xué)習(xí)NLP誤差分析

2014-08-25 11:06:42

2017-03-27 16:09:58

2024-12-23 13:28:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜在线观看免费 | 亚洲网站在线播放 | 久久久噜噜噜久久中文字幕色伊伊 | 亚洲精品视频在线观看视频 | www.99热.com | 亚洲精品免费在线观看 | 99精品网站 | 狠狠操av | 一级久久久久久 | 日韩精品一区二区在线观看 | 精品亚洲一区二区 | 午夜影院官网 | 日本不卡一区 | 欧美一区二区三区日韩 | 中文字幕高清视频 | 日韩av中文 | 亚洲三区在线播放 | 蜜桃免费一区二区三区 | 91av在线影院 | 精品久久久久久久久久久久 | 成人午夜激情 | 中文字幕欧美日韩 | 国产精品美女久久久久aⅴ国产馆 | 亚洲精品电影在线 | 久久一本 | 在线观看www | 日日干天天操 | 中文字幕韩在线第一页 | 91av入口| 亚洲一区二区三区欧美 | 三级视频国产 | 伊人精品 | 亚洲精品黄色 | 久久99视频 | 羞羞视频网站在线观看 | 国产精品久久久久9999鸭 | 99久久久国产精品 | 亚洲国产视频一区二区 | 欧美日韩高清免费 | 欧美a免费| 精品一区二区三区免费视频 |