成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI自動(dòng)寫學(xué)術(shù)綜述:10分鐘生成6萬字,成本不到四塊錢

人工智能 新聞
上海人工智能實(shí)驗(yàn)室聯(lián)合復(fù)旦大學(xué)、上海交通大學(xué)等多家單位,提出了SurveyForge——一個(gè)自動(dòng)化生成高質(zhì)量學(xué)術(shù)綜述論文的創(chuàng)新框架,該研究已被ACL 2025主會(huì)議接收。

學(xué)術(shù)綜述論文在科學(xué)研究中發(fā)揮著至關(guān)重要的作用,特別是在研究文獻(xiàn)快速增長(zhǎng)的時(shí)代。傳統(tǒng)的人工驅(qū)動(dòng)綜述寫作需要研究者審閱大量文章,既耗時(shí)又難以跟上最新進(jìn)展。而現(xiàn)有的自動(dòng)化綜述生成方法面臨諸多挑戰(zhàn):

AI生成的綜述結(jié)構(gòu)往往缺乏連貫邏輯,組織結(jié)構(gòu)較差,存在寬度和深度的結(jié)構(gòu)失衡問題;在參考文獻(xiàn)方面,經(jīng)常無法引用真正相關(guān)和有影響力的文獻(xiàn),容易引用無關(guān)文獻(xiàn)而忽略核心貢獻(xiàn);評(píng)估方式主要依賴LLM整體質(zhì)量評(píng)估,缺乏對(duì)大綱質(zhì)量、參考文獻(xiàn)相關(guān)性等關(guān)鍵方面的細(xì)粒度分析。

圖片

在此背景下,上海人工智能實(shí)驗(yàn)室聯(lián)合復(fù)旦大學(xué)、上海交通大學(xué)等多家單位,提出了SurveyForge——一個(gè)自動(dòng)化生成高質(zhì)量學(xué)術(shù)綜述論文的創(chuàng)新框架,該研究已被ACL 2025主會(huì)議接收。

實(shí)驗(yàn)結(jié)果顯示,SurveyForge在所有關(guān)鍵指標(biāo)上都實(shí)現(xiàn)了顯著提升:核心參考文獻(xiàn)覆蓋率提升了近一倍,大綱質(zhì)量接近人工撰寫水平,內(nèi)容質(zhì)量在多個(gè)維度均超越現(xiàn)有方法。

更重要的是,系統(tǒng)生成約64k token的綜述僅需不到$0.50(折合3.6元)的成本,整個(gè)過程在10分鐘內(nèi)完成。

圖片

SurveyForge:面向高質(zhì)量綜述生成的創(chuàng)新框架

SurveyForge采用兩階段框架設(shè)計(jì):大綱生成和內(nèi)容生成,通過啟發(fā)式學(xué)習(xí)方法和基于記憶的學(xué)者導(dǎo)航代理,確保生成結(jié)構(gòu)合理的綜述框架和高質(zhì)量的內(nèi)容。

圖片

核心技術(shù)創(chuàng)新主要包括三個(gè)部分。

首先,雙數(shù)據(jù)庫協(xié)同驅(qū)動(dòng)的啟發(fā)式大綱生成機(jī)制

傳統(tǒng)LLM在生成綜述大綱時(shí)常常陷入”報(bào)告式”結(jié)構(gòu),缺乏學(xué)術(shù)寫作的層次感和邏輯性,根本原因在于現(xiàn)有方法缺乏結(jié)構(gòu)化指導(dǎo)和領(lǐng)域知識(shí)支撐。SurveyForge的架構(gòu)創(chuàng)新在于構(gòu)建了研究論文數(shù)據(jù)庫(約60萬篇arXiv計(jì)算機(jī)科學(xué)領(lǐng)域論文)和綜述大綱數(shù)據(jù)庫(約2萬篇綜述文章的層次化大綱結(jié)構(gòu))的協(xié)同機(jī)制,前者提供領(lǐng)域知識(shí)的廣度和深度,后者提供專家級(jí)的結(jié)構(gòu)化模式。

基于這一雙數(shù)據(jù)庫架構(gòu),系統(tǒng)突破性地引入了人類專家的結(jié)構(gòu)化思維模式:首先通過跨數(shù)據(jù)庫知識(shí)融合,同時(shí)檢索主題相關(guān)論文和已有綜述大綱,既獲得內(nèi)容廣度又學(xué)習(xí)結(jié)構(gòu)規(guī)范性;然后采用遞歸構(gòu)建策略,先通過分析專家撰寫的綜述結(jié)構(gòu)模式生成體現(xiàn)全局邏輯的一級(jí)大綱,再針對(duì)每個(gè)章節(jié)結(jié)合領(lǐng)域文獻(xiàn)深入細(xì)化二級(jí)結(jié)構(gòu)。這種由粗到細(xì)、由整體到局部的方法讓AI從單純的文本生成轉(zhuǎn)變?yōu)槟7聦<宜季S的結(jié)構(gòu)化學(xué)習(xí),實(shí)現(xiàn)了知識(shí)內(nèi)容與結(jié)構(gòu)模式的有機(jī)結(jié)合,確保了大綱既有宏觀的邏輯框架,又有微觀的細(xì)節(jié)完整性。

其次,學(xué)者導(dǎo)航代理SANA

現(xiàn)有檢索方法的核心問題在于”遺忘性”——每次檢索都是獨(dú)立的,缺乏上下文連續(xù)性,同時(shí)將各章節(jié)視為孤立單元,未能考慮全局結(jié)構(gòu)和主題連貫性。SANA的設(shè)計(jì)邏輯是讓AI具備類似人類學(xué)者的”研究記憶”,通過三個(gè)創(chuàng)新模塊實(shí)現(xiàn)智能化的文獻(xiàn)檢索與篩選。

子查詢記憶模塊解決了傳統(tǒng)查詢分解的核心缺陷。傳統(tǒng)方法主要通過簡(jiǎn)單提示和LLM實(shí)現(xiàn)查詢分解,不僅需要針對(duì)不同任務(wù)精心調(diào)優(yōu)提示,更容易導(dǎo)致分解的子查詢與原查詢之間存在顯著語義差異,從而降低參考文獻(xiàn)的質(zhì)量。SANA將大綱生成階段檢索的文獻(xiàn)集合作為記憶上下文,結(jié)合包含每個(gè)子章節(jié)標(biāo)題和描述的原查詢,確保查詢分解過程始終圍繞主題核心,避免語義偏移的同時(shí)提高子查詢的精準(zhǔn)性。

檢索記憶模塊則從根本上改變了傳統(tǒng)”全庫檢索”的低效模式。傳統(tǒng)檢索方法通常直接查詢整個(gè)文獻(xiàn)數(shù)據(jù)庫,不僅效率低下且缺乏上下文焦點(diǎn),更重要的是容易產(chǎn)生冗余或不相關(guān)的檢索結(jié)果,限制生成內(nèi)容的整體連貫性。檢索記憶模塊巧妙地將整個(gè)大綱相關(guān)的文獻(xiàn)作為全局記憶,基于嵌入相似度為每個(gè)子查詢檢索最相關(guān)的文獻(xiàn),這種設(shè)計(jì)既提高了檢索精度,又確保了各章節(jié)內(nèi)容與整體框架的語義一致性,真正實(shí)現(xiàn)了從局部到全局的有機(jī)統(tǒng)一。

時(shí)間感知重排序引擎針對(duì)學(xué)術(shù)文獻(xiàn)評(píng)估的復(fù)雜性提出了創(chuàng)新解決方案。現(xiàn)有重排序方法往往局限于表面的語義匹配,忽略了學(xué)術(shù)影響力和時(shí)間因素的重要作用。我們深刻認(rèn)識(shí)到論文發(fā)表日期在確定其領(lǐng)域影響力方面的關(guān)鍵作用,以及分析不同時(shí)期論文對(duì)識(shí)別高質(zhì)量貢獻(xiàn)的重要性。系統(tǒng)將檢索到的文獻(xiàn)按發(fā)表時(shí)間分組(每組跨度2年),組內(nèi)按引用數(shù)進(jìn)行top-k篩選,這種策略不僅整合了文本相關(guān)性、引用影響力和發(fā)表新近性三個(gè)維度,更重要的是實(shí)現(xiàn)了經(jīng)典權(quán)威文獻(xiàn)與前沿新興研究的平衡代表,確保綜述既有深厚的理論基礎(chǔ),又緊跟學(xué)術(shù)前沿。

最后,并行生成與協(xié)調(diào)機(jī)制

長(zhǎng)文檔生成面臨的根本挑戰(zhàn)是如何在保證效率的同時(shí)維持內(nèi)容的一致性。SurveyForge采用的并行生成策略,讓每個(gè)章節(jié)可以獨(dú)立生成內(nèi)容,極大提升了生成速度。但更重要的是其協(xié)調(diào)機(jī)制:通過共享的記憶系統(tǒng),確保各章節(jié)雖然并行生成,但都圍繞統(tǒng)一的主題框架;最后的精煉階段則如同人類編輯的統(tǒng)稿過程,消除重復(fù)、理順邏輯,形成連貫的整體。

SurveyBench:多維度評(píng)估新標(biāo)準(zhǔn)

自動(dòng)化綜述生成領(lǐng)域面臨的最大瓶頸之一是缺乏統(tǒng)一、客觀的評(píng)估標(biāo)準(zhǔn)。

現(xiàn)有評(píng)估方法主要存在三個(gè)關(guān)鍵問題:一是過度依賴LLM自身的內(nèi)部判斷進(jìn)行整體質(zhì)量評(píng)估,缺乏外部客觀基準(zhǔn);二是無法有效評(píng)估關(guān)鍵文獻(xiàn)覆蓋情況,特別是對(duì)領(lǐng)域核心文獻(xiàn)的識(shí)別能力;三是缺乏對(duì)大綱結(jié)構(gòu)、參考文獻(xiàn)質(zhì)量、內(nèi)容質(zhì)量等關(guān)鍵維度的細(xì)粒度分析。這些局限性使得不同方法間的比較缺乏說服力,也難以建立一致的質(zhì)量基準(zhǔn)。

SurveyBench的創(chuàng)新在于將”質(zhì)量”這一抽象概念轉(zhuǎn)化為可量化的指標(biāo)體系。

圖片

研究團(tuán)隊(duì)精心選擇了10個(gè)計(jì)算機(jī)科學(xué)前沿主題,涵蓋多模態(tài)學(xué)習(xí)、大語言模型、計(jì)算機(jī)視覺等領(lǐng)域,每個(gè)主題包含上百篇核心參考文獻(xiàn),從約100篇高質(zhì)量專家撰寫的綜述中系統(tǒng)收集構(gòu)建。

更重要的是,團(tuán)隊(duì)深入分析了頂級(jí)CS會(huì)議的同行評(píng)審標(biāo)準(zhǔn),發(fā)現(xiàn)傳統(tǒng)評(píng)審?fù)蕾囋u(píng)審者的隱性知識(shí)和經(jīng)驗(yàn),難以在自動(dòng)化系統(tǒng)中實(shí)現(xiàn)。

為此,研究團(tuán)隊(duì)系統(tǒng)性地將這些高層次的評(píng)審指導(dǎo)原則分解為更具體、可測(cè)量的組件,最終形成了既保持專家評(píng)審本質(zhì)又便于自動(dòng)化實(shí)施的三維評(píng)估框架。

SAM評(píng)估指標(biāo)系列

參考文獻(xiàn)質(zhì)量(SAM-R):這一指標(biāo)的設(shè)計(jì)基于”核心文獻(xiàn)決定綜述價(jià)值”的學(xué)術(shù)共識(shí)。通過計(jì)算AI綜述與專家策劃基準(zhǔn)的引用文獻(xiàn)重疊度,不僅評(píng)估了文獻(xiàn)選擇的準(zhǔn)確性,更體現(xiàn)了AI系統(tǒng)對(duì)領(lǐng)域核心知識(shí)的把握程度。

大綱質(zhì)量(SAM-O):從主題獨(dú)特性、結(jié)構(gòu)平衡、層次清晰度、邏輯組織四個(gè)維度構(gòu)建綜合評(píng)估體系,分?jǐn)?shù)范圍0-100。這一指標(biāo)的核心價(jià)值在于將”好的大綱”從主觀的定性描述轉(zhuǎn)化為客觀的定量標(biāo)準(zhǔn),通過詳細(xì)的評(píng)估準(zhǔn)則確保LLM評(píng)估的一致性和可靠性。

內(nèi)容質(zhì)量(SAM-C):采用結(jié)構(gòu)質(zhì)量、相關(guān)性、覆蓋度的三維評(píng)估模式,以專家撰寫的高質(zhì)量綜述作為參考標(biāo)準(zhǔn)。這一設(shè)計(jì)確保生成內(nèi)容不僅在形式上符合學(xué)術(shù)寫作規(guī)范,更在實(shí)質(zhì)內(nèi)容上達(dá)到專家級(jí)水平,實(shí)現(xiàn)了形式與內(nèi)容的雙重保障。

實(shí)驗(yàn)結(jié)果與核心發(fā)現(xiàn)

研究團(tuán)隊(duì)在10個(gè)不同主題上對(duì)SurveyForge與AutoSurvey等現(xiàn)有方法進(jìn)行了全面比較,結(jié)果顯示:

圖片

人機(jī)評(píng)估的高度一致性

通過20位計(jì)算機(jī)科學(xué)博士專家的獨(dú)立評(píng)估,驗(yàn)證了自動(dòng)評(píng)估系統(tǒng)的可靠性。自動(dòng)評(píng)估與人工評(píng)估的一致性達(dá)到70%以上,Cohen’s kappa系數(shù)顯示強(qiáng)一致性,這表明SurveyBench不僅是一個(gè)評(píng)估工具,更是一個(gè)可信的質(zhì)量標(biāo)準(zhǔn)。

圖片圖片

技術(shù)組件的有效性驗(yàn)證

系統(tǒng)性的消融實(shí)驗(yàn)證明了每個(gè)技術(shù)組件的必要性:?jiǎn)l(fā)式學(xué)習(xí)使大綱質(zhì)量顯著提升,SANA的各個(gè)模塊都對(duì)最終質(zhì)量產(chǎn)生了積極貢獻(xiàn),時(shí)間感知重排序引擎顯著提升了高質(zhì)量文獻(xiàn)的選擇精度。

圖片圖片

應(yīng)用前景與影響

SurveyForge的價(jià)值不僅在于技術(shù)創(chuàng)新,更在于為學(xué)術(shù)研究生態(tài)帶來的積極變化。對(duì)于初入某一領(lǐng)域的研究者,系統(tǒng)提供了快速獲取領(lǐng)域全景的有效途徑;對(duì)于跨學(xué)科研究,系統(tǒng)降低了知識(shí)整合的門檻;對(duì)于資深研究者,系統(tǒng)可以作為文獻(xiàn)調(diào)研的得力助手,提升研究效率。

自動(dòng)化綜述生成系統(tǒng)不是要替代人類學(xué)者,而是要增強(qiáng)人類的研究能力,讓研究者能夠?qū)⒏嗑ν度氲絼?chuàng)新性思考和深度分析中,而將繁重的文獻(xiàn)整理和初步綜述工作交給AI來完成。

論文鏈接:https://arxiv.org/abs/2503.04629Github

倉(cāng)庫:https://github.com/Alpha-Innovator/SurveyForge

評(píng)估數(shù)據(jù)集:https://huggingface.co/datasets/U4R/SurveyBench

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-06 17:29:23

2025-02-17 10:41:16

2024-07-19 08:34:18

2021-07-15 06:43:11

Bash調(diào)試腳本

2025-06-03 14:19:34

2020-04-20 14:30:27

百度AI視頻

2013-09-13 14:08:01

2025-01-07 13:22:58

2014-06-19 14:59:32

2025-02-03 12:29:29

2020-10-13 18:22:58

DevOps工具開發(fā)

2014-08-08 09:30:04

android scrollview

2021-04-23 09:50:41

topLinux命令

2023-05-24 09:59:16

2009-09-24 09:49:00

網(wǎng)絡(luò)故障的實(shí)際成本

2015-08-19 10:34:54

阿茹汗

2020-07-08 09:27:01

公司短信平臺(tái)

2019-11-25 12:26:26

AI 數(shù)據(jù)人工智能

2022-06-02 15:31:26

深度學(xué)習(xí)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美情趣视频 | 久久久久亚洲精品 | 国内久久精品 | 欧洲一级黄 | 伊人伊人 | 免费福利视频一区二区三区 | 91精品久久久久久综合五月天 | 亚洲一区二区在线视频 | 亚洲一区二区三区在线播放 | 亚洲精品一区二区三区蜜桃久 | 999精品在线 | 欧美天堂一区 | 亚洲国产一区二区三区在线观看 | 欧美成人免费在线视频 | 国产视频1区2区 | 亚洲国产中文字幕 | 欧美色性| 亚洲欧美第一视频 | 福利片在线观看 | 日韩亚洲一区二区 | 欧美在线亚洲 | 欧洲一区视频 | 久久激情av | 一级欧美| 日韩国产欧美一区 | 成人精品一区二区户外勾搭野战 | 久久久久久国产精品mv | 欧美日韩视频在线第一区 | 免费在线视频一区二区 | 国产精品爱久久久久久久 | 国产一区高清 | 日韩中文字幕在线观看 | 91影院在线观看 | 999久久久久久久久 国产欧美在线观看 | 日韩av成人在线 | 精品久久一区 | 放个毛片看看 | 欧美一级特黄aaa大片在线观看 | 草比网站 | 中文字幕精品一区二区三区在线 | 在线观看国产网站 |