ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作
在學術寫作中,精準引用與優質文本生成至關重要,現有檢索 - 增強生成系統卻難以滿足需求。今天為大家帶來一篇研究成果介紹,文中提出的ScholarCopilot框架,能訓練大語言模型助力學術寫作。它表現如何?又有哪些創新?快來一探究竟。
參考文獻
@article{wang2024scholarcopilot,
title={ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations},
author = {Wang, Yubo and Ma, Xueguang and Nie, Ping and Zeng, Huaye and Lyu, Zhiheng and Zhang, Yuxuan and Schneider, Benjamin and Lu, Yi and Yue, Xiang and Chen, Wenhu},
journal={arXiv preprint arXiv:2504.00824},
year={2025}
}
摘要
學術寫作既需要連貫的文本生成,也需要對相關文獻進行精確引用。盡管近期的檢索增強生成(RAG)系統在通用文本生成中大幅提升了事實準確性,但其支持專業學術寫作的能力仍較為有限。在本研究中,本研究推出了ScholarCopilot,這是一個統一框架,旨在強化現有的大語言模型,使其能夠生成帶有精準且貼合上下文引用的專業學術文章。ScholarCopilot通過生成檢索令牌[RET]動態判斷何時檢索學術參考文獻,隨后利用該令牌查詢引文數據庫。檢索到的參考文獻會被輸入模型,以優化生成過程。本研究在單一框架內對文本生成和引文檢索任務進行聯合優化,以此提高效率。本研究的模型基于Qwen-2.5-7B構建,并在arXiv上的50萬篇論文上進行訓練。在本研究的評估數據集上,其 top-1檢索準確率達到40.1% ,超越了諸如E5-Mistral-7B-Instruct(15.0%)和BM25(9.8%)等基線模型。在包含1000個學術寫作樣本的數據集上,ScholarCopilot在生成質量(從相關性、連貫性、學術嚴謹性、完整性和創新性等方面衡量)的評分達到16.2/25,顯著優于所有現有模型,包括檢索增強型的Qwen2.5-72B-Instruct等規模更大的模型。用戶研究進一步表明,盡管ScholarCopilot是一個70億參數規模的模型,但在引用質量上的受青睞程度遠超ChatGPT,獲得了100%的偏好度;在整體實用性方面,其偏好度也超過70%。
圖1:傳統檢索增強生成(RAG)系統與本研究提出的ScholarCopilot的對比. 傳統RAG系統(左圖)將檢索和生成過程分開執行,這會導致表示不一致。相比之下,ScholarCopilot(右圖)在文本生成過程中動態生成檢索令牌[RET],用于一體化且具備上下文感知能力的參考文獻檢索。
傳統RAG與ScholarCopilot的對比
本研究介紹的ScholarCopilot是一個用于學術寫作的智能RAG框架,它能夠動態整合文本生成和引文檢索功能。與傳統的分階段檢索和生成方法不同,本研究的系統會依據上下文的變化生成特殊的檢索令牌[RET],暫停文本生成以檢索相關參考文獻,并將其內容融入后續步驟中。檢索令牌的表示通過對比學習進行優化,以便實現高效的相似性搜索。ScholarCopilot還支持在迭代過程中由用戶進行可選的優化,在不增加額外成本的情況下,提升引用準確性和內容連貫性。
數據集管理
本研究構建了一個大規模數據集,包含50萬篇arXiv上的計算機科學論文,其中1000萬條引用來自arXiv,680萬條來自語義學者(論文可能會被多次引用)。數據集的創建涵蓋五個階段:1)論文收集;2)結構解析;3)引文提取;4)參考文獻匹配;5)數據集整合。每篇論文平均有38次引用,其中87%能夠成功匹配到學術數據庫。
訓練方法
ScholarCopilot通過兩個目標對文本生成和引文檢索進行聯合優化:一是用于文本生成的下一個令牌預測,二是用于引文檢索的對比學習。在文本生成方面,它采用標準的自回歸語言建模方法,基于前文的令牌和檢索到的內容最大化當前令牌出現的概率。在引文檢索方面,它運用對比學習優化檢索令牌的表示,增大這些令牌與相關引文之間的相似性,同時降低與無關引文的相似性。正例引用來自真實論文,而負例則通過批量采樣獲取。系統通過最小化一個組合損失函數()來進行訓練。
生成質量評估
本研究對不同基線模型的生成質量進行了比較。主要發現如下:(1)ScholarCopilot的評分為16.21/25 ,超越了參數規模為其10倍的模型;(2)在相關性(3.63)和連貫性(3.66)方面表現尤為突出,可與720億參數規模的模型相媲美;(3)通過本研究統一的生成和引用方法,顯著提升了學術嚴謹性(2.87對比2.26 )。
引文準確性評估
在此,本研究對不同方法的引文檢索性能進行了比較。ScholarCopilot顯著優于E5-Mistral-7B-Instruct和BM25等基線模型,其top-1召回率達到40.1%,recall@10達到64.8% 。
用戶研究
為評估ScholarCopilot的實際應用價值,本研究開展了一項用戶研究,邀請了10位學術人員參與(5名博士、4名碩士、1名本科生),他們的平均寫作經驗為4.2年。參與者使用本研究的系統撰寫學術內容,并從多個維度進行評分。ScholarCopilot在引用準確性(4.6/5)、界面清晰度(4.5/5)和寫作風格(4.5/5)方面獲得了最高分,引用質量指標的平均分為4.3/5。用戶體驗的平均分為3.9/5,由于采用單GPU部署,響應時間得分最低(3.3/5)。內容質量指標方面,寫作風格(4.5/5)和事實準確性(4.3/5)表現出色,而創新性得分最低(2.5/5),這表明該系統擅長生成學術規范的內容,但在提出新穎觀點方面稍顯不足。
本文轉載自??柏企閱文???,作者:柏企
