成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作

發布于 2025-4-16 06:04
瀏覽
0收藏

在學術寫作中,精準引用與優質文本生成至關重要,現有檢索 - 增強生成系統卻難以滿足需求。今天為大家帶來一篇研究成果介紹,文中提出的ScholarCopilot框架,能訓練大語言模型助力學術寫作。它表現如何?又有哪些創新?快來一探究竟。

參考文獻

@article{wang2024scholarcopilot,
  title={ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations},
  author = {Wang, Yubo and Ma, Xueguang and Nie, Ping and Zeng, Huaye and Lyu, Zhiheng and Zhang, Yuxuan and Schneider, Benjamin and Lu, Yi and Yue, Xiang and Chen, Wenhu},
  journal={arXiv preprint arXiv:2504.00824},
  year={2025}
}

摘要

學術寫作既需要連貫的文本生成,也需要對相關文獻進行精確引用。盡管近期的檢索增強生成(RAG)系統在通用文本生成中大幅提升了事實準確性,但其支持專業學術寫作的能力仍較為有限。在本研究中,本研究推出了ScholarCopilot,這是一個統一框架,旨在強化現有的大語言模型,使其能夠生成帶有精準且貼合上下文引用的專業學術文章。ScholarCopilot通過生成檢索令牌[RET]動態判斷何時檢索學術參考文獻,隨后利用該令牌查詢引文數據庫。檢索到的參考文獻會被輸入模型,以優化生成過程。本研究在單一框架內對文本生成和引文檢索任務進行聯合優化,以此提高效率。本研究的模型基于Qwen-2.5-7B構建,并在arXiv上的50萬篇論文上進行訓練。在本研究的評估數據集上,其 top-1檢索準確率達到40.1% ,超越了諸如E5-Mistral-7B-Instruct(15.0%)和BM25(9.8%)等基線模型。在包含1000個學術寫作樣本的數據集上,ScholarCopilot在生成質量(從相關性、連貫性、學術嚴謹性、完整性和創新性等方面衡量)的評分達到16.2/25,顯著優于所有現有模型,包括檢索增強型的Qwen2.5-72B-Instruct等規模更大的模型。用戶研究進一步表明,盡管ScholarCopilot是一個70億參數規模的模型,但在引用質量上的受青睞程度遠超ChatGPT,獲得了100%的偏好度;在整體實用性方面,其偏好度也超過70%。

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作-AI.x社區

圖1:傳統檢索增強生成(RAG)系統與本研究提出的ScholarCopilot的對比.  傳統RAG系統(左圖)將檢索和生成過程分開執行,這會導致表示不一致。相比之下,ScholarCopilot(右圖)在文本生成過程中動態生成檢索令牌[RET],用于一體化且具備上下文感知能力的參考文獻檢索。

傳統RAG與ScholarCopilot的對比

本研究介紹的ScholarCopilot是一個用于學術寫作的智能RAG框架,它能夠動態整合文本生成和引文檢索功能。與傳統的分階段檢索和生成方法不同,本研究的系統會依據上下文的變化生成特殊的檢索令牌[RET],暫停文本生成以檢索相關參考文獻,并將其內容融入后續步驟中。檢索令牌的表示通過對比學習進行優化,以便實現高效的相似性搜索。ScholarCopilot還支持在迭代過程中由用戶進行可選的優化,在不增加額外成本的情況下,提升引用準確性和內容連貫性。

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作-AI.x社區

數據集管理

本研究構建了一個大規模數據集,包含50萬篇arXiv上的計算機科學論文,其中1000萬條引用來自arXiv,680萬條來自語義學者(論文可能會被多次引用)。數據集的創建涵蓋五個階段:1)論文收集;2)結構解析;3)引文提取;4)參考文獻匹配;5)數據集整合。每篇論文平均有38次引用,其中87%能夠成功匹配到學術數據庫。

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作-AI.x社區

訓練方法

ScholarCopilot通過兩個目標對文本生成和引文檢索進行聯合優化:一是用于文本生成的下一個令牌預測,二是用于引文檢索的對比學習。在文本生成方面,它采用標準的自回歸語言建模方法,基于前文的令牌和檢索到的內容最大化當前令牌出現的概率。在引文檢索方面,它運用對比學習優化檢索令牌的表示,增大這些令牌與相關引文之間的相似性,同時降低與無關引文的相似性。正例引用來自真實論文,而負例則通過批量采樣獲取。系統通過最小化一個組合損失函數()來進行訓練。

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作-AI.x社區

生成質量評估

本研究對不同基線模型的生成質量進行了比較。主要發現如下:(1)ScholarCopilot的評分為16.21/25 ,超越了參數規模為其10倍的模型;(2)在相關性(3.63)和連貫性(3.66)方面表現尤為突出,可與720億參數規模的模型相媲美;(3)通過本研究統一的生成和引用方法,顯著提升了學術嚴謹性(2.87對比2.26 )。

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作-AI.x社區

引文準確性評估

在此,本研究對不同方法的引文檢索性能進行了比較。ScholarCopilot顯著優于E5-Mistral-7B-Instruct和BM25等基線模型,其top-1召回率達到40.1%,recall@10達到64.8% 。

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作-AI.x社區

用戶研究

為評估ScholarCopilot的實際應用價值,本研究開展了一項用戶研究,邀請了10位學術人員參與(5名博士、4名碩士、1名本科生),他們的平均寫作經驗為4.2年。參與者使用本研究的系統撰寫學術內容,并從多個維度進行評分。ScholarCopilot在引用準確性(4.6/5)、界面清晰度(4.5/5)和寫作風格(4.5/5)方面獲得了最高分,引用質量指標的平均分為4.3/5。用戶體驗的平均分為3.9/5,由于采用單GPU部署,響應時間得分最低(3.3/5)。內容質量指標方面,寫作風格(4.5/5)和事實準確性(4.3/5)表現出色,而創新性得分最低(2.5/5),這表明該系統擅長生成學術規范的內容,但在提出新穎觀點方面稍顯不足。

ScholarCopilot:借助精準引用訓練大語言模型助力學術寫作-AI.x社區

本文轉載自??柏企閱文???,作者:柏企

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩有码一区二区三区 | 色综网 | 国产精品毛片无码 | 99视频网| 亚洲国产激情 | 成人免费视频一区 | 日韩第一夜 | 国产视频久久 | 成人av在线大片 | 精品入口麻豆88视频 | 91综合网| 国产99久久精品一区二区永久免费 | 久久国产婷婷国产香蕉 | 中文字幕一区二区三区四区五区 | 国产免费又黄又爽又刺激蜜月al | 国产精品久久久久久久久久久久久 | 国产精品一区二区视频 | 国产福利在线小视频 | 91网站在线看 | 亚洲一区二区中文字幕在线观看 | 日本韩国电影免费观看 | 中文无码日韩欧 | 污视频在线免费观看 | 精品久久久久久久久久久久久久 | 成人国产精品久久久 | 国产精品久久久久久久三级 | 三级视频网站 | 亚洲日日 | 久久av网站| 欧美日韩一区二区三区不卡视频 | 99视频网 | 国产精品久久久久久久久久久免费看 | 欧美午夜一区二区三区免费大片 | 日韩精品一区二区三区第95 | 午夜视频网 | 日韩国产在线 | 国产欧美日韩综合精品一区二区 | 亚洲第一成人av | 日韩一区二| 久久精品99国产精品 | 日韩精品视频网 |