成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了

發(fā)布于 2025-5-8 00:18
瀏覽
0收藏

簡介

學術寫作對人工智能系統(tǒng)提出了獨特的挑戰(zhàn),尤其是在準確且在上下文中適當整合引文方面。雖然大型語言模型(LLM)可以生成流暢的學術文本,但它們經(jīng)常遭受引文幻覺——捏造或錯誤歸屬參考文獻——這嚴重限制了它們在學術環(huán)境中的用途。

論文“ScholarCopilot:訓練大型語言模型以使用精確引文進行學術寫作”介紹了一種旨在解決這些局限性的新型框架。ScholarCopilot 由滑鐵盧大學、卡內(nèi)基梅隆大學和 Vector 研究所的研究人員開發(fā),重新構想了 AI 系統(tǒng)在學術寫作中處理引文過程的方式。

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

傳統(tǒng) RAG 與 ScholarCopilot 的比較圖 1:傳統(tǒng)檢索增強生成(左)與 ScholarCopilot 的迭代方法(右)之間的比較,顯示了生成質(zhì)量、檢索準確性和人工評估的性能指標。

與使用順序“檢索然后生成”管道的傳統(tǒng)檢索增強生成 (RAG) 系統(tǒng)不同,ScholarCopilot 實施了一個統(tǒng)一的迭代框架,該框架根據(jù)不斷發(fā)展的生成上下文動態(tài)確定何時需要檢索。這種方法通過將文本生成與精確的引文檢索無縫集成,代表了 AI 輔助學術寫作的重大進步。

理解學術寫作中的挑戰(zhàn)

學術寫作從根本上不同于一般文本生成,因為它對事實準確性、適當歸屬和基于證據(jù)的論證有嚴格的要求。這些品質(zhì)對當前的人工智能系統(tǒng)提出了重大挑戰(zhàn):

1.引文幻覺:現(xiàn)有的 LLM 經(jīng)常生成聽起來合理但捏造的引文,這使得它們在學術工作中不可靠。

2.上下文敏感性:適當?shù)囊奈恢眯枰斫獠粩喟l(fā)展的敘述上下文,并確定在哪里需要支持證據(jù)。

3.檢索-生成錯位:傳統(tǒng)的 RAG 系統(tǒng)使用固定的檢索階段,然后進行生成,這無法根據(jù)開發(fā)中的內(nèi)容調(diào)整檢索決策。

4.用戶控制:學術寫作具有高度的領域特異性,作者需要根據(jù)他們的專業(yè)知識和領域知識來指導引文過程。

這些挑戰(zhàn)突出了當前方法的局限性,這些方法通常將引文視為后處理步驟或預定的檢索階段,而不是寫作過程的組成部分。

ScholarCopilot 框架

ScholarCopilot 通過其代理 RAG 框架,為 AI 輔助學術寫作引入了一種根本不同的方法。其關鍵創(chuàng)新在于其動態(tài)的、上下文感知的引文機制:

1.動態(tài)引文檢測:

-在文本生成過程中,模型確定何時需要引文
 - 生成特殊的 [RET] 標記以指示引文機會

2. 上下文感知的引文檢索:

? 在生成 [RET] 令牌后,生成暫停

? 令牌之前的上下文被編碼為查詢

? 從學術數(shù)據(jù)庫中檢索相關引文

3. 無縫集成:

? 檢索到的引文信息被整合到文本中

? 生成繼續(xù),引文格式正確

? 隨著新的引文機會出現(xiàn),該過程重復進行

這種統(tǒng)一的框架消除了檢索和生成階段之間的分離,從而實現(xiàn)了更自然和準確的引文過程,該過程反映了人類研究人員的工作方式。 如圖2所示,ScholarCopilot動態(tài)地交錯生成和檢索,從而創(chuàng)建了更流暢的寫作過程。

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

工作流程對比圖2:詳細的工作流程比較,顯示了傳統(tǒng)的RAG(左)如何分離檢索和生成,而ScholarCopilot(右)如何動態(tài)地將它們與可選的用戶細化集成在一起。

架構與實現(xiàn)

ScholarCopilot的架構以一個統(tǒng)一的模型為中心,該模型處理文本生成和引文檢索:

1.基礎語言模型:該系統(tǒng)建立在一個70億參數(shù)的LLM之上,該LLM專門為學術寫作任務進行了微調(diào)。

2.檢索令牌生成:該模型學習在上下文中適當?shù)奈恢蒙商厥獾臋z索令牌([RET])。

3.密集向量表示:導致檢索令牌的上下文和引文文檔都被編碼為密集向量表示,以進行相似性匹配。

4.聯(lián)合優(yōu)化:使用下一個令牌預測和對比學習目標的組合,對模型進行文本生成質(zhì)量和檢索準確性的聯(lián)合優(yōu)化。

這種方法的數(shù)學基礎依賴于將上下文和文檔編碼到共享的嵌入空間中,其中相關匹配具有高相似度:

sim(q,d)=Eq?Ed∣∣Eq∣∣?∣∣Ed∣∣sim(q,d)=∣∣Eq∣∣?∣∣Ed∣∣Eq?Ed其中,EqEq 表示編碼的查詢([RET] 之前的上下文),EdEd 表示編碼的引文文檔。 這允許跨大型引文數(shù)據(jù)庫進行高效的相似性搜索。

訓練數(shù)據(jù)準備

ScholarCopilot的開發(fā)需要大量的數(shù)據(jù)處理,以創(chuàng)建高質(zhì)量的訓練數(shù)據(jù)集:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

數(shù)據(jù)準備流程圖3:ScholarCopilot的數(shù)據(jù)準備流程,顯示了從arXiv論文到結構化訓練數(shù)據(jù)的轉(zhuǎn)換。

數(shù)據(jù)集創(chuàng)建過程包括:

1.來源收集:從arXiv下載了670,000篇計算機科學論文,并提取了它們的LaTeX源文件。

2.結構化解析:解析源文件以識別章節(jié)結構、文本內(nèi)容和引文標記。

3.引文提取:從論文中提取了1900萬個書目條目。

4.參考文獻匹配:引文與其完整的參考文獻相匹配,從而產(chǎn)生了1000萬個匹配的引文。

5.訓練集創(chuàng)建:最終的訓練數(shù)據(jù)集包括500,000篇論文,其中包含它們的文本、引文和完整的參考文獻信息。

這個全面的數(shù)據(jù)集使ScholarCopilot能夠?qū)W習學術寫作的模式,包括通常放置引文的位置以及它們與周圍文本的關系。

用于增強引文檢索的對比學習

ScholarCopilot的一項關鍵技術創(chuàng)新是它使用對比學習來優(yōu)化檢索令牌表示:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

對比學習框架圖4:ScholarCopilot的對比學習框架,用于優(yōu)化查詢上下文和相關文檔之間的相似性。

對比學習方法:

1. 將檢索標記之前的內(nèi)容視為查詢

2. 將實際引用的文檔視為正例

3. 將批次中的其他文檔視為負例

4. 優(yōu)化查詢和正例之間更高的相似度,同時降低與負例的相似度

對比損失函數(shù)定義為:

Lcnotallow=?log?exp?(sim(q,d+)/τ)∑d∈{d+,d1?,...,dn?}exp?(sim(q,d)/τ)Lcnotallow=?log∑d∈{d+,d1?,...,dn?}exp(sim(q,d)/τ)exp(sim(q,d+)/τ)其中 ττ 是一個溫度參數(shù),用于控制分布的銳度。這種方法通過教導模型生成具有上下文意義表示的檢索標記,從而顯著提高檢索準確性。

評估與結果

ScholarCopilot 在檢索準確性和生成質(zhì)量方面都進行了評估,結果令人印象深刻:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

檢索準確率結果圖 5:檢索準確率比較,顯示了 ScholarCopilot 在不同召回率閾值下相對于基線方法的性能。

檢索性能:

? Top-1 檢索準確率:40.1%(相比之下,E5-Mistral-7B-Instruct 為 15.0%,BM25 為 9.8%)

? Recall@10:64.8%(是同類模型性能的兩倍多)

生成質(zhì)量:

? 總體生成得分:16.2/25(超過了參數(shù)多 10 倍的模型)

? 在五個維度上的評估:相關性、連貫性、學術嚴謹性、完整性和創(chuàng)新性

這些結果表明,ScholarCopilot 不僅檢索到更準確的引文,而且保持了高質(zhì)量的文本生成。考慮到它優(yōu)于更大的模型,例如 Qwen-2.5-72B-Instruct (15.8/25),盡管參數(shù)明顯更少,但該系統(tǒng)的性能尤其令人印象深刻。

人工評估和用戶體驗

除了自動化指標外,ScholarCopilot 還通過與學術研究人員進行的用戶研究進行了評估:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

人工評估結果圖 6:人工評估結果,比較了 ScholarCopilot 和 ChatGPT 在多個維度上的表現(xiàn)。

人工評估顯示:

? 100% 的參與者認為 ScholarCopilot 的引文質(zhì)量比 ChatGPT“更好”或“好得多”

? 70% 的人認為 ScholarCopilot 的整體有用性“更好”或“好得多”

? 60% 的人發(fā)現(xiàn)易用性有所提高

? 70% 的人報告了更好的時間效率

參與者使用 ScholarCopilot 完成了寫作任務,并使用下圖所示的表格評估了其性能:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

用戶研究表格 1

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

用戶研究表格 2

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區(qū)

示例輸出表格

這些結果證實,ScholarCopilot 為學術寫作者提供了切實的益處,尤其是在引文準確性和管理的關鍵領域。

影響和未來方向

ScholarCopilot 代表了為學術寫作提供可靠的 AI 輔助的重要一步,具有以下幾個重要影響:

1.提高研究效率:通過在保持準確性的同時自動化引文過程,ScholarCopilot 可以顯著減少研究人員在參考文獻管理上花費的時間。

2.學術寫作的民主化:該系統(tǒng)可以通過協(xié)助研究人員完成正確引用的技術方面來幫助降低學術出版的門檻。

3.RAG 技術的進步:檢索和生成的統(tǒng)一迭代方法可能會影響其他知識密集型領域未來的發(fā)展。

4.增強用戶控制:可選的用戶改進階段允許領域?qū)<抑笇б倪^程,從而保持人類判斷在學術寫作中的關鍵作用。

未來研究方向可能包括:

? 將覆蓋范圍擴展到計算機科學以外的其他學科

? 納入更多樣化的引用樣式和格式要求

? 開發(fā)區(qū)分主要來源和次要來源的機制

? 增強系統(tǒng)識別引文覆蓋范圍差距的能力

結論

ScholarCopilot 通過重新構想引用和文本生成如何集成,引入了人工智能輔助學術寫作的范式轉(zhuǎn)變。通過開發(fā)一個統(tǒng)一的框架,該框架動態(tài)地確定何時需要引用,并根據(jù)不斷變化的上下文檢索相關參考文獻,該系統(tǒng)實現(xiàn)了比傳統(tǒng)方法更高的準確性。

在自動評估和人工研究中的出色表現(xiàn)證明了這種方法對學術研究人員的實際價值。 ScholarCopilot 解決了引文幻覺這一關鍵挑戰(zhàn),同時保持了高質(zhì)量的文本生成,甚至優(yōu)于參數(shù)更多的模型。

隨著人工智能越來越多地支持知識工作,像 ScholarCopilot 這樣尊重學術寫作的嚴格標準,同時提高生產(chǎn)力的方法將變得越來越有價值。通過專注于學術寫作的特定需求,而不是一般的文本生成,ScholarCopilot 代表了在真正有用的人工智能研究輔助方面邁出的重要一步。

本文轉(zhuǎn)載自??芝士AI吃魚??,作者:芝士AI吃魚

已于2025-5-8 11:45:44修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 女同久久 | 日韩高清在线观看 | 成人av播放 | 亚洲精品电影在线 | a免费视频| 久草网站| 逼逼视频 | 亚洲精品乱码久久久久久按摩观 | 国产亚洲区 | 久久精品国产亚洲一区二区三区 | 亚洲精品视频一区二区三区 | 国产亚洲精品精品国产亚洲综合 | 日韩在线视频网址 | 日韩和的一区二在线 | 日韩在线一区二区三区 | 婷婷久久五月天 | 精品九九九 | 久久中文字幕av | 无码日韩精品一区二区免费 | 精品免费| 九九国产在线观看 | 久草福利 | 中文字幕亚洲一区二区三区 | 天天干狠狠干 | 国产福利资源在线 | 色久伊人 | 青青草av在线播放 | 亚洲欧美日韩一区二区 | 国产欧美精品一区 | 日批的视频 | 在线精品一区二区 | 亚洲精品久久久久久久久久久 | 91亚洲国产亚洲国产 | 国产视频线观看永久免费 | 97人人爱| 成人av观看 | 在线色网 | 国产69久久精品成人看动漫 | 亚洲欧美日韩精品久久亚洲区 | 国产三区av | 日韩午夜网站 |