成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越GPT-4o!開源科研神器登場,4500萬篇論文檢索增強生成靠譜回答

人工智能 新聞
這是由華盛頓大學和艾倫人工智能研究所(Ai2)打造的最新模型OpenScholar。

只需幾秒鐘,開源模型檢索4500篇論文,比GPT-4o還靠譜!

這就是由華盛頓大學和艾倫人工智能研究所(Ai2)打造的最新模型OpenScholar

它還是首個從論文到數據集、模型檢查點都完全開源的科研助手模型。

圖片

在由20位專家進行的500次對比實驗中,72%的情況下他們都覺得OpenScholar的輸出結果超越了人類。

圖片

而且OpenScholar還會附上參考文獻列表,非常貼心:

圖片

圖片

它的功能也非常豐富。

你可以詢問OpenScholar某個研究課題的現狀:“有沒有人嘗試過將檢索增強型LM的檢索庫擴大到萬億級tokens?”

圖片

尋找最新的數據集

圖片

針對某篇論文詢問技術細節

圖片

或者詢問算法的細節,比如機器人算法/ReLU算法等等:

圖片
圖片

有多位網友使用過后表示:做復雜課題也能快速搜集有用的資料,真是科研神器!

圖片
圖片

僅調用8B模型

一句話總結:它存儲了4500萬篇論文的大規模數據,并使用自定義訓練的檢索器、重排器和8B參數語言模型進行檢索,并根據最新的科學文獻內容回答問題。

圖片

具體來說,OpenScholar-8B(OS-8B)系統包括以下組件:

1.開放學者數據存儲:包含超過4500萬篇論文、以及對應的約2.5億段落嵌入。底層論文數據截止到2024年10月。

2.專業檢索器和重排序器:這些工具專門用于從科學文獻數據存儲庫中識別相關段落。

3.專業8B語言模型:這是一個針對科學文獻綜合任務優化的8B參數語言模型,在性能與計算效率之間取得了很好平衡。團隊基于來自迭代自我反饋生成管道生成的合成數據訓練并微調了Llama 3.1 8B。

4.迭代自我反饋生成:在推理過程中,團隊使用迭代自我反饋來通過自然語言反饋精煉模型輸出。每次迭代都額外檢索更多論文,使模型能夠提高回答質量并縮小引用差距。

為了評估 OpenScholar,團隊還開發了ScholarQABench——一個專門用于評估從多篇論文中綜合信息以解決開放式科學問題的基準。

ScholarQABench包含七個數據集:三個專注于單篇論文評估的現有數據集,以及四個需要跨多篇論文綜合的新收集數據集。

圖片

最終在實驗自動評估以及人工評估中,OpenScholar模型的表現優于很多主流模型,包括GPT-4o和Llama 3.1 70B。

圖片

搜索的可靠性方面,OpenScholar更是遠超GPT-4o。

GPT-4o在90%以上的情況下都引用了不存在的論文,而OpenScholar的結果都是來自確定來源。

以及在信息覆蓋率、實用性、相關性等多個維度方面,OpenScholar撰寫的結果都優于GPT-4o。

圖片

運營成本便宜100倍

對比基于OpenAI的GPT-4o和Anthropic的Claude的科研模型可以發現,它們雖然性能很強,但價格昂貴、而且工作原理也不透明。

而OpenScholar正是為了挑戰這些現有的大模型玩家入局的!

據開發人員稱,OpenScholar是首個完全開源的科學助手語言模型——從數據到訓練食譜再到模型檢查點,全部公開!

研究人員可以非常清除地看到模型的訓練過程和數據集的內容等,也可以根據自己的工作進行調整。

這樣一來,規模較小、架構簡單的OpenScholar-8B的運營成本比基于GPT-4o構建的同期系統PaperQA2便宜100倍

對于小型機構、資金不足的實驗室以及發展中國家的研究人員來說,這樣的運營成本非常有吸引力。

不過,目前OpenScholar也有很多局限,比如:

1.OpenScholar可能會引用不那么具有代表性的論文。

例如,在描述特定方法時,它可能未能引用提出該方法的原始論文,而是引用了提及該方法的另一篇論文。

2.OpenScholar有時可能會生成沒有參考文獻支持的響應,或者檢索到該領域不是最相關或最新的論文。

例如:當被問及機器人學中的大型基礎模型時,此響應引用了一篇具有3.07億參數模型的論文,而截至2024年11月,機器人學中當前最大的基礎模型(RT-2)具有550億參數。

3.OpenScholar可能仍然可能生成帶有幻覺的結果,而不是依賴于它檢索到的真實論文。

4.許多科學論文都設置了付費墻

目前出于對版權的尊重,OpenScholar數據存儲庫僅包含公開的論文。這可能會降低模型在較封閉領域回答問題的能力。

團隊表示,未來他們會納入更多論文、升級檢索增強算法,也會對各個領域的經典研究問題和論文進行深入整合,增強OpenScholar的專業程度。

不過,從實驗結果來看,OpenScholar已經是目前表現最好的AI學術研究助理之一啦,感興趣的小伙伴可以直接戳下面的公開資料進行嘗試!

Demo: https://openscholar.allen.ai/
論文: https://openscholar.allen.ai/paper
OpenScholar代碼: https://github.com/AkariAsai/OpenScholar
ScholarQABench數據集代碼: https://github.com/AkariAsai/ScholarQABench
更多測試code: https://github.com/AkariAsai/OpenScholar_ExpertEval

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-03 10:55:22

2025-05-26 09:05:00

2025-02-11 08:00:00

大語言模型檢索增強生成CAG

2023-09-11 09:00:00

檢索增強生成大數據模型自然語言處理

2025-06-06 14:17:11

模型訓練AI

2025-04-15 08:01:12

2023-10-14 17:46:17

RAG提示工程GPT-3

2025-04-08 02:26:00

2024-09-06 13:00:29

2024-05-20 08:31:33

檢索增強生成LLM大型語言模型

2024-08-14 14:30:00

AI訓練

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-11-11 09:47:00

AI開源

2024-06-11 07:26:28

2025-03-31 08:50:00

AI生成模型

2024-09-05 08:24:09

2025-04-01 09:25:09

2025-01-23 16:23:30

2024-08-30 14:35:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美中文字幕一区二区 | 中文字幕综合在线 | 午夜av毛片| 欧美一级片在线观看 | 中文字幕一二三 | 亚洲人成人一区二区在线观看 | 精品成人69xx.xyz | 日韩91 | 夜夜干夜夜操 | 一级黄色播放 | 一区二区国产精品 | 成人精品一区二区三区中文字幕 | 国产精品99久久久久久宅男 | 男女羞羞网站 | 成人国产精品色哟哟 | www视频在线观看 | 在线免费视频一区 | 在线观看涩涩视频 | 亚洲另类春色偷拍在线观看 | av在线视| 亚洲精品白浆高清久久久久久 | 国产高清在线观看 | 久久精品亚洲精品国产欧美 | 亚洲国产成人av好男人在线观看 | 99免费在线| 国产精品久久久久久影院8一贰佰 | 久久精品高清视频 | 精品国产一区二区三区免费 | 午夜爽爽男女免费观看hd | 成人av在线播放 | 国产精品久久久久久久三级 | 国产69精品久久久久777 | 亚洲视频免费在线观看 | 国产精品美女久久久 | 国产伦一区二区三区久久 | 成人性视频免费网站 | 亚洲一区导航 | www.国产| 亚洲婷婷一区 | 91精品在线播放 | 日韩精品一区二区三区中文在线 |