成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

科研黨狂喜!AI預測神經學研究結論超過人類專家水平 | Nature子刊

人工智能 新聞
最近,來自倫敦大學學院、劍橋大學、牛津大學等機構的團隊發布了一個神經學專用基準BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。

LLM可以比科學家更準確地預測神經學的研究結果!

最近,來自倫敦大學學院、劍橋大學、牛津大學等機構的團隊發布了一個神經學專用基準BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。

結果顯示,經過該基準訓練的LLM在預測神經科學結果的準確度方面高達81.4%,遠超人類專家的63%。

在神經學常見的5個子領域:行為/認知、細胞/分子、系統/回路、神經疾病的神經生物學以及發育/塑性和修復中,LLM的表現也都全方位超過了人類專家。

更重要的是,這些模型被證實對于數據沒有明顯的記憶

也就是說,它們已經掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)預測、預測未知的事物。

圖片

這立馬引發科研圈的圍觀。

多位教授和博士后博士后也表示,以后就可以讓LLM幫忙判斷更多研究的可行性了,nice!

圖片
圖片

LLM預測能力全面超越人類專家

讓我們先來看看論文的幾個重要結論:

總體結果:LLMs在BrainBench上的平均準確率為81.4%,而人類專家的平均準確率63.4%。LLMs的表現顯著優于人類專家

圖片

子領域表現:在神經科學的幾個重要的子領域:行為/認知、細胞/分子、系統/回路、神經疾病的神經生物學以及發育/塑性和修復中,LLMs在每個子領域的表現均優于人類專家,特別是在行為認知和系統/回路領域。

圖片

模型對比:較小的模型如Llama2-7B和Mistral-7B與較大的模型表現相當,而聊天或指令優化模型的表現不如其基礎模型。

人類專家的表現:大多數人類專家是博士學生、博士后研究員或教職員工。當限制人類響應為自我報告專業知識的最高20%時,準確率上升到66.2%,但仍低于LLMS。

置信度校準:LLMs和人類專家的置信度都校準良好,高置信度的預測更有可能是正確的。

圖片

記憶評估:沒有跡象表明LLMs記憶了BrainBench項目。使用zlib壓縮率和困惑度比率的分析表明,LLMs學習的是廣泛的科學模式,而不是記憶訓練數據。

全新神經學基準

本論文的一個重要貢獻,就是提出了一個前瞻性的基準測試BrainBench,可以專門用于評估LLM在預測神經科學結果方面的能力。

圖片

那么,具體是怎么做到的呢?

數據收集

首先,團隊利用PubMed獲取了2002年至2022年間332807篇神經科學研究相關的摘要,從PubMed Central Open Access Subset(PMC OAS)中提取了123085篇全文文章,總計13億個tokens。

評估LLM和人類專家

其次,在上面收集的數據的基礎上,團隊為BrainBench創建了測試用例,主要通過修改論文摘要來實現。

具體來說,每個測試用例包括兩個版本的摘要:一個是原始版本,另一個是經過修改的版本。修改后的摘要會顯著改變研究結果,但保持整體連貫性。

測試者的任務是選擇哪個版本包含實際的研究結果

團隊使用Eleuther Al Language Model EvaluationHaress框架,讓LLM在兩個版本的摘要之間進行選擇,通過困惑度(perplexity)來衡量其偏好。困惑度越低,表示模型越喜歡該摘要。

對人類專家行為的評估也是在相同測試用例上進行選擇,他們還需要提供自信度和專業知識評分。最終參與實驗的神經科學專家有171名。

實驗使用的LLM是經過預訓練的Mistral-7B-v0.1模型。通過LoRA技術進行微調后,準確度還能再增加3%。

圖片

評估LLM是否純記憶

為了衡量LLM是否掌握了思維邏輯,團隊還使用zlib壓縮率和困惑度比率來評估LLMs是否記憶了訓練數據。公式如下:

圖片

其中,ZLIB(X)表示文本X的zlib壓縮率,PPL(X)表示文本X的困惑度。

部分研究者認為只能當作輔助

這篇論文向我們展示了神經科學研究的一個新方向,或許未來在前期探索的時候,神經學專家都可以借助LLM的力量進行初步的科研想法篩選,剔除一些在方法、背景信息等方面存在明顯問題的計劃等。

但同時也有很多研究者對LLM的這個用法表示了質疑。

有人認為實驗才是科研最重要的部分,任何預測都沒什么必要:

圖片

還有研究者認為科研的重點可能在于精確的解釋

圖片此外,也有網友指出實驗中的測試方法只考慮到了簡單的AB假設檢驗,真實研究中還有很多涉及到平均值/方差的情況。

圖片

整體來看,這個研究對于神經學科研工作的發展還是非常有啟發意義的,未來也有可能擴展到更多的學術研究領域。

研究人員們怎么看呢?

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-09 08:30:00

AI模型

2014-02-25 10:35:37

神經學程序語言

2025-01-13 13:00:00

AI模型訓練

2022-07-06 14:51:07

人工智能技術研究

2020-11-17 14:53:54

騰訊 蛋白質AI

2024-08-14 14:43:00

2013-05-16 09:44:15

神經學家超級人腦超級計算機

2024-01-16 17:23:39

AI數據

2023-12-11 19:08:03

AI模型

2022-07-12 14:56:30

AI模型研究

2024-01-07 18:00:33

AI模型特點

2022-11-13 12:48:40

AI模型模塊

2023-04-12 15:58:58

2014-07-29 10:22:11

大數據工具分析

2022-05-05 09:10:00

AI芯片設計

2022-02-24 13:54:12

機器學習基因研究

2014-05-04 13:39:15

人臉識別算法

2021-11-22 17:40:08

AI 神經網絡人工智能

2014-04-16 14:26:08

QCon2014

2021-04-07 14:11:04

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费一级淫片aaa片毛片a级 | 中文字幕亚洲精品 | 日韩一级精品视频在线观看 | 99re在线免费视频 | 无人区国产成人久久三区 | 久久精品国内 | 午夜精品久久久久久久久久久久 | 国产精品国产亚洲精品看不卡15 | 在线欧美a| 欧美日韩在线观看一区 | 精品视频一区二区 | 午夜在线小视频 | 久久在线看 | 成人在线观看黄 | 亚洲色图婷婷 | 久久国产日韩 | 精品国产乱码久久久久久中文 | 动漫www.被爆羞羞av44 | 欧美视频 亚洲视频 | 国产成人一区二区三区电影 | 久久久久香蕉视频 | 亚洲精品在线免费看 | 亚洲精品久久久久久一区二区 | 欧美人成在线视频 | av永久 | 成人免费视频网站在线观看 | 欧美在线一区二区三区四区 | 欧美一区二区成人 | 亚洲日韩欧美一区二区在线 | 在线观看中文字幕 | 国产日韩一区二区 | 在线观看免费av网 | 国产美女在线播放 | 最新国产精品 | 久久久久国产一区二区三区 | 91精品观看 | 欧美日韩视频在线第一区 | 亚洲精彩视频在线观看 | 午夜爱爱毛片xxxx视频免费看 | 亚洲欧美中文日韩在线v日本 | gogo肉体亚洲高清在线视 |