你的生物技術(shù)研究影響力大?MIT的機(jī)器學(xué)習(xí)框架可以預(yù)料到
對于科研人開心莫過于paper被「Accept」,發(fā)表后你的論文影響力如何?你所研究領(lǐng)域在未來潛力怎么樣?......現(xiàn)在,機(jī)器學(xué)習(xí)「突破」傳統(tǒng)評價(jià)標(biāo)準(zhǔn),將以一種新方式去詮釋。
目前,有許多基于論文引用的度量指標(biāo),比如引用次數(shù)、h指數(shù)、期刊影響因子等。這些指標(biāo)不僅是論文質(zhì)量的次優(yōu)指標(biāo),而且還會影響后續(xù)學(xué)術(shù)招聘、晉升和資金籌措方面的次優(yōu)決策等。
而這些指標(biāo)只能提供不完善的、不一致的且易于操縱的研究質(zhì)量度量。隨著機(jī)器學(xué)習(xí)的興起,可以從更多角度去評判他們發(fā)表研究的潛在影響力
基于此,美國麻省理工學(xué)院(MIT)的研究人員建立了一個(gè)名為DELPHI(Dynamic Early-warning by Learning to Predict High Impact,通過學(xué)習(xí)預(yù)測高影響實(shí)現(xiàn)動態(tài)預(yù)警)的人工智能框架,可以通過學(xué)習(xí)以前的科學(xué)出版物中的模式,為未來的高影響力技術(shù)提供「預(yù)警」信號。并解鎖大量現(xiàn)有的但尚未開發(fā)的資源。以更有效、更公平的方式分配有限的資源,從而提高集體部署到科學(xué)中的資源回報(bào)率和技術(shù)。
該研究于5月17日以題為「 Learning on knowledge graph dynamics provides an early warning of impactful research 」發(fā)表在《自然•生物技術(shù)》( Nature Biotechnology )雜志上。
科學(xué)事業(yè)的有效發(fā)展取決于在一組有前途的研究人員和項(xiàng)目中識別和優(yōu)化分配資源的集體能力。反過來,此過程主要取決于直接采用的分配方法,這種分配方法間接地通過雇用、晉升和社論出版物進(jìn)行。
數(shù)字科學(xué)語料庫的規(guī)模激增,有助于開發(fā)新的數(shù)據(jù)驅(qū)動方法。從人工智能到現(xiàn)代科學(xué)企業(yè)產(chǎn)生的大量數(shù)據(jù)的方法應(yīng)用,可提供更早或更有意義的新科學(xué)影響和創(chuàng)新信號。
數(shù)據(jù)驅(qū)動的算法將消化現(xiàn)有的大量高維數(shù)字科學(xué)信息,產(chǎn)生有意義的低維信號,然后將其與人類專業(yè)知識和直覺相結(jié)合。此外,這樣的方法可以包含多個(gè)目標(biāo)函數(shù),可擴(kuò)展到一系列期望的結(jié)果上。
此前的研究已經(jīng)證明從知識圖中提取信號的價(jià)值。但是,目前還沒有框架將這些方法與人工智能方法相結(jié)合,從而使我們能夠從過去中學(xué)到東西,以提高我們識別未來最具影響力的科學(xué)技術(shù)的能力。
本研究提出一個(gè)機(jī)器學(xué)習(xí)框架DELPHI,通過分析科學(xué)文獻(xiàn)中計(jì)算的一系列特征之間的高維關(guān)系,預(yù)測可能產(chǎn)生高影響力的工作。研究人員使用的數(shù)據(jù)集包含1980-2019年期間發(fā)表的1,687,850篇研究論文(42種與生物技術(shù)相關(guān)的期刊),從中得到了論文發(fā)表后1-5年與每篇論文、作者、期刊、網(wǎng)絡(luò)相關(guān)的29個(gè)特征。再用每篇論文的特征訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,讓這個(gè)模型給出影響力「預(yù)警」信號。
從動態(tài)知識圖中收集、構(gòu)建、計(jì)算和學(xué)習(xí)科學(xué)影響預(yù)警信號。(來源:論文)
研究人員使用DELPHI預(yù)測了到2023年將產(chǎn)生巨大影響的50篇最新科學(xué)論文。論文涵蓋的主題包括:用于癌癥治療的DNA納米機(jī)器人、高能量密度鋰氧電池和利用深層神經(jīng)網(wǎng)絡(luò)的化學(xué)合成。
「本質(zhì)上,我們的算法通過從科學(xué)史中學(xué)習(xí)模式,然后在新出版物上進(jìn)行模式匹配來發(fā)現(xiàn)有高影響力的早期信號,」 Weis說。「通過追蹤思想的早期傳播,我們可以預(yù)測它們以有意義的方式傳播到更廣泛的學(xué)術(shù)界的可能性有多大。」
預(yù)測潛在影響力
Weis和Jacobson開發(fā)的機(jī)器學(xué)習(xí)算法利用了自1980年代以來科學(xué)出版物呈指數(shù)增長的大量數(shù)字信息。但DELPHI并沒有使用諸如引用次數(shù)之類的一維度量來判斷出版物的影響,而是接受了期刊文章元數(shù)據(jù)的完整時(shí)間序列網(wǎng)絡(luò)的培訓(xùn),以揭示其在整個(gè)科學(xué)生態(tài)系統(tǒng)中的高維分布。
結(jié)果是一個(gè)知識圖,包含代表論文、作者、機(jī)構(gòu)和其他類型數(shù)據(jù)的節(jié)點(diǎn)之間的連接。這些節(jié)點(diǎn)之間復(fù)雜連接的強(qiáng)度和類型決定了它們在框架中使用的屬性。「這些節(jié)點(diǎn)和邊定義了一個(gè)基于時(shí)間的圖形,DELPHI使用它來學(xué)習(xí)預(yù)測未來高影響的模式。」 Weis解釋說。
論文在發(fā)表5年后在時(shí)間尺度節(jié)點(diǎn)中心位置的前5%的論文被認(rèn)為DELPHI旨在識別的「高度影響」目標(biāo)集。前5%的論文占圖表總影響力的35%。
可視化的低影響力和高影響力出版物的共同作者和引文網(wǎng)絡(luò)結(jié)構(gòu)的比較演變。(來源:論文)
與引文數(shù)量相比,DELPHI識別出的高度影響力的論文的數(shù)量是其兩倍多,包括60%的「隱藏寶石」或被引文閾值遺漏的論文。
研究人員驚訝地發(fā)現(xiàn),在某些情況下,使用DELPHI能夠顯示出高影響力的論文「警報(bào)信號」時(shí)間如此之早。「在發(fā)布的一年內(nèi),我們已經(jīng)確定了『隱藏寶石』,這些『寶石』將在以后產(chǎn)生重大影響。」 Weis說。
他警告說,「但DELPHI并不能完全預(yù)測未來。我們正在使用機(jī)器學(xué)習(xí)來提取和量化隱藏在現(xiàn)有數(shù)據(jù)的維度和動態(tài)中的信號。」
公平、高效
過去,論文影響力的衡量標(biāo)準(zhǔn)(如引文和期刊影響因子等指標(biāo))都可以被操縱,研究人員說,「希望DELPHI將提供一種偏見更少的方式來評估論文的影響力。」
Weis說,「與所有機(jī)器學(xué)習(xí)框架一樣,設(shè)計(jì)人員和用戶應(yīng)警惕偏見。我們需要不斷意識到數(shù)據(jù)和模型中的潛在偏差。我們希望DELPHI能夠以較少偏見的方式幫助找到最佳的研究——因此,我們需要注意,我們的模型不能僅根據(jù)次優(yōu)指標(biāo)(例如h-Index,作者引用計(jì)數(shù)或機(jī)構(gòu)隸屬關(guān)系)來預(yù)測未來的影響。」
Weis在為生物技術(shù)初創(chuàng)公司啟動風(fēng)險(xiǎn)投資基金和實(shí)驗(yàn)室孵化設(shè)施之后,思考了很多的問題。
他說:「我越來越意識到,包括我自己在內(nèi)的投資者一直在相同的地點(diǎn),以相同的觀念來尋找新公司。」 「我開始瞥見大量的人才和驚人的技術(shù),但這常常被忽視。我認(rèn)為一定有一種方法可以在這個(gè)領(lǐng)域工作——機(jī)器學(xué)習(xí)可以幫助我們發(fā)現(xiàn)并更有效地實(shí)現(xiàn)所有這些未被挖掘的潛力。」
參考內(nèi)容:
https://news.mit.edu/2021/using-machine-learning-predict-high-impact-research-0517
論文鏈接:
https://www.nature.com/articles/s41587-021-00907-6