你的生物技術(shù)研究影響力大？MIT的機(jī)器學(xué)習(xí)框架可以預(yù)料到

作者：ScienceAI ScienceAI 2021-05-21 14:58:06

美國麻省理工學(xué)院（MIT）的研究人員建立了一個(gè)名為DELPHI（Dynamic Early-warning by Learning to Predict High Impact，通過學(xué)習(xí)預(yù)測高影響實(shí)現(xiàn)動態(tài)預(yù)警）的人工智能框架，可以通過學(xué)習(xí)以前的科學(xué)出版物中的模式，為未來的高影響力技術(shù)提供「預(yù)警」信號。

[[400942]]

對于科研人開心莫過于paper被「Accept」，發(fā)表后你的論文影響力如何？你所研究領(lǐng)域在未來潛力怎么樣？......現(xiàn)在，機(jī)器學(xué)習(xí)「突破」傳統(tǒng)評價(jià)標(biāo)準(zhǔn)，將以一種新方式去詮釋。

目前，有許多基于論文引用的度量指標(biāo)，比如引用次數(shù)、h指數(shù)、期刊影響因子等。這些指標(biāo)不僅是論文質(zhì)量的次優(yōu)指標(biāo)，而且還會影響后續(xù)學(xué)術(shù)招聘、晉升和資金籌措方面的次優(yōu)決策等。

而這些指標(biāo)只能提供不完善的、不一致的且易于操縱的研究質(zhì)量度量。隨著機(jī)器學(xué)習(xí)的興起，可以從更多角度去評判他們發(fā)表研究的潛在影響力

基于此，美國麻省理工學(xué)院（MIT）的研究人員建立了一個(gè)名為DELPHI（Dynamic Early-warning by Learning to Predict High Impact，通過學(xué)習(xí)預(yù)測高影響實(shí)現(xiàn)動態(tài)預(yù)警）的人工智能框架，可以通過學(xué)習(xí)以前的科學(xué)出版物中的模式，為未來的高影響力技術(shù)提供「預(yù)警」信號。并解鎖大量現(xiàn)有的但尚未開發(fā)的資源。以更有效、更公平的方式分配有限的資源，從而提高集體部署到科學(xué)中的資源回報(bào)率和技術(shù)。

該研究于5月17日以題為「 Learning on knowledge graph dynamics provides an early warning of impactful research 」發(fā)表在《自然•生物技術(shù)》（ Nature Biotechnology ）雜志上。

科學(xué)事業(yè)的有效發(fā)展取決于在一組有前途的研究人員和項(xiàng)目中識別和優(yōu)化分配資源的集體能力。反過來，此過程主要取決于直接采用的分配方法，這種分配方法間接地通過雇用、晉升和社論出版物進(jìn)行。

數(shù)字科學(xué)語料庫的規(guī)模激增，有助于開發(fā)新的數(shù)據(jù)驅(qū)動方法。從人工智能到現(xiàn)代科學(xué)企業(yè)產(chǎn)生的大量數(shù)據(jù)的方法應(yīng)用，可提供更早或更有意義的新科學(xué)影響和創(chuàng)新信號。

數(shù)據(jù)驅(qū)動的算法將消化現(xiàn)有的大量高維數(shù)字科學(xué)信息，產(chǎn)生有意義的低維信號，然后將其與人類專業(yè)知識和直覺相結(jié)合。此外，這樣的方法可以包含多個(gè)目標(biāo)函數(shù)，可擴(kuò)展到一系列期望的結(jié)果上。

此前的研究已經(jīng)證明從知識圖中提取信號的價(jià)值。但是，目前還沒有框架將這些方法與人工智能方法相結(jié)合，從而使我們能夠從過去中學(xué)到東西，以提高我們識別未來最具影響力的科學(xué)技術(shù)的能力。

本研究提出一個(gè)機(jī)器學(xué)習(xí)框架DELPHI，通過分析科學(xué)文獻(xiàn)中計(jì)算的一系列特征之間的高維關(guān)系，預(yù)測可能產(chǎn)生高影響力的工作。研究人員使用的數(shù)據(jù)集包含1980-2019年期間發(fā)表的1,687,850篇研究論文（42種與生物技術(shù)相關(guān)的期刊），從中得到了論文發(fā)表后1-5年與每篇論文、作者、期刊、網(wǎng)絡(luò)相關(guān)的29個(gè)特征。再用每篇論文的特征訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型，讓這個(gè)模型給出影響力「預(yù)警」信號。

從動態(tài)知識圖中收集、構(gòu)建、計(jì)算和學(xué)習(xí)科學(xué)影響預(yù)警信號。（來源：論文）

研究人員使用DELPHI預(yù)測了到2023年將產(chǎn)生巨大影響的50篇最新科學(xué)論文。論文涵蓋的主題包括：用于癌癥治療的DNA納米機(jī)器人、高能量密度鋰氧電池和利用深層神經(jīng)網(wǎng)絡(luò)的化學(xué)合成。

「本質(zhì)上，我們的算法通過從科學(xué)史中學(xué)習(xí)模式，然后在新出版物上進(jìn)行模式匹配來發(fā)現(xiàn)有高影響力的早期信號，」 Weis說。「通過追蹤思想的早期傳播，我們可以預(yù)測它們以有意義的方式傳播到更廣泛的學(xué)術(shù)界的可能性有多大。」

預(yù)測潛在影響力

Weis和Jacobson開發(fā)的機(jī)器學(xué)習(xí)算法利用了自1980年代以來科學(xué)出版物呈指數(shù)增長的大量數(shù)字信息。但DELPHI并沒有使用諸如引用次數(shù)之類的一維度量來判斷出版物的影響，而是接受了期刊文章元數(shù)據(jù)的完整時(shí)間序列網(wǎng)絡(luò)的培訓(xùn)，以揭示其在整個(gè)科學(xué)生態(tài)系統(tǒng)中的高維分布。

結(jié)果是一個(gè)知識圖，包含代表論文、作者、機(jī)構(gòu)和其他類型數(shù)據(jù)的節(jié)點(diǎn)之間的連接。這些節(jié)點(diǎn)之間復(fù)雜連接的強(qiáng)度和類型決定了它們在框架中使用的屬性。「這些節(jié)點(diǎn)和邊定義了一個(gè)基于時(shí)間的圖形，DELPHI使用它來學(xué)習(xí)預(yù)測未來高影響的模式。」 Weis解釋說。

論文在發(fā)表5年后在時(shí)間尺度節(jié)點(diǎn)中心位置的前5%的論文被認(rèn)為DELPHI旨在識別的「高度影響」目標(biāo)集。前5％的論文占圖表總影響力的35％。

可視化的低影響力和高影響力出版物的共同作者和引文網(wǎng)絡(luò)結(jié)構(gòu)的比較演變。（來源：論文）

與引文數(shù)量相比，DELPHI識別出的高度影響力的論文的數(shù)量是其兩倍多，包括60％的「隱藏寶石」或被引文閾值遺漏的論文。

研究人員驚訝地發(fā)現(xiàn)，在某些情況下，使用DELPHI能夠顯示出高影響力的論文「警報(bào)信號」時(shí)間如此之早。「在發(fā)布的一年內(nèi)，我們已經(jīng)確定了『隱藏寶石』，這些『寶石』將在以后產(chǎn)生重大影響。」 Weis說。

他警告說，「但DELPHI并不能完全預(yù)測未來。我們正在使用機(jī)器學(xué)習(xí)來提取和量化隱藏在現(xiàn)有數(shù)據(jù)的維度和動態(tài)中的信號。」

公平、高效

過去，論文影響力的衡量標(biāo)準(zhǔn)（如引文和期刊影響因子等指標(biāo)）都可以被操縱，研究人員說，「希望DELPHI將提供一種偏見更少的方式來評估論文的影響力。」

Weis說，「與所有機(jī)器學(xué)習(xí)框架一樣，設(shè)計(jì)人員和用戶應(yīng)警惕偏見。我們需要不斷意識到數(shù)據(jù)和模型中的潛在偏差。我們希望DELPHI能夠以較少偏見的方式幫助找到最佳的研究——因此，我們需要注意，我們的模型不能僅根據(jù)次優(yōu)指標(biāo)（例如h-Index，作者引用計(jì)數(shù)或機(jī)構(gòu)隸屬關(guān)系）來預(yù)測未來的影響。」

Weis在為生物技術(shù)初創(chuàng)公司啟動風(fēng)險(xiǎn)投資基金和實(shí)驗(yàn)室孵化設(shè)施之后，思考了很多的問題。

他說：「我越來越意識到，包括我自己在內(nèi)的投資者一直在相同的地點(diǎn)，以相同的觀念來尋找新公司。」「我開始瞥見大量的人才和驚人的技術(shù)，但這常常被忽視。我認(rèn)為一定有一種方法可以在這個(gè)領(lǐng)域工作——機(jī)器學(xué)習(xí)可以幫助我們發(fā)現(xiàn)并更有效地實(shí)現(xiàn)所有這些未被挖掘的潛力。」

參考內(nèi)容：

https://news.mit.edu/2021/using-machine-learning-predict-high-impact-research-0517

論文鏈接：

https://www.nature.com/articles/s41587-021-00907-6

責(zé)任編輯：張燕妮來源：機(jī)器之心