MIT 76頁深度報告:AI加速創新馬太效應,科學家產出分化加劇!缺乏判斷力將被淘汰
AI的最新進展顯示出幫助科學突破的潛力,尤其是在藥物發現和材料科學等領域。來自MIT的Aidan最近發布了一篇長達76頁的深度研究報告,內容關于AI對科學發現和產品創新的影響。
通過分析一家美國大型企業研發部門引入AI技術前后的情況,研究發現,在AI輔助下,科學家們發現新材料的數量增加了44%,這些新材料具有更獨特的化學結構,導致專利申請數量增加39%,下游產品的創新率上升17%!
論文地址:https://conference.nber.org/conf_papers/f210475.pdf
雖然AI的應用顯著提高了研發效率,但其效果在不同能力水平的科學家之間存在巨大差異,頂尖研究人員的產出近乎翻倍,而底部三分之一的科學家受益較少。
深入分析這些結果的機制表明,AI自動化了57%的「創意生成」任務,使研究人員能夠將精力重新分配到評估AI生成的候選材料上。頂尖科學家利用他們的領域知識來優先考慮有前景的AI建議,而其他人則浪費了大量資源在測試錯誤的結果上。
此外,調查還顯示,雖然AI技術提高了科學家的工作效率,但也帶來了工作滿意度下降的問題,有82%的科學家表示工作滿意度降低,主要原因是技能未得到充分利用和創造力的減少。盡管如此,參與實驗的科學家普遍增加了對AI技術能增強生產力的信心,并有較大比例計劃提升相關技能以適應未來工作的需求。
研究背景
目前AI4Science已經如火如荼。最新的諾貝爾物理與化學獎也頒發給了AI,這說明AI有望帶來科學突破,尤其是在藥物發現和材料科學等領域,因為這些領域的模型可以在現有實例的大型數據集上進行訓練。
然而,人們對這些工具在現實世界中如何有效地深度參與到研發流程卻知之甚少,研發瓶頸、組織內部沖突或缺乏可靠性都會限制它們的有效性。因此,AI對創新速度和方向的影響仍不確定。
為了研究這些問題,論文作者Aidan在美國一家大型公司的研發實驗室向1018名科學家隨機引入了一種用于材料發現的AI工具。
該實驗室專注于材料科學在醫療保健、光學和工業制造領域的應用,擁有化學、物理學和工程學高級學位的研究人員。
傳統上,科學家們通過昂貴而耗時的試錯系統來發現材料,構思出許多潛在的結構并測試其特性,就像愛迪生研發燈泡一樣。而AI模型通過對現有材料的成分和特性相關的數據進行訓練,就可以生成預測具有特定特性的新型化合物的「配方」。
下圖概述了研發流程。
首先,科學家要定義一組目標特性,并為預測能滿足這些要求的新化合物提出想法。在引入AI之前,研究人員采用領域知識與迭代計算相結合的方法來進行初步設計。鑒于預測材料特性的難度,這一過程耗費大量時間,而且會出現許多錯誤。
然后,科學家們會對這些候選化合物進行評估,并合成最有前景的方案。一旦研究人員發現可行的材料后,通常會申請專利,并將其應用到產品原型中。這些可能是全新的產品,也可能是對現有產品線的改進。
最后,原型被開發、量產并投放市場。
將AI用于科學一直都有一個問題,它可能會放大「路燈效應」。也就是說由于模型是在現有知識的基礎上訓練出來的,它們很可能會將搜索方向引向人們熟知但價值較低的領域。
但是事實與這一假設恰恰相反,研究發現AI在研發的全鏈路都提高了創新性。
首先是與現有化合物相比,模型生成的材料具有更獨特的物理結構,這表明AI釋放了新的設計空間。
其次,利用AI工具的科學家申請的專利更有可能引入新的技術術語(這是變革性技術的主要指標),產生更有創造性的發明。
第三,它提高了代表新產品線所占的比例,而非只是去改進現有產品線,這些都促進了研發向更加創新的方向不斷前進。
測量策略及研究設計
作者將材料發現過程分為三類任務:創意生成、判斷和實驗。
創意的產生包括與開發潛在化合物相關的活動,如查閱現有材料的文獻或進行初步設計。
判斷任務的重點是選擇要推進的化合物,通常涉及模擬分析或根據領域知識預測材料特性。
最后,實驗任務致力于合成新材料并進行測試以評估其特性。
發現一種材料后,科學家通常會申請專利。這可能涉及單一化合物、化合物組合或使用這些化合物的新技術。專利需要滿足三個標準:新穎性、實用性和非顯而易見性。
因此,專利標志著科學發現轉化為有用發明的研究階段。專利申請通常需要兩年時間才能獲得批準,因此該論文研究的分析重點是專利申請。
材料發現因其復雜性而極具挑戰性。合理的化學構型空間巨大,需要科學家探索許多潛在的化合物。此外,雖然原子鍵的特性眾所周知,但很難預測它們聚合成大規模特征的模式。
擅長從復雜數據中提取特征的深度學習模型有可能克服這些挑戰。近年來,匯集已知化合物結構和特征的大型標準化數據庫激增。加上算法的進步和計算能力的提高,這大大提高了深度學習在材料科學領域的性能。因此,該領域對這些技術的興趣迅速增長。
該實驗室的AI技術是一套根據現有材料的結構和特性訓練而成的圖神經網絡(GNN)。
這張圖展示了實驗室AI工具的結構。
圖A逆向材料設計表示了圖神經網絡輸入一組目標特征并輸出一個預測的結構。
圖B展示了三步驟的模型訓練:首先基于已知材料的結構進行預訓練,再基于材料屬性針對特定應用進行微調,最后結合科學家對AI生成的化合物的實驗進行強化學習。
圖C是圖擴散模型的結構,該模型采用了一種基于擴散的方法來生成新的材料。它從一個已知的結構開始,增加噪音,然后逆轉這個過程來創建一個新的化合物。
在短期試點計劃之后,實驗室于2022年5月開始大規模推廣將該AI工具與研究結合的模式。他們將研究人員團隊隨機分配到三個批次中,分別由404、419和195名科學家組成。時間間隔約為六個月。在每一輪開始時,研究人員都會參加一個培訓項目,學習如何使用該技術。
研究將多個數據源結合起來,以詳細描述研發過程。作者收集了候選化合物、合成物質和最終材料的數據。這些數據包括化合物的物理結構信息,即其原子和化學鍵的組成和幾何方向。
此外,他還會觀察材料特性測試的結果,提供大量原子和宏觀尺度的特性。一旦新材料被添加到實驗室內部的化合物數據庫中,并被認為可以用于產品,作者就會將其歸類為「發現」的材料。這標志著從科學到工程的過渡,之后材料將被大規模開發和生產。
作者還將新材料與專利申請相匹配。這既包括化合物本身的專利,也包括使用這些化合物的技術。
專利數據之所以有用,有兩個原因。首先,專利可以鑒定發明是重大的、適用的突破。其次,通過專利的申請文本,就可以使用相似度量來評估發明的新穎性,即利用術語頻率向量之間的余弦相似性來量化文本相似性。
專利新穎性的第二個衡量標準是新技術術語的引入。剔除非技術術語后,它將專利的新穎性定義為在以前的專利中沒有出現過的詞組所占的比例。
正如Kalyani所指出的,這是衡量變革性技術的領先指標。研究發現在經過AI工具輔助后新申請的專利平均包含544個技術詞組。其中,6.28%被歸類為新術語。
為了評估下游創新,作者收集了包含新發現材料的產品數據。其中主要是材料的使用方式,以及產品是代表新產品線還是對現有產品線的改進。
材料發現、專利申請及產品創新
數量顯著增長
作者首先通過描述性證據展示了AI在材料發現、專利申請和產品創新方面的影響。
下圖顯示了采用AI和未采用AI進行研究的科學家在新材料、專利申請、新產品原型三個方面的時間序列趨勢,揭示了采用AI后新化合物和專利申請數量的顯著增長。十到十二個月后,采用AI所發現化合物的產品原型也隨之增加。
接下來,作者轉向回歸估計。
下圖展示了樣本最后五個月的終線處理效應。平均來看,采用AI輔助研究的科學家發現的材料多出44%,帶來專利申請增加39%,產品原型增加17%。
為了研究動態效果,下圖展示了事件研究的估計結果。結果顯示出與原始時間序列相似的模式:材料發現和專利申請的影響在5到6個月后出現,而產品創新的影響則滯后一年多。
這些影響是巨大的。從材料發現增加的角度來看,實驗室每位科學家的研究成果在過去五年中下降了4%。盡管引入了一些旨在幫助科學家的計算工具,但情況還是如此。
因此,AI似乎是一種與眾不同的技術,其影響要比以前的輔助研究方法大得多。
材料質量有所提高
AI增加了新化合物的數量。然而,這可能會同時降低材料質量。為了驗證這一觀點,作者使用材料特性測試質量。如下表所示,他基于科學家目標特性與化合物實際特性之間的距離構建了三個質量指數。
上表顯示了AI對這些指標的影響。
對于原子特性,該工具將平均質量提高了13%,并將前10%材料的比例提高了1.7個百分點(第1-2列);大規模特性的影響相似但略小(第3-4列)。第5和6列將這兩組特性組合為總體指數,顯示平均質量顯著提高(9%),高質量材料的比例增加了1.5個百分點。
這些指數組合了對公司可能具有不同重要性的多個特性,因此難以準確解釋這些估計值的規模。然而,結果表明,AI輔助的材料發現并未以犧牲質量為代價。
AI工具對于創新的具體影響
AI工具增加了研發中三個階段的新穎性。
首先,按照化學相似性方法來衡量新材料本身的新穎性時,如上表第1列所示,AI使平均相似度降低了0.4個標準差。
此外,AI還使高度獨特材料的比例增加了4個百分點(見第2列)。通過對科學家的調查證實了這些測量結果。73%的研究人員表示,AI工具比其他方法產生了更多新穎的設計。
雖然化學相似性捕捉到了科學新穎性的一個關鍵方面,但重要的是要確定更多的原創材料是否會帶來更多的創新技術。
然后作者利用兩個相似度指標分析了專利申請的文本相似性。第一個指標基于申請全文,第二個指標基于新技術術語的比例。
如上表第3列所示,該工具將第一個指標的新穎性提高了11%,使平均申請量從相似性分布的第48百分位數上升到第42百分位數。在第二項指標上(見第4列),AI將新技術術語的比例提高了兩個百分點(22%)。
最后,作者研究了該工具對產品創新性質的影響。在沒有AI的情況下,科學家們主要關注現有產品的改進,只有13%的原型代表新產品線。如上表第5列所示,這一比例上升了3個百分點(22%)。
總之,AI工具提高了發現的新穎性,帶來了更多創造性專利和更多創新產品。
而AI增加新穎性這一事實可以有兩種解釋。一種可能是,模型只是善于歸納,探索材料設計空間的新部分。或者,這一發現可能主要反映了在沒有AI的情況下人類的局限性,也就是說科學家們會更加嚴格地遵循熟悉的模板與既定流程。
AI加劇了科學家產出的差異
研究表明,AI主要惠及原本生產力就高的科學家,從而加劇了不平等。
下圖展示了引入AI前后材料發現率的分布。分布向右移動且更偏右,表明高能力的科學家從該工具中獲得了更多收益。
下圖展示了回歸估計結果,將研究人員是否被分配使用AI工具的狀態與初始生產力的分位數相結合。
結果表明,處于底部三分之一的研究人員幾乎沒有從該工具中受益,而最高分位的科學家產出增加了81%。因此,90:10研究表現的比率增加了一倍以上。足以說明,這一工具加劇了不平等的現象。
核心要素:科學家的判斷能力
材料發現涉及三個任務階段:創意生成、判斷(即識別出有前景的候選化合物的能力)和實驗。生產力的差異反映了科學家在各階段中的不同能力。
首先,作者設計了一個方法,用于估算每位科學家在預處理期內的任務特定研究能力。由于實驗階段僅包含例行測試,他將重點放在創意生成和判斷上。
作者進行了多項測試來驗證這些能力測量。最后得到如下圖表:
上圖顯示了科學家在創意生成和判斷兩方面技能的相關性。這兩個指標之間呈正相關(r=0.42, p<0.00),這表明科學家在這兩類任務中具備某種基礎性的專業能力,使他們在兩方面都有較高的生產力。
但關聯度遠低于1。這表明,雖然一些科學家在這兩項任務上都表現較好,但他們不一定在兩者上都同樣出色。這種較低的相關性揭示了每個科學家在不同任務上可能具有「比較優勢」,即一些科學家在「創意生成」方面更擅長,而另一些人在「判斷」方面表現更佳。因此,科學家可以通過發揮自己在特定任務上的優勢來實現專業化。
所以,不能簡單地將「技能偏向」看作一維的。要更細致地理解AI在科學研究中所補充的技能,必須關注科學家在不同任務中的具體能力。
這意味著,AI并不是對所有科學技能都有幫助,而是特別能加強那些能與AI合作或被AI支持的特定技能,比如判斷能力。在研究中探索這些不同的技能有助于更好地理解人類和AI如何協同工作。
在獲得任務特定的研究能力估計后,作者研究了哪些技能導致了AI的異質性影響。為此,作者在科學家層面估計了一個回歸模型:
其中,yst是科學家s在月t內發現的材料數量,Dst是一個表示是否受到AI影響的處理指示變量,和
分別表示科學家在創意生成和判斷任務上的估計研究能力。這些能力測量標準化為均值為零、標準差為一。主要關注的系數是β4和β5,它們捕捉了AI對任務特定技能的差異性影響。
得到的結果如下表。當增加一個標準差時,AI處理效應提升了14.8個百分點;而
增加相同幅度僅導致3.5個百分點的提升。兩個交互項的系數均為正且顯著,但判斷任務的影響明顯更大。
判斷能力差異解釋了AI對初始生產力異質性影響的80%以上。這些發現表明,在解釋AI對不同科學家影響的差異時,判斷能力起到了核心作用。
科學家與AI的協作
經過上面的研究,作者總結出了以下三點發現:
首先,AI顯著提高了材料發現的平均速度;
其次,它對初始生產力水平不同的科學家產生了不成比例的好處;
第三,這種異質性幾乎完全由科學家的判斷能力的差異所驅動。
為了解這些結果背后的機制,作者研究了科研中科學家與AI的協作機制。
創意生成時間被大大壓縮
首先,他記錄了AI加入前后科學家工作精力分配的比例變化。
下圖展示了科學家在研究過程中分配到創意生成、判斷和實驗任務上的時間份額變化。這些數據來源于科學家的活動日志。
由此可見,在引入AI之前,科學家將39%的時間用于創意生成,但在模型引入后,這一比例降至16%以下。同時,判斷任務所占時間從最初的23%增加到了樣本結束時的40%。實驗任務的時間份額也從37%增加到44%。另外,研究總時長保持不變。
下圖展示了在判斷任務上具有較大比較優勢的科學家(即高/
值)和較小比較優勢的科學家在任務構成上的變化。
雖然所有科學家的時間分配都發生了顯著調整,但相比其他科學家,那些在判斷技能方面具有比較優勢的科學家將更多的工作時間從創意生成任務轉移到了判斷任務上。具體而言,這些科學家在時間分配上的轉變比判斷技能較弱的科學家多了46%。
判斷力來自領域知識
接下來,作者建立了一個簡單的優先搜索框架來分析這種轉變背后的原因。
他發現判斷力強的科學家測試的候選材料數量較少,但發現的可行化合物更多。具有較強判斷力的科學家學會了優先選擇有前景的AI建議,而其他人則在測試錯誤建議上浪費了大量資源。這導致的發現率差距解釋了工具的異質性影響。
此外,作者還發現,在引入AI后,科學家在評估AI生成的化合物方面的能力差異逐漸顯現并擴大。
對比后發現,判斷力較強的科學家在處理期內迅速提高了他們對AI建議的排序和優先級設置,而判斷力較弱的科學家在評估上未見明顯改善。
這個能力差距導致頂尖評估者能夠有效地篩選出更多高質量的化合物,而評估能力較弱者則在篩選上表現接近隨機。
為了探索為何部分科學家的判斷力更優,作者設計了一份問卷調查實驗室的科學家們,以了解他們在評估過程中的想法和經驗。
調查數據顯示,這些判斷力上的差異主要來自科學家的領域知識。
進一步分析中,作者考察了四種可能的專家能力來源。
結果如上圖所示,高判斷能力的研究人員在評估模型生成的候選物時更重視科學訓練和類似材料的經驗。
此外,他們的「直覺或第六感」也與判斷能力呈正相關(直覺被視為隱性知識的代表)。
然而,AI技術的使用經驗對這種差異沒有解釋力,因為所有科學家報告的此前接觸AI的經驗都較少。
與此一致的是,判斷能力的差異隨著時間逐漸顯現。支持領域知識重要性的證據表明,處于判斷能力上四分位數的科學家發表與其研究材料相關學術論文的概率是其三倍多。
這些結果強調了領域知識在評估AI建議時的重要性。機器學習的視角表明,頂尖科學家在材料設計問題上能夠識別出模型未捕捉的特征。
因此,將人類反饋納入算法預測中可能是科學發現的一個潛在途徑。從經濟學的角度來看,這些發現展示了算法與專業知識在創新過程中的互補關系,尤其強調了「判斷模型建議」這一新研究技能的重要性,這種技能能夠增強AI技術的效力。
有人曾推測大數據和機器學習會使領域知識過時,但在材料科學領域情況并非如此。事實上,只有具備足夠專業知識的研究人員才能充分發揮AI技術的作用。
缺乏判斷力易被淘汰
在作者研究的過程中,實驗室通過調整雇傭和管理來應對研究過程的變化。該公司對其研究團隊進行了重組,解雇了約3%的研究人員,并在此基礎上通過增加招聘進一步擴大了團隊規模。
在實驗結束后,實驗室重新設計了其招聘和解聘標準,優先考慮具備較強判斷力的科學家。
按判斷力四分位數劃分的解雇或重新分配的概率
實驗室的這種調整體現了勒沙特利原理(LeChatelier Principle),即隨著時間推移,實驗室能夠對工具產生更強烈的反應,因為它可以重新優化更多的投入。
作者也指出,由于實驗室的這種組織調整,AI的長期影響可能會被當前的估計低估。這意味著,如果實驗室在招聘和人員配置上逐步適應AI輔助的工作模式,AI的影響可能在未來會更加顯著,從而進一步提升研究效率和發現率。
AI提升了效率,卻剝奪了研究樂趣
通過問卷調查,作者探討了這些變化對科學家工作滿意度和對人工智能看法的影響。除了直接的福利影響,這些結果還揭示了AI如何可能影響誰會選擇成為科學家、他們進入哪些研究領域,以及他們傾向于培養的技能。
AI對科學家工作滿意度的影響可能有不同的表現。一方面,它可能通過提升能力和增加科學發現的速度來提高士氣;另一方面,它也可能使工作變得不那么令人愉快,因為重點轉移到了不那么有趣的任務上。
為調查這些因素的相對重要性,作者收集了工作滿意度在三個方面的變化:生產力變化帶來的影響、任務重新分配帶來的影響,以及總體影響。
在下圖中,結果以-10到10的尺度顯示,并按最初生產力的四分位數進行分組。結果顯示出兩種相反的趨勢:任務變化帶來的負面影響,以及生產力提升帶來的大多是正面影響。
任務重新分配的影響在各個四分位數中始終為負,從-4.1到-4.8不等。盡管生產力提升帶來的樂趣部分抵消了這一負面影響,特別是在高能力科學家中。但總體而言,82%的研究人員的滿意度有所下降。
在下圖中,作者列出了科學家不喜歡任務變化的主要原因。最常見的抱怨是技能未被充分利用(73%),其次是任務變得缺乏創造性且更為重復(53%)。此外,有21%的科學家擔心成果歸屬問題,19%則對AI工具的復雜性感到不滿。
這些數據反映了快速技術進步帶來的適應難度。正如一位科學家所言:「雖然我對AI工具的表現印象深刻……但我不禁覺得自己多年的教育變得毫無用處。這不是我所受的訓練。」
這些結果對AI主要會自動化枯燥任務、讓人類專注于更有價值活動的觀點提出了質疑。相反,該工具自動化的正是科學家們最感興趣的任務——為新材料創造想法。
這反映了AI與以往技術的根本差異。過去的技術創新主要在處理例行、可編程的任務方面表現出色,而深度學習模型則通過識別訓練數據中的模式來生成新穎的輸出。
科學家們的反饋還表明,組織實踐會影響AI帶來的福利效應。科學家不僅關心自身的生產力,還在意相對于同事的表現。因此,盡管研究產出有所增加,但處于生產力底部四分位的科學家對自己的工作滿意度卻有所下降,這與公司的晉升實踐相一致,因為晉升決策基于相對績效。
下圖展示了科學家們對五個AI相關陳述的認同水平在AI引入前后的變化。
可見,他們越來越相信AI會提高所在領域的生產力。對于AI取代崗位的擔憂則基本保持穩定,這可能反映了人類判斷力的持續需求。
此外,科學家們更加認為AI將改變他們工作中取得成功所需的技能,因此,計劃重新學習新技能的研究人員數量顯著增加。
最后,科學家們對自己所選領域的滿意度有所下降,這與前面發現的工作滿意度下降一致。
作者簡介
Aidan Toner-Rodgers是麻省理工學院經濟學二年級博士生。之前,他從麥卡利斯特學院畢業后曾在紐約聯儲工作過。
他的研究主要集中在科學與創新的經濟學,運用產業組織、博弈論和勞動經濟學的工具。