從制度看中國在人工智能發展中的現狀
第四次產業革命正在快速興起。人工智能是這次產業革命的核心內容之一。構成產業革命的創新都是革命性創新。這類的創新具有特別高的不確定性。人工智能前沿工作的發展,包括基礎研究、應用研究、初創企業,都屬于這類性質。
這類創新的未來醞釀在大量的研究成果和初創企業成果里。最后通過市場優勝劣汰的過程,產生出來技術上和市場上最好的結果。在此之前,即便是在相關領域里成功的專家和企業家,也很難預測未來的結果。因此,了解未來,最重要的在于了解學術界在研究什么、初創企業在做什么,以及數量。
為了了解中國人工智能的現狀和展望未來,我們構建的人工智能指數,集中在三個方面,對比中國和國際前沿國家。這三個方面是,人工智能的初創企業、學術成果、開源軟件的應用。從初創企業這個維度,可以勾勒出人工智能作為一個產業的現狀和最近的未來。通過初創企業不同發展階段的國際對比,我們可以看到中美人工智能企業之間的差異。以融資機制為例,融資機制本身就是初創企業的發展機制。融資機制其實是優勝劣汰機制的核心。中國過去是計劃經濟,現在仍然還保留著相當一部分計劃經濟的制度。所以,中國和美國在制度上的差別是,中國有兩大類不同的機制,一大類是優勝劣汰的市場機制,另一大類是命令式的機制,即自上而下的命令或者計劃。
因為我們的主要目的是從產業革命的角度來看人工智能,因此在學術領域,我們關心的是產業長遠的未來發展。今天的學術工作就是明天的人工智能產業。在這個維度,我們觀察的是學術論文的定量和定性的指標。
第三個維度是開源軟件的開發和應用,這是學術與產業高度連接的部分。從應用研究的角度講,這是一個非常重要的指標。
人工智能與制度
絕大部分的人工智能方面的開創性研究,都是從學術上開始的。學術研究和應用研究是產生革命性創新的必要條件,沒有它們就沒有后來的一切。所以學術研究的成果是最重要的。但僅僅是學術研究的成果仍然并不充分。比如專利。看上去非常優秀的項目是不是最后能夠在商業化的過程中成功?在商業上沒有實現之前,沒有人能回答這個問題。所有在學術上和專利上非常優秀的內容,在商業實現之前仍然都面臨著巨大的挑戰和非常高的不確定性。因此,人工智能這個行業是不是能成功,整個行業在一個國家在一個地區是不是能夠成功,除了取決于當地的學術和應用的研究成就之外,還一定取決于當地的制度。與創新技術發展相關的最重要的具體制度,就是所謂的硬預算約束的制度。
面對高度的不確定性,在沒有人知道某一個項目是不是能成功的情況下,必須有大量的創新想法在最早期的時候就能獲得投資。需要強調的是,是不是能獲得投資和是不是獲得大規模投資是兩回事。這是第一點,即是不是有大量的新想法能獲得投資。第二點,獲得投資的這些項目,當被發現沒有前途的時候,是不是能夠及時地被中斷。硬預算約束指的就是是否能被及時地中斷。因為硬預算約束決定了不在失敗的項目上浪費資源,使得更多創新項目可以得到試一試的機會。
在中國,特別需要認識到,跟計劃經濟相關的軟預算約束,缺少停止不成功項目的能力。因此在軟預算約束下,被迫依賴在沒有投資之前的、事先的審查項目,用這個方法來減少投資創新項目。這是計劃經濟的一個重要特點。但是,一旦事先減少了投資的項目,就減少了最終成功的機會。
當說到融資制度,風險投資是行之有效的非常重要的基本制度,它的核心是階段性的硬預算約束。階段性的投資,最重要的就在于它能夠及時地中斷這些不成功的項目;或者換句話說,它是硬預算約束,用這個方式來降低失敗的風險。風險資本制度高度依賴股市和獨立的司法制度。
中國人工智能初創企業規模及國際對比
2021年5月21日,2021RoboCup機器人世界杯中國賽暨亞太機器人世界杯天津國際邀請賽在天津空港體育中心舉行。
在人工智能的初創企業方面,中國的投資不僅數量巨大,而且從增長速度來看,在過去幾年里,初創企業的增長速度是世界上最快的。特別是從2014年以后,投資急劇加速。從總投資額來看,位居于全世界第一的是美國,第二就是中國。創新具有高度不確定性,其中非常重要的一個機制是投資的數額要大,這個數額指的不僅僅是投資的總量,而是指項目的總量。
第一個特點,從項目看,無論是初創企業的總數還是交易總數(所謂交易總數指的是有的企業可能有不止一個項目,它有不同的階段,因此交易總數和企業總數不是一回事,交易數字會更大)。從這兩個方面來看,中國的總投資額排名世界第二,但是企業總數或者交易總數,那么中國不是世界第二,而是世界第三,和居于世界第二的英國距離不是很大。更詳細的信息我們在后面來介紹。
第二個特點,中國人工智能初創企業的融資高度依賴對外開放的。我們的發現是中國總投資額全世界第二,那么這些投資從哪里來的?從統計數字來看,將近40%的交易是來自國內的,而其他的超過46%是完全來自國外的,還有超過14%是國內外聯合的。這組數據可以很清楚地看到,超過一半以上人工智能初創企業的融資是來自國外,這是非常重要的一個特點。不僅僅中國的研究跟改革開放高度相關,跟國際間的融合高度相關,即便在融資方面也跟國際的融合與開放是高度相關的。
中國人工智能初創企業的投資主體是風險資本,而不是中國傳統的金融機構。前面我們講硬預算約束,硬預算約束主要來自于風險資本。在中國,74%的交易來自風險資本,將近16%的交易是來自私募,私募股權的性質跟風險資本是高度相近的,所以我們把這兩者合并在一起。也就是說,將近90%的人工智能初創企業的投資來自于風險投資。這是極端重要的一個信息。
前面講到2014年以后,中國加速了人工智能初創企業的投資,而且投入早期項目的資金總量非常之巨,但是有個重要的特點是值得關注的。雖然投入的資金量非常的大,但是投入的初創企業的總數字以及總的交易數字,沒有相應的那么大,導致了一個初創企業的早期,平均獲得的投資額非常高。不同的人對此可以有不同的解釋,我們的解釋留待最后的分析之中。
初創企業融資情況的統計數字,來源于VC Experts和Crunchbase這兩個數據庫。這兩個是世界上最大的風險投資融資的數據庫。兩個合并在一起,基本上概括了全世界的所有的風險投資的融資情況。中國跟世界的對比數據,全部從這里獲得。
我們首先關心是跟IT相關的領域,然后在數據庫里搜索公司簡介,使用了近20個與人工智能各個方面相關的關鍵詞。如果這個企業涉及到這些方面,我們就把它定義為人工智能的初創企業。用這個方式,我們找到全世界所有初創企業的情況。美國的總數是4600多個,占全世界的比率超過45%;英國有846個,占全世界的8.2%,中國有730個排第三位,占全世界的7.11%。從初創企業的總數來看,中國在全世界是相當的領先,但是和美英相比,還有顯然的差距。
融資方面,美國的融資額是1273億美元,占全世界的59%。中國是487億美元,占全世界近23%。從企業總數來對比,中國的比例遠沒有這么大,但是從投資總額上看,中國的投資總額已經快要接近美國的一半了,排到全世界第二。排到全世界第三位的是英國,跟中國相差很遠。
平均每個初創企業獲得的投資是多少?美國跟世界上其他的發達國家比,沒有顯著高很多,只是稍微高一點點。而中國自從2013年之后開始起步,2014年拉開距離,平均每個企業獲得風險投資的數字遠遠高過世界上其他國家。這其中有兩個可能性,一個可能性就是我們前面講到的軟預算約束機制。在面對高度風險、高度不確定性的項目的時候,尤其是在早期,投資的數字一定是非常小的,因為越小就越便宜。等到有相當的把握以后,擴大你的投資,這樣才能保證你以最小的代價獲得更大的成果。如果在早期投了很多錢進去,有相當的一部分可能是浪費,這個是從機制上的一個解釋,另一方面也有一種可能的解釋,早期階段的初創人工智能企業,它的不確定性沒有那么高。這一點我們的數據沒有辦法告訴我們,行業里面的同事們,可能會比我們更清楚。
在面對高度不確定性的時候,關鍵問題在于在最早期的時候是不是有足夠多的探索性的項目。在探索性項目的數字這個方面(種子期的交易量),美國遠遠高于世界上所有其他國家。排名第二的是英國,排名第三的是中國和加拿大。在這個方面,中國只有英國的一半多一點,只有美國的大約七分之一。由于探索面對很高的失敗的風險,有效配置資源的方法是,在啟動探索的階段,每一個項目投盡量少的錢。但是在這方面,中國的情況與發達國家非常不同。與發達國家相比,中國初創企業在種子期,對每個項目的投資量都很大。
到創業的晚期,從風險投資的角度,人們對項目的成功已經有相當的把握。從我們的數據來看,晚期的投資交易總額,也就是有多少項目獲得了融資,美國排第一,中國排第二,英國排第三。從趨勢上可以看到,從2016年之后,中國和其他國家之間拉開很大距離。就是說從2016年之后,晚期的投資額明顯比其他發達國家要多,但是與美國相比還是有顯然的差距,這個差距似乎有一點縮小的趨勢但也不是很確定。但是比起其他發達國家來,中國顯然是領先的。排第三的是英國。英國和其他發達國家之間的距離并不大,但是中國和美國之外的所有發達國家之間的距離拉開很大。
從晚期的平均投資額來看,平均每一個項目的投資,中國遠遠高于世界上的其他國家,美國排第二,英國排第三。中國比排第二的美國高很多,而美國和其他發達國家之間沒有顯然的距離,發達國家在平均的時候基本都差不多。這是一個很重要的信息,說明對發達國家來說有一些規律性的內容,這些規律性的內容決定了它們認為什么時候合算,基本上大家的做法都差不多。但是中國在討論到平均的時候,明顯的非常高。
怎么解釋這個現象呢?有兩種可能的解釋,一種可能的解釋就是前面講的軟預算約束和硬預算約束。中國可能仍然存在著一定程度的軟預算約束問題,因此導致它的平均投資額更高。另一種解釋是,可能中國的市場規模超級的大,包括在人工智能相關的應用領域里。因此,即便在每個項目都投入很多,成本很高,總體上仍然能盈利。有可能這兩個解釋同時都成立,都是一部分的原因。
學術及開源軟件的國際對比
從學術論文的發表量和論文被引用的指數來看,在最近幾年里,中國整體上在世界上排名第二。在大體上,和美國的差距在縮小,但仍然有一些重要的方面,差距還是相當明顯。
首先來看一下在期刊和會議論文的發表情況。在期刊和會議發表論文的總數方面,中國在世界上排名第二,其中包括最近20年里積累的總數,以及最近幾年的年度的發表數字。很重要的一點是,自從2017年之后,中國年度發表的總數和美國的差距是在逐年縮小之中。如果我們把期刊跟會議分開、單獨看期刊的話,中國在期刊發表的總數是世界第一。在期刊的被引用總數也是世界第一。所以,如果我們單純看期刊的話,中國現在已經超過了美國,位居世界第一。這也是為什么有相當一些報告會認為中國在人工智能方面超過了美國成為世界第一,其實指的是在期刊發表的論文方面。但是,如果我們把這個引用分成類別,分成高引用的論文和普通引用的論文和低引用的論文,我們就會發現,如果我們看被引用1000次以上的,那么中國在期刊方面仍然是排得很高。
在會議論文方面,中國的排名就不太一樣。如果看加總,中國在會議上發表的論文總數大體上是世界第二,被引用的總數也大體上是世界第二。如果我們看會議論文的引用次數,被引用千次以上的甚至百次以上的,中國都在世界上排名第二,但和世界第一的美國之間的差距沒有清楚地縮小的趨勢。
在開源軟件的無論開發和使用方面,中國都跟美國有顯然的差距。值得關注的一點是,與期刊和學術論文的情況非常不同,中國和美國在開源軟件方面的差距是在擴大之中,而不是在縮小之中。這背后說明什么問題,還需要更深入的討論。
我們的數據來源是Scope數據庫,包括學術論文,期刊和會議的,全部都來自這個數據庫。搜索方法基本上是和斯坦福大學制作的人工智能指數的搜索方法是相似的,使得我們和他們有高度的可對比性。
具體來看,積累的學術論文的總數,美國排第一,中國排第二,英國排第三。從積累的總數看,中國和美國之間差距還是相當大的。從時間的趨勢變化來看,雖然中國仍然排第二,但是和美國的差距是在逐年縮小之中,尤其是在2016年、2017年之后。
排名第三的是英國,可能實際上排名第三的已經是印度了。英國和印度這兩個國家處于不相上下的一個狀態,和排名第二的中國的差距是很顯然的,這是期刊和會議論文的總量。如果只看期刊的話,中國在2012年之后就已經超過了美國,是世界上在期刊上發表人工智能論文最多的國家。
從2012年之后,長期以來排名第二的是美國,但是現在也被印度超過。所以現在已經是印度排名第二,美國排名第三。這背后有一個重要的內容,就是由于人工智能這個領域本身在加速發展,使得很多的研究者為了快,更多地把論文發表在會議上,而不是在期刊上。這是為什么我們在期刊上見到這樣應該狀況的部分解釋。一方面是中國的論文增速非???,另一方面美國作為人工智能最發達的國家,在期刊上發表論文的數字不長進了,原因是大量的論文轉移到會議上去了。
從會議論文加總的數字我們可以看到,美國排最前面,中國排第二,英國排第三。中國和美國之間的差距似乎有縮小的趨勢,但不是很清楚。但是中國和其他發達國家之間的差距是在拉開。中國超過其他的發達國家,而且超過的越來越多。
只是看論文數字,可能還不能說明論文的質量。質量更多地反映在引用次數上??梢钥吹阶詮?014年以來,在引用的方面,中國超過美國,成為期刊論文被引用的總數在世界上排名第一的國家,而美國是僅次于中國排第二的,其他若干的發達國家合在一起排第三位。中國和美國跟其他的國家相比,后者是有顯然的差距的。
從大型的人工智能學術會議論文的年度被引用情況來看,美國遠高于其他國家排名第一,中國排名第二。中國和美國之間是不是差距在縮小,目前還不是很清楚,其他的發達國家和中國之間的差距似乎在拉開。
小型的、更專業的人工智能學術會議發表的論文,加總之后的年度被引用的情況,可以看到中國和發達國家之間已經沒有清楚的優勢了。美國排名世界第一,英國排名世界第二,德國曾經排世界第一,現在連第三也排不到了,現在排名第三的是法國。為什么會這樣?這背后是什么原因?需要專家們來解釋。
再來看一下最高的被引用論文是怎么分布的。首先我們來看期刊上最高的被引用論文,也就是在人工智能領域里影響最大的論文,美國曾經高度領先,到了最近幾年,中國、美國、以色列似乎是不相上下。
再來看會議論文的加總情況,可以看到美國在最有影響力的論文方面遙遙領先,其他幾個國家中國、英國、德國,在最近幾年里不相上下,可以認為并列第二。
對于影響力比較低的論文,我們分成幾個等級:被引用1000次和以上的、幾百次到幾十次的、幾十次到十次的、個位數的以及零引用的。限于篇幅,我著重介紹低引用率論文的情況。在期刊論文上,低引用率的論文,中國一直是世界最高的,美國是世界第二的。但是如果我們看低引用率的會議論文,跟高引用率論文的情形相似,美國遙遙領先。中國和英國并列第二,但是和美國相差甚遠,和其他發達國家相差無幾。
最后我們來看一下中國和美國研究者使用人工智能開源軟件平臺的相關情況。從加總的數據來看,從2015年到現在,我們可以看到中國和美國在使用和開發人工智能開源軟件方面都在增長,但是美國的增長速度更快。2019年,美國使用開源軟件平臺的總量已經多達十幾萬,中國的數字是3萬左右。為什么是這樣?留給專家們去討論、去分析。
小結一下這份報告的核心發現。首先我們看到在人工智能初創企業方面,中國的總投資僅次于美國,大體上相當于美國規模的五分之二。趨勢上來看,中國跟美國總投資額的差距在縮小。如果我們集中看項目晚期的投資情況,中國和美國的差距縮小的更快。這是第一個總結的內容。
第二個總結的內容就是人工智能作為一個全新的行業還正在興起,還沒有真正建立起來,具有非常高的不確定性。當面對如此高的不確定性的時候,它的種子期和早期的數量,即包括項目數量和企業數量,是最終優勝劣汰出成果的關鍵。如果我們集中看種子期和早期的話,無論是企業的總數還是交易量的總數,中國都在英美之后,而且和英美的差距不是在縮小,反而是在增大。這是值得高度關注的問題。
在學術方面,中國發表論文的總量僅次于美國。其中,在期刊發表的總量和引用量總量都是位居世界第一,超過了美國,而且早就超過了美國。而會議發表的總量排第二,和美國的差距仍然非常大,和英國德國等等的差距并不大。在會議論文中,高引用量特別是最高引用率的論文,中國和美國有顯然的差距,而且這個差距沒有清楚地縮小的趨勢。
在人工智能開源軟件方面,與美國的研究者相比,中國的人工智能的研究者開發和使用的要少很多。從趨勢上看,這種差距在增加,而不是在縮小。