數據獲取不暢通,中國科學家做研究也受影響
在信息爆炸的時代,開放的數據共享大大加快了科學技術向前推進的步伐。研究者在公共數據獲取方面遭遇的限制,則反過來阻礙了科研的進步。最近,上海海事大學交通運輸學院的Zheng Wan在《自然》上發表評論,指出中國科學家在進行重要的科學研究時,想要訪問高質量的公共數據庫,已是越來越難。
在這個大數據時代,生物信息數據庫和數據共享都有所發展,可用的技術資源也越來越多。直到最近,這種開放科學的趨勢一直在幫助中國科學家獲得國際競爭力。然而,中國社會正日益感受到對于公共數據搜索和共享的限制。如果這個問題不能盡快解決,便將拖累科學研究和創新。
Zheng Wan表示,中國的科研進步正因數據獲取方面的困難而受限。圖片來源:themandarin.com.au
當前,中國科學家很難獲得高質量的國內數據,而且這還將會越來越難。政府部門掌握了絕大多數公共數據。其中一些部門正在強化自己對數據的壟斷,使研究者想獲取數據變得更加艱難。人文社科研究者所受的影響尤其明顯,而由于研究涉及的數據可能在政治上較敏感,環境科學,公共健康等領域也受到波及。我的很多同行都在學術會議上抱怨過想獲取常規數據——例如從當局索取空氣污染水平數據——有多困難。
即便是公布的數據,也常常因為數據收集存在缺陷而質量不佳。這其中最典型的例子就是關于中國國內生產總值(GDP)的爭議。官方公布的全國數據,與31個省級行政區的GDP總和存在著顯著的差異——而且這差異還在拉大。位于北京的國家統計局承認,各省使用的統計方法并不一致,正在進行協調。只是到目前為止,效果并不理想。
公共數據的共享已然變成一種營利手段。當在編制諸如道路交通的污染數據時,公共數據共享是很有用的。理想狀況下,這樣的任務需要收集多種數據:各類車輛的詳細上牌數量、交通擁堵情況、詳細的發動機參數以及燃油等級等等。但研究機構甚至連從政府部門獲得基礎的車輛所有權數據都困難重重,所以他們只能使用生產商的銷售數據,但這樣的數據既不夠縝密,也常常容易造成誤導。諷刺的是,對外虛報數據的汽車生產商,自己卻可以得到客觀可靠的、關于競爭對手的銷售數據——他們以公共機構和科學家負擔不起的價格,通過特殊渠道向政府部門的關聯方購買數據。
研究者求之不得的數據,一些企業卻可以通過特殊渠道以高價購買到。圖片來源:Daniel Allan/Photographer’s Choice
在這樣的環境下,一些中國研究團隊不愿意公開自己的數據,也就不是什么令人感到意外的事情了。數據就是無形資產,可以使科學家在自己的學術領域中獲得競爭優勢。很多人都向我自己的研究團隊請求海事數據——例如我們匯編的港口統計數據和船隊信息——但是我們也不情愿分享這些信息。為了將零散的數據收集、整理稱可用的形式,我們付出了巨大的人力物力。如果我們不公開這些數據,就可以使用這些數據撰寫論文。
但如果我們能更便捷地從其他來源獲取優質數據,我們就會更愿意分享自己的數據。
由于研究者獲取公共數據都需要克服重重困難,研究數據在中國研究團隊之間的分享氛圍也因而受到了削弱。圖片來源:nature.com
開放公共數據庫并提高數據質量可以提高政府事務的透明度。盡管進展緩慢,我們還是有一些提高透明度,使社會受益的案例。在社會壓力下,環保局從2014年起開始全面公布空氣污染數據,便是一個典型的例子。之前,環保局只公布簡略的日報,如今每小時都更新數據。這些數據被中國的政府部門廣泛使用。根據這些數據,衛生局得以向民眾發布預警,教育局也有依據決定學校是否在空氣重度污染時停課,交管局則得以調整限行規定。充分披露這些數據最重要的作用,也許在于提高了公眾對不斷惡化的污染問題的關注程度。
不幸的是,科學家感興趣的數據,公眾不一定感興趣。實現完全透明,開放更多公共數據,任重而道遠。受到限制的不僅僅是中國國內產生的數據,查閱國外的學術資源有時也在技術上很難實現——一些政府信息管理部門用技術手段設限,以過濾潛在的有害信息。
我在中國的學術生涯受到了影響。我幾乎不能有效地搜索學術文獻。相比于其他搜索引擎,我更喜歡使用谷歌學術搜索,因為它包含了圖書、論文、學位論文、專利、技術報告——但我卻無法使用它,只好逐一搜索其他尚可以登錄的、由出版商運營的數據庫。
網絡安全對于國家安全固然至關重要,而優質的數據是科學進步和經濟發展的后盾。資源共享和開放可靠數據可以鞏固經濟發展和社會安定。中國需要全面的研究來解決這些矛盾。這樣我們才能建立起對各方都有益的,高效合理的數據管理機制。更具體地說來,研究者應該有更多權限,尤其是訪問公共數據和學術搜索引擎的權限。