大數據技術帶來科學知識生產新模式
大數據是指無法在現有時間概念框架中用傳統的數字技術工具進行感知、采集、管理、處理和服務的海量數據集合,具有容量大、產生速度快、類型繁多、信息價值大、冗余信息多四個特征。舍恩伯格(Viktor Mayer-Sch?觟nberger)在《大數據時代:生活、工作與思維的大變革》一書中指出,“大數據時代的到來必將變革我們未來的生活、工作和思維模式”。同時,舍恩伯格還提出了通過分析挖掘大數據探尋事物中的相關關系進而預測事物規律的研究方法。相關關系概念的提出,構建了以海量數據計算、尋找相關性、承認模糊性等為特征的新的認知方法和思維模式。
目前,大數據技術已影響到社會生活的方方面面,同樣也為科學知識的生產活動帶來了變革性影響。基于大數據技術的科學知識生產方式,將科學研究對象的范圍拓展至各種終端設備實時采集的海量數據,再利用計算機進行集中管理和統計分析,進而挖掘事物內部的相關關系,形成了所謂的數據密集型科學研究,這也是赫伊(Tony Hey)等人提出的科學研究的“第四范式”。在此背景下,大數據處理系統已逐步成為新一代科研基礎設施,知識生產方式也逐步從假說驅動轉向數據驅動,并已在高能物理、環境監測、天文探測、生物醫學等領域的研究中獲得了廣泛應用。總的來看,大數據時代的科學知識生產已經呈現出以下幾個方面的重大變化。
第一,逐步構建基于大數據的科研服務平臺。依賴于電子、通信、計算機等技術的飛速發展,尤其是各種監控、監測、感知、數據采集終端以及超級計算機的廣泛應用,一種基于對大數據進行采集、存儲、傳輸、計算、分析、整合的新型科研服務平臺正被逐步構建起來。如今,傳統的針對少量特定數據進行精確計算從而尋求事物之間因果關系的方法,已無法處理呈指數級速度涌現的大規模數據集。比如,深海探測器、醫療記錄儀、宇宙空間站、航天衛星、大型強子對撞機等設備,為當代科學研究提供了全新的素材和研究對象的同時,所產生的海量數據(如歐洲粒子中心的大型強子對撞機每天產生的數據已達若干個千萬億字節)也已無法再用傳統的計算方法進行統計分析。對此,很多國家都已著手構建基于大數據的新型科研服務平臺。
第二,提出科學知識生產新的邏輯通道。從邏輯實證主義開始,對數據進行精準計算,從而尋求事物之間的因果性,就是科學家所恪守的研究方法。然而,大數據技術環境下,海量數據集已超出了我們的理解甚至想象能力,而這些數據中有相當大一部分是重復甚至是無用的。對海量數據進行統計分析,挖掘事物之間的相關關系,進而對未來進行科學預測和分析,得出新的結論,已成為一個新的科學發現的邏輯通道。在這種計算模式中,科學家不再需要深入分析每一個數據與其他數據之間的關系,也沒有必要探究個體甚至局部數據背后的科學事實,而是從宏觀上觀察、計算、分析海量數據中蘊藏的相關關系,進而探尋相關關系背后的內在規律。盡管這些規律有些并不是必然的,但統計學意義的結論仍具有相當的科學價值。而且,這種“是什么”的現象背后也隱藏著“為什么”的問題,引導著我們進一步去探究。從這個意義上講,大數據其實并沒有否定科學發現中的因果性邏輯,而是對因果性邏輯的補充甚至超越。
第三,塑造科學共同體新型合作模式。大數據技術背景下,科研數據得以深度共享,大學、研究機構、高新技術企業之間相互依賴的程度進一步增強。科學家可以在一定程度上共享直至協同處理海量科研數據,甚至社會公眾也參與到新知識的生產中來。大數據技術正不斷構建科學共同體的新型合作模式。一方面,數據共享使得科學共同體更為凝聚;另一方面,科學共同體間的相互依存度不斷提高,合作模式也不斷拓展。如今,各個領域的科學家都應能夠獲得、使用本領域乃至其他領域的各種非結構化數據。大數據轉化為科研對象,及時追蹤、獲取、共享和利用各種數據的能力,已成為影響科學家知識生產能力的重要因素,這也內在地要求不同領域的科學家之間建立起高效的協同合作機制。比如,對海洋的觀測就需要計算機領域、海洋領域、氣象領域等科學家通力協作,共同處理連續的模型設計、自動化的數據治理控制和校準、進行數據分析計算和可視化等過程的合作。科學共同體的合作不僅避免了重復性工作,而且極大地提高了科學研究的效率和科研成果的社會顯示度。
第四,強化全球范圍內知識生產的協同。在網絡化、全球化的科學知識生產背景下,單一科研機構很難再擁有大數據知識生產的全部資源,這就要求在知識產權保護允許的前提下,不同國家的科學共同體之間要建立起必要的合作和共享關系。在一定范圍內共享各種大型儀器設備、海量數據、技術程式,不僅可以節省大型昂貴設備的購買費用,而且可以降低數據獲取和處理的時間成本,從而提高全球范圍內學術資源的有效配置。比如,作為國際“虛擬天文臺”一部分的微軟全球望遠鏡,可以獲取普通望遠鏡無法比擬的海量數據,而且已可無縫鏈接到天文學家們慣常采用的定量研究方法上。數據轉化為科研對象,大數據的采集、獲取、分析和計算,也就成為全球性科學共同體的共同事業。未來,全球范圍內科學知識的協同生產,將成為科學研究的新常態。
歷史上的科學研究經歷了基于觀察、假說和驗證的經驗科學,到基于理論分析、概括和總結的理論科學,再到基于建立模型、計算和分析的計算科學三個階段。如今,大數據技術正將當代科學研究推向通過數據采集、統計、分析來尋求相關性規律的所謂大數據科學時期。從假說驅動轉向數據驅動,從發現因果性轉為尋求相關性,開辟了科學知識生產新的邏輯通道。面對數據的爆炸式增長,大數據計算模式也是解決海量數據和有限數據處理能力之間矛盾的一個有效途徑。盡管這種模式是否可以作為科學知識生產的新范式仍是一個值得深入探討的問題,但我們可以看到,基于大數據的知識生產的應用日益廣泛與深入,大數據的采集、計算、分析能力也已成為科研機構知識生產能力的重要方面。同時,數據成為科學研究的直接對象也使得科學研究中科學理論與技術手段之間的邊界日益模糊,科學能力和技術能力不斷轉化,共同推動著大數據知識生產能力的快速提升。
面對大數據技術帶來的科學知識生產新模式,我們應加強對于一些大數據計劃的支持力度,建立一批較為先進、完備的大數據技術服務平臺,加大對于開展大數據項目研究的科研院所和高新技術企業的支持力度,鼓勵科學共同體積極展開國際交流合作,以提升科學界的知識生產能力,從而在新一輪的科技競爭中搶占制高點。加強國家層面的政策設計,建設完善的大數據技術平臺,促進科學界與產業界的通力合作,促進科技成果的快速轉化,不僅是提升科技創新能力的必由之路,也是建設創新型國家的重要目標和內容。