工欲善事,必先利器:數字經濟下的大數據“技術觀”
眾所周知,任何社會發展的潮流和趨勢,背后都有一系列綜合因素共同驅動,那么對于數字經濟的發展也是一樣。
我們要關注驅動數字經濟發展的關鍵技術因素,或者說,影響社會發展大方向的底層“慢變量”到底是什么,其中從數據科學發展角度,最重要的“慢變量”就是大數據技術的成熟和普及。
大數據技術的發展,改變了傳統的數據分析方法和人們對數據的使用方式,同時,也改變了在信息化、數字化產業實踐中,如何存儲、管理、傳輸、搜索、分析、觀察等一系列數據相關技術活動的基本模式和評價方式。
大數據技術,讓數據分析真正從“實驗室環境”走向“生產環境和商業環境”,讓數據分析的本質從“算法理論”轉化為“算法工程”。
1.傳統的數據分析方法為何已不能滿足數字經濟時代的現實業務需求
數字經濟之所以快速發展,首先要歸功于人們對數據分析處理能力的快速提升。自從2003年Google提出了分布式的數據存儲與計算技術架構,大數據技術得到快速的發展和崛起。
無論是在軟件方面、硬件方面,還是在關于數據處理的技術方面,都出現了越來越多的創新形態,揭示著人們在數據處理能力的邊界得到了史無前例的拓展。
可以說,在以數據為基本對象的技術實踐上,從傳統的實驗室環境,真正走向了現實業務的實戰環境。數據不是為了驗證某個科學理論,而是為了帶來業務啟發,提供智能決策能力,最終完成從數據要素到經濟價值的完整過程轉換。
為了突出說明大數據技術的重要性,還是要先回到傳統的數據分析方法,了解傳統方法的特征和局限性。
在傳統的數據分析場景,數據是干凈、純粹、任務相關的,甚至是統計分布客觀均勻的。比如要分析小麥作物與光照強度的相關性,那么會嚴格控制實驗環境中溫度、濕度、微生物指標等諸多物理參數,接著只要收集足夠量的數據樣本,就可以進行非常有效的數據分析。
上述這些數據都是在嚴格控制的環境下產生的,因此數據與目標問題的相關性非常強,通過有意“挑選”出來的數據對象可以很好地解釋人們關心的問題,提供令人滿意的解決方案。
因此,在傳統通過數據分析場景中,數據量通常不需要太大,往往幾十條、幾百條就能支持業務分析應用。
人們此時可以把更多精力關注到數學模型的客觀性、嚴謹性,以及可解釋性。
對于傳統的數據分析,常用的方法主要包括回歸分析、統計推斷、指標分析、傳統機器學習、概率圖模型等,這些模型要求變量的挑選以及變量之間的關系都設計精良,只有這樣,才能充分發揮出這些數據的本源價值。
然而,傳統的數據分析方法只適用于“實驗室環境”的數據集,在真實世界中并沒有太多施展拳腳的機會。
在真實世界場景中,數據環境是大數據的環境,雖然數據夠多,但是數據質量并不好,也就是所謂的數據看起來多,實際上少(看似有用的數據少)。
那么,這個質量不好怎么理解呢?
其實,這里講的就是所謂“著名的”大數據5V特征,即Volume(數據量大)、Velocity(數據高速產生)、Variety(數據形式多樣)、Value(價值密度低)、Veracity(真實性差)。
大數據概念不是被設計出來的,而是被發現出來的。5V不就是客觀世界中信息的最原始形態么?
數據本身是自然而然的狀態,是按照最樸素的狀態產生出來的:數據量很大,也不一定干凈,有表格、文字、音頻、視頻、日志等不同格式,數據渠道來源不同,信息有真有假,內容有實有虛。
2.人們需要一套應付“非典型”數據問題的數據分析技術——大數據技術
大數據技術解決了兩方面的問題,一是效率的問題,二是質量的問題,兩方面問題本身也是彼此相關的。
面對效率問題,大數據技術得益于底層軟硬件計算框架的能力發展,而面對質量問題,大數據技術則依賴于數據科學算法的研究和創新。
在效率方面,大數據技術提供更高效的數據處理性能。
首先,是數據存儲。為了能夠對不同格式的數據進行靈活的存儲、讀寫、和管理,在傳統的關系型數據庫的基礎之上,又先后興起了NoSQL和NewSQL等非關系型數據庫。
非關系型數據庫可以對任意結構的數據源進行定義和存儲,業務適用性更廣泛,很好地回應了5V中Variety(多樣)的特征。
此外,由于大數據場景下數據規模巨大(Volume),需要構建能夠存儲大規模數據的數據管理系統和文件管理系統,于是相應地就催生了分布式的數據存儲架構。
該架構可以在單臺機器存儲能力有限的情況下,用多臺機器組網構成存儲節點集群,統一地存儲和管理海量的數據資源。
其次,是數據計算。針對給定的數據計算問題,大數據技術實現了編程和執行策略的優化設計。
比如,通過引入并行計算架構,以及該架構下OpenMP、GPU、MPI等相應的并行編程技術,可以同時對多個近似的、單元化的計算任務進行并行處理,提升芯片的整體利用率。
再有,通過引入分布式計算架構,把單個復雜的計算任務分配給多個單臺機器協同處理,發揮多個計算資源的整體性能。
另外,通過引入流式計算架構,可以有效地解決實時計算的問題(Velocity,高速),機器可以邊讀取、邊計算,讓數據處理系統快速地響應外部業務環境的實時變化。
在質量方面,大數據技術提供更先進的數據分析能力。
考慮到大數據場景下數據質量通常并不那么好,因此在數據分析方法的層面上也逐漸衍生出了新的技術解決思路。
在大數據的“技術觀念”下,會自然地“放松”算法模型在科學嚴謹性上的約束限制,同時更加強調其實用性價值。
人們更加關注數據之間的相關性,而非因果性,盡管這種相關性可能比較隱晦,或者難以解釋,但是確實能夠呈現出數據背后隱含的業務含義,并對日常應用起到重要的定量決策支撐。
深度學習和強化學習可以說是大數據在算法方向最為重要的技術突破,其背后的想法是:只要數據規模足夠大,哪怕數據質量差一點也沒關系。
尤其是深度學習模型,與傳統的統計模型或機器學習模型不同在于,其模型的變量和結構都可以從數據中探索而來,而不用人為進行精巧設計。
深度學習模型非常善于從低價值密度的大規模數據資源中,面向特定的業務場景,進行知識模型的自動提煉。
當前,市場化商業環境所能產生的業務數據,在很多領域已經可以滿足建模所需的數據規模需求,這也為深度學習的廣泛應用提供了良好的落地基礎。
3.總結
值得注意的是,大數據技術的出現對傳統數據分析方法來說,是補充而非替代的作用。大數據技術充分發揮了數據在規模維度上的資源優勢,從而對前端的數字化應用提供更多有價值的業務信息。
在實際應用中,傳統數據分析中的思想和方法更多是和大數據技術互相融會貫通、協同應用,很多底層的技術思想也在互相借鑒,彌補著自身技術的不足與應用缺陷。