大數據獨角獸Palantir之核心技術探秘
1.Palantir源起:B2B大數據和企業級Google。
Palantir(中文名帕蘭提爾,源于《指環王》中可穿越時空、洞悉世間一切的水晶球Palantír)被譽為硅谷最神秘的大數據獨角獸企業,短短幾年內躋身百億俱樂部,成為全球最高估值排名第四的初創公司。它的主要客戶只在美劇和好萊塢里出現,如美國聯邦調查局(FBI)、美國中央情報局(CIA)、美國國家安全局(NSA)、美國軍隊和各級反恐機構,當然還有如JPMorgan這樣的華爾街金融大鱷等等。關于Palantir的傳奇故事很多,CIA通過他家的大數據技術追蹤到本拉登;創始人Alex Karp師從德國的Jürgen Habermas(研究西方馬克思主義)獲得哲學博士,熱衷中國氣功和太極;幫多家銀行揭露旁氏騙局挽回數十億損失,幫助摩根大通解決欺詐交易和黑客攻擊問題,每年節約數億美元;公司創始人和投資人(號稱“硅谷黑幫”)由海軍陸戰隊員隨時保護以防不測;產品只賣美國及其盟友國;與棱鏡門有說不清楚的關系等…這些花邊新聞不是本文的關注點,本文重點從大數據技術角度來揭密Palantir的B2B大數據王國。
如果說谷歌是互聯網大數據的霸主(確實如此,我在前文《從Tensorflow看谷歌的云端人工智能戰略》有詳細解讀),那么Palantir的目標就是做未來企業級大數據霸主,這家公司的愿景就是做企業和政府領域的Google。為什么這樣講?從技術角度來分析,這是大數據發展的必然趨勢,互聯網上的數據多半是UGC用戶產生內容,或是如電商平臺這種某細分領域的獨立生態數據,而真正的大數據金礦還在眾多大型企業和政府機構的服務器集群中沉睡。比如一個國家的情報部門和各部、各局信息中心,無不是掌握著成千上萬關鍵領域的大數據,包括各種業務數據、監控數據、DNA樣本、語音視頻圖片、地圖時空數據等(當然前提是信息化程度及其發達,就像我們的稅務系統一樣,而不是房產登記系統),面對如此海量、多源、異構而且高關聯性、復雜性、動態性大數據,如果沒有快速的大數據分析技術和工具支持,那只能是望數興嘆。而Palantir的大數據技術和產品就是專門針對大型企業和政府機構需求而生(與互聯網公司的大數據技術有較大不同),其官方主頁上的自我定位也很準確:“Palantir’s mission is to solve the most important problems for the world’s most important institutions.”。企業級大數據玩家當然政府和金融是最具數權(信息權利)的兩個領域,所以Palantir研發的平臺級大數據產品只有兩個版本:Palantir Gotham(服務政府及軍隊客戶)和Palantir Metropolis(服務金融、法律及其它客戶)。如果說谷歌、亞馬遜、Facebook等互聯網巨頭是B2C大數據,那么Palantir就是B2B大數據,多數企業和政府機構對大數據的應用還處于起步和探索階段,互聯網下或關鍵領域內網、專網中結合私有云技術的B2B大數據分析是大數據時代發展的必然,而且應用潛力和價值更為巨大,谷歌旗下DeepMind公司開始跟大型醫院和衛生部門合作就是最好的注解,互聯網巨頭以其已有的大數據技術優勢,其業務觸角正在向傳統行業延伸。
圖1. Palantir官方主頁的服務宗旨
2.Palantir產品技術體系:軍事、金融和警務大數據案例分析
網上有個段子,雖然真假不能確認,但卻能從中看出Palantir的發跡史:“美國911之后,CIA等部門忙于調查各種線索。Stanford的幾個教授以公開的海量信息為輸入,利用大數據處理技術建立關于人物關系的網絡,最后鎖定了一批疑似人,并迅速將結果發布出去,使得CIA等部門大為震驚,因為教授們的結果與CIA花人力物力大量偵查和審訊的結果很近似,讓CIA們誤以為教授們有牽連,迅速飛到Stanford找教授們問話。從此,“人腦+電腦“來分析復雜問題并輔助反恐成為可能”,Palantir正是在這一大背景下誕生和發跡的。目前Palantir有兩大核心產品,Palantir Gotham和Palantir Metropolis,前者主要服務于國防安全和政府管理領域,后者主要服務于金融領域。兩大產品體系下轄十多種解決方案,如反欺詐(Anti Fraud)、網絡安全(Cyber Security)、國防安全(Defense)、內部威脅(Insider Threat)、危機應對(Crisis Response)、保險分析(Insurance Analytics)、案例管理(Case Management)、疾病控制(Disease Response)、智能化決策(Intelligence)等。兩個產品線的核心技術是服務客戶整理、分析、利用不同來源的結構化和非結構化數據,創造一種人腦智能和計算機智能的共生分析環境及工具,人腦和大數據分析互補,提升客戶的智慧和洞察力,從而解決大數據環境下的復雜問題決策。Palantir在大數據江湖上最傳奇的戰績,一是幫多家銀行追回納斯達克前主席麥道夫龐氏騙局的數十億美金,二是幫助奧巴馬政府追捕到本拉登。下面我們以軍事、金融、警務三個方面的案例來對其產品的技術體系和服務內容進行初步探索和分析:
(1)以軍事國防解決方案為例。其核心目標是將多個軍事情報領域的海量數據進行融合和關聯分析,轉化為可操作的決策指揮能力,多情報領域數據的集成和融合是要解決的關鍵問題,包括非結構化和結構化數據流,如鏈接圖,電子表格,電話,文檔,網絡數據,傳感器數據,甚至動態視頻、圖像等。Palantir提供了一個基于全量多模態數據融合和協同挖掘分析的大數據支撐框架,可以對在地理、空間上分散的人、裝備、環境、事件等進行大規模實時關聯和因果分析,以指導復雜戰場環境下的軍事行動。這些大數據技術已被美國軍方廣泛運用于戰場態勢分析和預測,如定位伊拉克戰場可能存在的炸彈或地雷位置,幫助美軍在巴格達規劃一條被襲概率最小的路徑,或者分析亞丁灣海盜活動的熱點區域。這些分析整合了美軍等多方原本孤立的數據源(如軍事情報部門和陸海空、海軍陸戰隊等組織機構的數據),通過Palantir的Nexus等技術,無縫整合同步數據和進行分析模型協同,包括各類數據模型、安全模型和本體對象的管理,其全量數據分析和知識管理能跟蹤每一個數據和模型的讀,寫和編輯、保存,以積累戰場空間的決策知識。基于通用的大數據融合分析平臺,使指揮人員和調度人員能在單一系統內解決所有問題,包括敵人的活動情報分析(情報報告,事件行為等),關聯分析(背景、跟蹤、時空、反應等)和預判決策等功能。下面幾個圖(圖2-4)是Palantir 為美國軍隊提供的軟件功能界面,從其中的功能和數據元素我們可以看出Palantir 的大數據分析技術已經深入美國核心情報軍事機構,幫助其實現作戰打擊鏈的全局決策支持,從分析情報、打擊目標,再將軍事行動中獲得的新情報與現有大數據進行融合更新,極大提高了情報分析和指揮決策能力。
圖2. 國防部和海軍的一個聯席分析功能界面,對其艦船、飛機、情報文本和相關戰場環境資源做了融合和關聯,在統一視圖里面進行管控,技術實現上把上述資源映射為各類事件、實體、對象及其關系。
圖3. 阿富汗戰場的融合分析功能界面,對各個區域的各類事件(武裝襲擊、爆炸、綁架等)進行了大規模關聯分析,通過大規模數據可視化鉆取和查詢,可以找出事件之間的因果關系鏈。
圖4. 戰場空間感知態勢圖,戰場環境下各類資源和事件總體態勢分析
(2)以金融欺詐解決方案為例。Palantir憑借其為政府服務的影響力,在2010年摩根大通成為它的首批非政府客戶。后來Palantir幫多家銀行追回納斯達克前主席麥道夫龐氏騙局的數十億美金,名聲大振,其出色的大數據技術獲得華爾街金融大鱷們的認可,目前許多銀行、保險、對沖基金,包括美國證券交易委員會都在使用Palantir的產品和技術。反欺詐是金融領域的一項關鍵業務,信用評級、風險管理、關聯交易、洗錢、逃稅等都涉及此項分析內容。而金融是信息化程度極高的行業,擁有海量的相關數據。Palantir的Metropolis平臺可將許多孤立的金融環境數據匯集到統一分析系統,通過時間序列以及關聯分析、頻繁項分析和知識圖譜、社交網絡等機器學習技術挖掘出有價值的信息。下面圖5-6是Palantir金融版功能界面。
圖5. Palantir金融版Metropolis平臺功能界面圖
圖6. 通過關聯交易、知識圖譜、社交網絡和頻繁項等機器學習技術建立的反欺詐分析視圖
(3)以警務預測解決方案為例。Palantir通過與美國各州的警隊合作,將遍布在城市及鄉鎮各處卡口、警車上的攝像頭拍下的照片及視頻入庫存儲,與警方的人口數據庫、犯罪數據庫、DNA數據庫等進行深度融合,提取出如車牌號碼、人臉、DNA及體態等關鍵信息,這些信息雖然繁瑣且表面看起來關聯性不強,但其間卻蘊藏著各式各樣的關系(強、弱;直接、間接等),聯系之間更是隱藏著深層的信息。通過大規模數據可視化交互技術可將數據間有價值的關聯關系深度挖掘出來,形成完整的證據鏈條,為警方節約大量的人力和時間,而且通過間接關聯分析,一定程度上能解決線索中斷的問題。通過預測性警務模型分析歷史犯罪數據,還能計算出最有可能在警察下一次執勤時發生犯罪活動的地點。2011年,美國海關的一名情報人員在墨西哥被一群毒販射殺,美國警方隨即展開名為Operation Fallen Hero的行動,利用Palantir大數據技術,在浩瀚的人物、地點以及事件等等元素中間建立復雜的關系鏈,同時融合聯邦探員自身掌握的信息,如大毒梟們,及其下線的融資渠道以及運毒路線,通過對與本案相關多源數據關聯的可視化展現、交互分析,將分散隱蔽的證據、信息進行有效銜接,同時篩選排除干擾信息,將證據鏈完整呈現。最終通過資金往來以及人際關系網絡分析理清了關鍵人物以及關鍵聯系,并確定了主要嫌疑犯,逮捕了600多名毒販和大批毒品武器。
圖8. Palantir系統鎖定嫌疑人分析功能界面,通過整合各類人員信息,包括地址、郵件、電話、消費、旅行等各類數據;可視化關系網絡,來分析各類人員信息和事件之間的關聯關系,構造完整的證據鏈條。
通過上述三個解決方案的初步業務和技術分析,Palantir的核心技術關鍵詞可見一斑。一是敏捷大數據架構,重在數據規模的可擴展性,兼顧分析實時性和靈活性;二是全量的數據融合和關聯存儲,通過本體論抽象出各類數據資源的關系進行映射存儲和關聯索引;三是分析模型的動態組合和快速定制,針對不同分析場景可以快速組建分析模型;四是面向人機共生的大數據可視化技術,構造全局分析鏈,把人腦決策和數據可視化探索進行深度融合。下面我們分別對這幾個方面的核心技術進行探索和解讀。
3.Palantir架構設計:敏捷大數據架構的優美實現
Palantir的核心技術是構建了“大數據分析的基礎設施”,如果AI時代谷歌的DeepMind是互聯網的大腦(B2C-AI),那么Palantir很可能就是企業巨頭和政府的AI大腦(B2B-AI)。這套大數據基礎設施一定是敏捷靈活的,才能催生智能。Palantir從數據融合、應用建模和可視化決策三個層面為客戶提供各種敏捷數據分析平臺和系統,基于海量數據的融合和分析,可以曝光恐怖分子的網絡,計算戰場環境下的安全駕駛路線,探索犯罪分布和追索嫌疑人,還能跟蹤致命病毒的爆發路徑等。這一切的實現都是基于其敏捷大數據架構(Scale, Speed, Agility)。我在前文《說說敏捷大數據》和《大數據應用從小做起?談微服務和大數據架構》中對敏捷大數據給出了初步定義:“敏捷大數據是基于數據科學的迭代性本質,利用高效構件化和微服務化技術,對大數據架構和關鍵組件等進行服務化設計,實現多粒度數據的融合處理和計算模型的標準化配置和管理,從而能根據特定分析需求快速搭建原型系統,快速迭代大數據分析結果,快速將原型轉化為生產系統,提升大數據分析效率和數據決策價值”。敏捷大數據的核心要素遵從SFV原則(Small,Fast,Validation,SFV):一是小、二是快、三是證,小的業務分析目標切入,快速出原型快速迭代,證明有效之后再擴張。
從Palantir的技術組件和功能分析來看,通過其數據融合和本體抽象映射,以及模型組合和可視化等技術,應該說初步實現了敏捷大數據分析目標。下面從大數據架構角度解讀幾個關鍵的技術點:從圖10的Palantir大數據物理架構設計圖可以看出,其核心是圍繞全量的數據融合和關聯存儲,通過本體論抽象出各類數據資源的關系進行映射存儲和關聯索引,設計實現參考了全文搜索的思想,不過是在多源、異構、多模態條件下的全文索引和搜索,里面涵蓋了復雜的動態本體論,以及對現實對象和實體的轉換、映射和關聯等操作,相比互聯網搜索引擎的索引技術,是進行了深度擴展的。另外,Palantir采用了clusterable數據存儲技術如Phoenix系統,支持PB級規模數據擴展。從底層的數據整合,數據管道的定制,以及自定義的分析指標和用戶界面,都被整合進一套可視化的向導式的大數據分析平臺。另外設計了revdb可跟蹤任何對象的動態變化,以支持動態模型分析和實時決策。
Palantir通過適配器和系統API,將多源異構數據表示為統一的模型(Model),也就是數據動態本體的融合實現,作為分析的基本數據單元,模型是源數據集的行和列轉化為現實世界中實體的概念對象,任何可用數據描述的現實世界對象都可以作為模型。模型之間可以多重組合,構成更大的模型,以支持復雜的計算。Palantir系統在初始化時需要配置分析目標所需的模型類型及其相關屬性。同樣,Document作為實際的數據+分析單元,是一種動態數據流,可以不斷迭代并作為新的分析模型輸入,而且簡單的Document可以組合為更復雜的Document,而Metrics可對模型Model進行各種計算。通過Model、Metrics和Document三種系統對象進行關聯分析操作,簡單的Model被作為更復雜Model的構建塊,簡單的Document被作為更復雜的Document構建塊,基于動態本體的支持,可以讓分析人員構建和分析任意現實數據和對象,針對數據科學的迭代本質,可以讓分析人員不斷轉變分析邏輯,驗證新假設,并將新發現交給決策者,決策者重新制定新關注點,并向分析者提出新問題。最后通過這種迭代式、交互式、可視化大數據分析技術(如圖11)進行切實的輔助決策支持。可以看出,上述Palantir系統設計的各種元素及其設計思想,是極其符合敏捷大數據架構特征的,可以說是一種敏捷大數據架構的完美實現。
4.Palantir大數據融合:本體論與全量數據的無縫融合索引設計
Palantir敏捷大數據的設計實現,采用現實世界的本體抽象理論方法,基于現實對象和實體的數據映射模型,動態本體是由來自多個數據源的數據(包括結構化數據如日志文件,電子表格和表格;和非結構化數據,如電子郵件,文檔,圖像和視頻等。)進行轉換和集成,從原始存儲格式轉化為數據實體對象和相關的屬性(類似于數據倉庫的數據集市模型,如雪花和星型模式),實體及其關聯關系代表了現實世界中的人、物、事件、時空等對象屬性以及它們之間的連接。因為現實世界的對象屬性時刻在變化,所以這些模型也是要能隨時間變化的,動態本體設計就是基于這一核心思想,并對各類數據源的自動添加,刪除,修改及其映射等操作進行了簡化。這種靈活的、統一的動態本體數據模型,極大簡化和標準化了數據集成和數據融合過程。
如何對現實世界進行本體設計和實現是Palantir最為基礎的核心技術,先看看什么叫本體論:“Ontology(本體論)一詞是由17世紀的德國經院學者郭克蘭紐(Goclenius,1547-1628)首先提出。在古希臘羅馬哲學中,本體論的研究主要是探究世界的本原或基質。各派哲學家力圖把世界的存在歸結為某種物質的、精神的實體或某個抽象原則。巴門尼德提出了唯一不變的本原“存在”,使關于存在的研究成為這一時期的主題。亞里士多德認為哲學研究的主要對象是實體,而實體或本體的問題是關于本質、共相和個體事物的問題。他認為研究實體或本體的哲學是高于其他一切科學的第一哲學。從此,本體論的研究轉入探討本質與現象、共相與殊相、一般與個別等的關系。本體論(ontology)是哲學概念,它是研究存在的本質的哲學問題。但近幾十年里,這個詞被應用到計算機界,并在人工智能、計算機語言以及數據庫理論中扮演著越來越重要的作用。”—來源于百度百科。
十年前,我做文本分類挖掘時了解過“本體”這一概念,當時覺得太玄太虛?當我看到Palantir創始人Alex Karp師從德國的Jürgen Habermas獲得哲學博士,再看他家產品的設計理念,才恍然大悟,也許這個本體論真是反應了世界知識結構的本原呢?雖然Karp是個哲學博士,但看來他是深諳計算機知識工程的本質的,通過現實世界數據的本體設計,再加上以人為中心的大數據分析理念,成就了讓美國軍方和金融大鱷認可的核心技術和產品,再次說明了讓大數據應用落地并產生價值是需要有幾把刷子的(當然前提是他家產品確實是得到高度的認可,而不是虛假的營銷和包裝)。Palantir的無縫數據融合關鍵技術在于數據模型(本體)是靈活的,動態的,而且要能反映人、事、物和環境的關聯關系及推理過程,這是大數據技術面臨的核心挑戰。Palantir通過本體設計、模型組合和數據集市等設計方法和技術,實現了各領域的智能分析,比如財務分析,基本數據類型和本體模型包括金融工具,日期,投資組合,指數和策略等,金融研究人員的思考、經驗、談論和推理等內容作為本體數據的衍生,構成類似數據集市的大的領域本體。在其它軍事、網絡分析產品中,設計思路和方法類似。本體數據類型包括了人、地點、事物和事件所有關系及其相關屬性,而這正是我們人腦中思考表達世界的方式,突出人在分析過程中與現實世界數據的交互能力(human-driven analysis),再結合可視化技術,通過這種數據融合分析過程,我們就會非常擅長在大數據中找尋具有特殊意義和決策價值的信息。
5.Palantir大數據計算:多維關聯挖掘與全鏈因果分析視圖
基于本體論設計的海量數據融合和關聯索引,是大數據計算的基礎。而機器學習算法和強大的數據掃描及分析引擎(可以同時掃描多個數據庫)是大數據計算的關鍵技術。針對現實環境中大數據多源、異構、海量等特征,傳統的計算模型難以直接處理。一般來講,數據計算層需滿足主流大數據處理框架的各種計算模型與方法實現,如基于云計算并行框架,來實現基于Hadoop批處理、Storm流處理、Spark內存處理的高效數據挖掘與機器學習。而且要支持MapReduce、Storm、Spark等多種計算模式下的多種數據挖掘模型與方法。Palantir的數據計算層網上公開資料不多,具體基于那些機器學習模型實現的信息很有限,總體看來其應用的機器學習算法并不太多,其核心是全面的數據融合,索引和可視化分析。但其設計思想還是可以大概梳理出來的,Palantir的數據計算層主要通過資源管理器進行實現,包括模型和數據兩個層面的資源:一是用于分析模型資源的統一管理。資源管理器允許分析人員定義和應用一系列過濾器,快速進行各類分析模型的組合和構建。子模型的結果可以建立快照和保存,并用于組合更大的分析任務模型。二是用于數據本體資源的管理,數據本體作為一個靈活的映射為圖形對象及其關系的真實世界實體,如“人”和“組織”的相關特征,以及它們之間的連接,需要集成許多不同種類的多源異構數據資源,并通過數據庫索引技術把各級數據本體及其屬性、相互聯系等融合成有機整體,以供可視化全證據鏈分析。
分析人員可以利用機器學習、統計和數學符號庫對各類模型進行計算和構建,簡單的模型可以作為構建更復雜模型的基礎,而更為精巧復雜的分析行為就是一個流線型、模塊化的過程。Palantir創建的分析模型以一種被稱為Document的形式進行存儲,模型可以分享,鏈接和重組,而且可以加入工作流程中進行迭代分析。通過Model、Document和Metric的組合和連接,構建模型組合和關聯分析的整個分析鏈條,并在可視化界面上進行互動操作和多視角關聯分析。通過這種數據計算建模方式,基于數據融合本體模型和以人為中心的數據可視化技術,實現快速查詢,快速迭代和分析協同,將整個過程的相關碎片信息匯集到Palantir系統,建立關聯聯系,分析因果關系,最終構建一套強大的通用大數據分析平臺。
6.Palantir大數據可視化:決策導向與人機共生的分析環境
大數據分析工具固然重要,但是人的判斷更重要,機器智能只能是輔助決策(特別是重要的決策)。通過大規模機器學習,可以獲得領域專家或決策者關注的價值規律信息,但應用要落地,就必須對挖掘分析結果進行直觀理解和形成輔助決策知識,傳統的人機交互方式對大數據可視化決策來講還不夠,大數據可視化互動操作(鉆取、多層次、多視角)、對基于GPS/GIS/衛星圖像的大規模空間網絡和附加數據圖層可視化、動態數據流軌跡和鏈路可視化等技術都需要深入研究。Palantir的產品把海量多源、異構數據的融合和機器學習算法引擎整合得很優美,處處體現了敏捷大數據設計思想。但更為出彩的設計還是它的可視化技術,Palantir提出了一種人機共生的可視化大數據交互探索分析理念,這里我再加了決策導向,為什么要人機共生,當然是更好地服務于決策,Palantir的本體數據模型設計同樣是想幫助人們更好地理解現實世界的各類實體、對象及其聯系。
我們都知道,大數據不僅數量龐大而且是動態變化的,大數據環境下普通用戶如何才能理解和使用好分析工具很關鍵,甚至很多用戶對自身的分析需求都不知道的情況下。Palantir不只是做數據整合和把分析結果擺出來就完事了,而是把初步分析結果呈現給用戶,讓用戶深度參與后續的探索過程,從而發現各種信息之間的聯系,幫助用戶尋找的深層分析需求和數據之間的深度關聯,整個過程是不斷迭代和優化的,最終提高用戶的決策能力。要讓用戶搞清楚這一個過程,多種維度的可視化技術十分關鍵,當然Palantir的數據本體模型設計,在一定程度上降低了用戶對數據的理解難度,相比分類、聚類、預測、神經網絡及其復雜參數項等概念來講,現實數據和實體、屬性、事件、關系等進行映射,一般人還是可以理解的。Palantir的交互式可視化界面采用了豐富的大數據可視化技術。各類表格,散點圖、地圖、網絡圖、熱點圖、曲線圖等的快速展示和流暢交互,為用戶提供了一個分析主題數據相關的全盤視角,而且可視化功能隨著數據源或分析條件變化可以動態調整和實時響應,下圖是Palantir典型的可視化圖表。
7.總結與啟示
最后做個小結,本文對大數據獨角獸企業Palantir的核心技術進行了初步探索和解讀,雖然我們軍方和國家安全部門的大數據應用情況,暫時不是很了解。但從企業應用和各級地方政府大數據應用的了解情況看,我們與美國在大數據領域的關鍵技術研究方面還是有較大差距。正是因為Palantir這種明星公司可能有過度包裝宣傳的因素,所以本文從技術角度進行了解析,對其技術成熟度和技術先進性應該說有了一定理解和把握,包括其大數據架構、大數據融合(將所有的相關數據進行自動連接,構建相關數據鏈)和核心技術的設計思想、大數據計算和模型元素(Model-Metric-Document分析嵌套)組合以及以人為中心的可視化技術等內容。當然受限于核心技術資料的公開度,各項關鍵技術暫時無法做細致深入的解構。
多年前我和一位朋友就討論過一個問題,當然那時候還沒有大數據這個概念,當時我們在思考能否設計一個軟件,能整合和查詢大型企業所有相關數據,包括各種業務系統數據庫、全局信息環境下各類PC和各級服務器上的文本、圖片、視頻或公網的相關競爭情報數據等,其實就是后來BI領域火過一陣的企業搜索,不過當時很多國內企業連統一視圖的報表都做不好,結構化數據都管理不好,何來非結構數據的融合需求呢?想來也是太超前了,但大數據要有價值,就不能放過任何數據。現在Palantir的B2B大數據業務就是在做這個事情,而且是做大做強了。所以說,要構建大型企業和政府機構的決策大腦,B2B的企業大數據系統必須要上,而且其應用價值不會比互聯網大數據應用價值小。Palantir的政府大數據系統、金融大數據系統、DeepMind的醫療大數據系統、通用電氣(GE)的物聯網大數據系統等,都在向這個趨勢演化。
全量大數據分析,一定面臨數據多源異構、關聯性、動態性和不確定性等復雜多變的問題,Palantir的“人機共生”大數據分析理念值得我們學習,而且會是將來AI時代最為重要的大數據應用模式。例如軍事情報分析和反欺詐分析,敵人或犯罪分子的應對手段也是在動態變化的,只靠歷史數據分析是不夠的,而且最新動態信息跟不上的話,分析結果可能會造成嚴重誤導(就像豬的世界里一定不會有被宰殺的記錄進行存檔),大數據系統一定要解決增量、動態、反饋、知識、決策這幾個關鍵問題,而且是要把這幾個方面串起來,形成完整的分析鏈,采用Palantir產品設計的人腦和系統共生的分析方式,從而能夠對快速變化作出實時響應。大數據不僅僅是數據采集,分析和管理,更為重要的是領域業務、知識模型和本體抽象融合,把人的理解和決策,與機器智能的融合、計算、推理能力強強聯合,是Palantir最為核心的大數據技術,另外Palantir做的不只是產品,通過技術人員的現場服務,幫助分析人員理解融入人機共生的大數據分析環境,這才能最大化大數據系統的輔助決策價值。
總之,大數據和AI時代的基礎設施,除了互聯網界的谷歌、亞馬遜等巨頭之外,在傳統大型企業和政府領域還會有Palantir這樣的B2B大數據獨角獸,換句話說,Palantir代表了美國在線下大數據領域的核心競爭力(特別是結合空天技術的軍事、公共安全大數據領域,是大數據時代國防和內部安全的核心技術保障),互聯網畢竟還是虛擬空間,不能構建真實世界完整的數據視圖,軍事、金融、政務、交通、醫療等領域融合自身線下大數據和線上數據的高效分析智能決策,才是未來國家大數據治理之根本。如此看來,人工智能時代,不管是B2C還是B2B大數據,核心技術的落后其后果是難以估量的。