“數據交易”,那些吃螃蟹的家伙
“數據市場”、“數據銀行”,甚至“數據公約”,大數據時代,圍繞數據所有、使用和定價、交易,一直討論不斷,有些也的確富有想象力。
大數據時代如何將“數據”變成商品,或者原材料,如何實現有效的數據交換?進行合理定價,甚至出現數據交易市場、交易指數這樣的事物,目前確實已經有一些企業在嘗試了,我們進行了搜集和整理,現將這些“吃螃蟹”的案例呈現給大家。

早期比較著名的是Infochimps,該公司位于德克薩斯州奧斯丁。InfoChimps早期的目標是要讓每個人都能找到自己需要的數據集。數據提供者可以將數據集上傳至InfoChimps,可以供人免費下載,或者以一定的價格銷售。InfoChimps還提供很多API可供用戶調用,在超過一定數量的免費API調用限額后,InfoChimps會向用戶收取一定的費用。然而從2012年2月起,Infochimps從數據市場轉型為大數據平臺提供商并獲得谷歌投資,他們如今已經推出了Infochimps Platform流式數據(Streaming Data)處理平臺。
2008年創辦的 Factual提供的多種數據集涵蓋了本地服務、娛樂、教育和醫療等多個方面,還包括了可用的政府數據。Factual不僅向大公司提供數據,同時也面向規模較小的軟件開發商,每一條信息都有17到40條的相關描述。以餐館數據為例,Factual用30種不同的方式對80多萬家餐館加以描述,包括地址、所有權以及食客和衛生組織的評價等。據悉Factual在公司總部附近儲存了500兆兆字節的數據,大致相當于整個國會圖書館所需數據量的兩倍。而在亞馬遜云計算服務器中,還存儲著更多的數據。公司計劃要為相互之間聯系緊密的數千個超計算云建立全球范圍內最主要的參照點。目前,Factual按浮動價格向公司和獨立軟件開發商出售數據,其依據是有多少信息被使用。小規模的數據提供是免費的,大型客戶需要支付的費用則會達到成百上千萬美元。有些時候,Factual還會與其他公司進行數據交易,目的是擴大自身所占有的資源。actual已經有了相當數量的客戶,包括Facebook、CitySearch、AT&T及其他一些公司都會使用Factual來獲得有關某些地方的信息。據悉,Factual在上海擁有辦事處。
日本富士通公司也宣布建立自己的“大數據”的交易市場,并將交易中介服務培育為主力業務之一,計劃在2016年之前將參與企業增加至千家左右。富士通將要建立的交易市場稱為“Data plaza”。用戶可以通過列表選擇需要的數據進行下載。數據在對全部個人信息進行匿名化處理后進行交易。價格因數據量和內容不同而不同,一般在數萬~數千萬日元。此外,還需要繳納每月數萬日元的會費。可以在Data plaza買賣的信息還包括智能手機的位置信息、社交網站(SNS)的帖子等。富士通目前已經開始與流通業和制造業等行業的企業展開磋商。
微軟的Windows Azure Marketplace,它是微軟提供的數據交易和分享平臺,據稱擁有“數萬億個數據點”和一個語言翻譯器。此外,人們也可以向Azure出售數據集。另外,還有專注于幫助開發者和第三方獲取Twitter,Facebook和其他社交網站數據資源的社交媒體數據分析公司,比如Gnip和Datasift。 比如DataSift從Twitter購買了多年的數據同步授權,能夠訪問所有Twitter管道數據,并將子集賣給第三方,主要是企業客戶。Wolfram Alpha公司,由一名數學家創立的公司則擁有蘋果Siri所使用的數據和計算。
數據的分享本身非常有價值。尤其是對于很多除了內部數據,還必須輔助外部數據分析做出的決策來說。因此,能夠下載或者訪問外部數據集,自然而然也就成為了很多企業或機構需求,一些國家或地方政府也都推出了官方的數據集網站可供下載。另外,也有很多數據交易平臺還提供云數據分析,用戶可以直接用虛擬機在云端進行工作。畢竟,對于大多數企業或者普通人來說,大數據分析還是很難的。
這樣就誕生了類似ClearStory這樣的公司,當然還有轉型后的Infochimps。它們都希望通過提供分析平臺,讓人們使用 “數據集市”更加方便。而且,ClearStory的數據源大部分也就是來自”數據集市“,如上面提到Datasift、Factual,微軟的Azure數據市場以及Infochimps。ClearStory Data,也是谷歌投資的企業,其的目標是讓數據變得可以被消費,讓企業可以將自己的數據與海量公共數據混合分析,獲取新的統計分析結果,并以一種可視化的報告展示出來。
附錄,其他數據集相關平臺AWS(亞馬遜網絡服務)公共數據集,提供了一個集中的資料庫,可以無縫集成到基于AWS的云應用程序的公共數據集。
DataMarket:這個全新的數據網站將創新的數據搜索功能與富有創造性的數據可視化結合在一起。用戶可以創建并下載自己的數據集,并將它們加入到自己的幻燈片或公司報告中。
國家空間科學數據中心(NSSDC),美國航空航天局的數據集從行星探測,空間和太陽物理,生命科學,天體物理學,和更多。
London Datastore:這個由大倫敦市政府(Greater London Authority)創建的數據庫發布了數以千計強調實時數據的數據集,譬如運輸和經濟方面的數據。開發者正在利用這些數據創造一系列有趣的應用程序,如馬修·薩默維爾(Matthew Somerville)就為倫敦地鐵系統開發了一套實時鐵路地圖。
Europeana的數據,包含2000萬的文本,圖像,視頻和聲音Europeana的-歐洲文化遺產內容的信任和全面的資源收集的開放的元數據。
Guardian Datablog:《衛報》及其數據博客每天都會發布新聞背后所隱藏的數據,它鼓勵讀者對這些數據進行可視化處理和研究。數據博客利用谷歌電子表格和谷歌云計算數據庫(Google Fusion Tables)來發布數據,讓讀者可以搜索到世界各地數以千計的官方數據集。
DataMarket,可視化世界的經濟,社會,自然,與行業,與100萬次系列由聯合國,世界銀行,歐盟統計局和其他重要的數據提供者。
Timetric:提供經濟學方面的時間序列數據以及生成復雜可嵌入圖表的巧妙方法,Timetric每天都會對數以千計的數據集進行更新,此外,該網站還提供了一個易于使用的界面,使用戶可以輕輕松松的創建屬于自己的數據集。
Wikiposit,(虛擬)合并(主要是金融)從許多不同的網站的數據,使用戶能夠合并來自不同來源的數據。