成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一張圖搞懂美國大數據產業(上)

大數據
數據科學早已不是新鮮事物了,不過對數據質量的需求卻是這幾年才激增起來的。這可不是一陣時尚或舊詞新用,而是一場革命。大至總統選舉,小至總部設在廚房餐桌的小創業公司的各種決策,已不再是建立于直覺與猜想之上,而是植根于真實可靠的數據。

 

數據科學早已不是新鮮事物了,不過對數據質量的需求卻是這幾年才激增起來的。這可不是一陣時尚或舊詞新用,而是一場革命。大至總統選舉,小至總部設在廚房餐桌的小創業公司的各種決策,已不再是建立于直覺與猜想之上,而是植根于真實可靠的數據。

數據科學發展日新月異,如今各種數據工具已經形成了一個龐大的生態系統。我花了一個多月以嘗試給這個生態系統勾畫出一個清晰的輪廓,在接下來的文章里會介紹給大家。

數據科學本身功能交叉,許多數據公司與工具難以歸類。但總體來說,它們分屬數據專家工作流程中的三個主要部分:數據獲取、數據處理、數據分析(文首圖可見本生態系的概貌)

為何要勾畫這個數據生態信息系統?

我花了大量時間與數據專家交流,了解他們的工作流程、難點及解決方案。數據科學工具成千上萬,這個生態系統表當然無法將其一一羅列,不過最常見的軟件、公司及推動這些工具發展的開源程序都已包含其中。

數據專家不能只生活在R語言或Excel表格里。他們需要工具來獲得質量拔尖且可用于預測分析的數據。其實我覺得這正是統計學家和數據專家的區別所在。在我看來,統計學家使用數據進行回歸分析。而數據專家需要切實獲取數據、進行回歸分析、溝通結果、展示模式,并超越所在機構當時的局限,立足于制高點帶領大家尋求切實可行的突破發展。鑒于他們需要統籌整個數據通道,我希望這個數據生態系統可以羅列出數據專家門常用的重要工具和使用方法,以及工具之間的交互聯系。

現在干貨來了!

第一部分:數據源

數據是整個數據生態系統的源頭。總的來說,數據源可分為數據庫、應用和第三方數據三類。

數據庫

結構化數據庫早于非結構化數據庫出現。結構化數據庫每年有約250億美元的市場,你可以在數據生態系統圖里看到眾所周知的Oracle,和一些新創公司譬如MemSQL等。結構化數據庫儲存有限的數據列,一般由結構化查詢語言(SQL)運行,用于數據可靠完善至關重要的領域,比如說財政和運營。

對結構化數據庫有一個重要假設,那就是查詢數據時必須能得到一致且完善的結果。想一想誰絕對需要這樣一種結構化數據庫?對了,就是你的銀行。它們存儲賬戶信息、個人姓名、借款等等,必須隨時分毫不差地知道你賬戶中的金額。

而另外一種則是非結構化數據庫。情理之中,非結構化數據庫是由數據專家們開拓的,因為數據專家眼中的數據與賬戶并不相同。數據專家不太在意查詢結果絕對一致,他們更關注數據的靈活性。因此,非結構化數據在許多方面降低了對數據存儲和查詢的要求。

很多非結構化數據庫是谷歌獲得成功的直接產物。谷歌嘗試把互聯網存儲在數據庫中,其野心和工程之龐大可想而知。MapReduce是一種用于這種數據庫的技術,雖然它一定程度上沒有結構化查詢語言 (SQL)那么強大,但是用戶可以依據需要來調整和擴充它們的數據。MapReduce的數據使用甚至已經超出了谷歌的初始預期。比如現在谷歌可以在所有網站間查詢,并根據網站之間的互相鏈接來調整搜索結果。這種可量化的靈活查詢使谷歌獲得了巨大的競爭優勢,因此雅虎和其他公司以巨額投資來開發這種技術的開源版本,名叫Hadoop。

此外,非結構化數據庫通常所需的儲存空間通常更小。在過去數據存儲十分昂貴,因此幾年前,一些主要的互聯網公司不得不每隔幾個月就清空一次數據庫?,F在這種情況已難以想象了。

從強大的推薦引擎,到世界級的翻譯系統,到令人難以置信的存貨管理,都建立于這些數據之上。非結構化數據庫一般來說沒有結構化數據庫那么精確,但對于許多應用(尤其是數據科學界),這個折衷是值得的。舉例來說,比如你的非結構化數據庫在100個機器上運行,但是其中有一個當機了。這時你僅用99臺機器(而非100臺)來決定向用戶推薦觀看一部特定的電影,也完全可行。這種類型的數據庫看重靈活性,量化以及速度,哪怕不能隨時保證完全精確。

還有一個更有名的例子。一個軟件公司創建了一個基于Hadoop的非結構化數據庫軟件Cloudera。來看看它有多大的成長空間吧:7年前,我接到風投的電話,他們預期Cloudera在全球有10到15家公司的市場,去年Cloudera已獲得了將近10億美元的融資。

隨著數據專家取代財務和會計,成為最主要的數據消費者,數據庫將會越來越走進每一個人的生活 。

商業應用

十年前,沒有人想過能把重要的商業數據存在云端,如見這卻早已成為了現實。這也許是商業的IT基礎結構的最大轉變之處。

我在數據庫生態系統中列出了四種主要的商業應用,分別是銷售、營銷、產品和消費者,每一種功能都有多種SaaS應用可供選擇。SalesForce 應該是首先掀起這股趨勢的并最先獲得成功的。他們把軟件開發的目標人群是終端用戶(銷售團隊),而非單個的首席技術官。這對他們的用戶十分有用,在此過程中,大家也能看到公司客戶能夠信任地把重要公司數據放在云端。

銷售數據不再存在于用戶自己安裝的內部數據庫,而是被放在云端,由致力于保證數據可用且穩定的云端公司提供服務。其他公司也紛紛效仿這種做法。如今基本上每個商業部門都有一個對應的數據應用。Marketo存儲營銷數據,MailChimp存儲電子郵件,Optimizely存儲A/B測試數據,Zendesk存儲顧客滿意度,諸如此類。

為什么這是相關的呢?如今每個商業部門都有強大的數據庫,由數據專家分析并用于預測分析。數據量很大,卻零散地分布在多個應用之中。比如說你在SugarCRM 中查看某個消費者的信息,但是當你想知道這名顧客的服務記錄時,需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的賬單,則要去查Xero。所有的數據都被存放在不同的地點,網站和數據庫中。

商業數據被轉移到了云端,可以存放更多的數據了,但是這些數據被零散地存放在全世界的不同服務器的不同應用里。

第三方數據

第三方數據出現得比結構化和非結構化數據庫都早得多。Dun & Bradstreet從1841年就開始賣數據了。隨著數據對每個機構都愈發重要,這個領域也將會獲得長足的發展。

在數據庫生態系統圖中,我大體把第三方數據分成四個領域,分別是商業信息數據,社交媒體數據,網頁爬蟲和公開數據。

商業信息數據開始最早。我上面提到了Dun & Broadstreet,商業數據購買對許多商業機構來說都至關重要。商業數據能回答所有B2B公司至關重要的問題:我們的銷售團隊該找誰談?如今,這些數據更被擴展應用至網上地圖和高頻交易等領域。新創的數據賣方如Factual,不僅售賣商業數據,更傾向于從這些高盈利的新型領域起步。

社交媒體數據雖然是新興產物,但發展很快。通過智能PR公司對社交媒體中的文本作情感分析,營銷人員能夠切實地了解到品牌熱度與影響力,并有效評估品牌價值。你可以從Radian6 和DatSift里看到全部細節。

接下來我們來看看網絡爬蟲,我個人認為這是一個很有發展潛力的領域。如果能夠把所有網站都作為數據源,由數據科學團隊發展和分析,真不知道還有多少新型商業和技術會由此而生。如今從事網絡爬蟲的重要公司包括 import.io和kimono,我認為這個領域將在接下來幾年呈現爆炸式的增長。

最后,當然還要提及公眾數據。如果沒有數據專家團隊的支持, 不知道奧巴馬總統是否還能夠贏得2004年的大選,這可能也是后來奧巴馬大力推動 Data.gov 的原因。許多地方政府也緊隨其后。亞馬遜網絡服務 存放了許多驚人的公眾數據,囊括從衛星圖像到安然公司的郵件等各個方面。這些龐大的數據系列可以幫助擴大新型商業,訓練更智能的算法,并解決許多實際問題。這個領域發展快速,甚至出現了 Enigma.io 這種專門幫助企業使用公眾數據的公司。

開源工具

開源數據儲存的種類激增,尤其是在非結構化數據的存儲方面,CassandraredistributeRiakSparkCouchDB 和MongoDB 等都大受歡迎。它們多數專注于公司應用,另外也著重于數據工程的生態系統。通過這個交互式地圖 你將可以一睹最受歡迎的開源數據存儲及開采工具的概貌。

責任編輯:李英杰 來源: 36大數據
相關推薦

2021-09-29 11:30:01

大數據技術架構

2021-02-07 09:01:10

Java并發編程

2012-12-24 10:29:42

大數據生態系統數據庫451Research

2016-08-24 13:45:17

大數據云計算

2016-11-22 09:11:22

大數據產業集聚

2015-09-23 10:04:03

開放數據

2015-10-29 15:09:32

信息圖數據

2019-09-11 10:12:12

華為

2015-03-10 10:15:27

AppleWatch開發Swift

2020-05-22 10:07:50

物聯網工程師技術

2016-11-07 12:00:08

大數據產業大數據

2016-11-17 09:14:24

2017-12-27 14:03:20

大數據地理信息測繪

2015-09-14 09:07:15

Java多線程

2015-09-30 15:16:17

2021-07-23 11:35:23

大數據數據紅利運營商

2023-09-05 08:53:51

2018-05-18 18:09:44

人工智能

2024-05-07 08:49:45

微服務架構模式
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产激情视频在线免费观看 | 国产精品精品视频 | 久久久久久久久久久久久9999 | 欧美涩| 日韩一区二区在线观看 | 中文字幕国产精品 | 久久国产一区二区 | 国产精品一区在线观看 | 黄色一级大片视频 | 国产精品久久久久久婷婷天堂 | 黄色片视频免费 | 日韩成人影院 | 中文字幕亚洲区一区二 | 国产精品一区久久久 | 美女拍拍拍网站 | 伊人精品久久久久77777 | 麻豆av一区二区三区久久 | 久久久国产精品入口麻豆 | 午夜影院 | tube国产 | 精品一区二区在线看 | 精品国产精品国产偷麻豆 | 亚洲福利电影网 | 久99久视频 | 最近免费日本视频在线 | 二区精品 | 欧美啊v在线观看 | 欧美精品乱码久久久久久按摩 | 欧美日韩在线一区二区 | 日韩精品一区在线观看 | 国产三级大片 | 日韩欧美在线观看视频 | 久草视频网站 | av大片在线观看 | 欧美激情久久久 | 国产av毛片| 一级二级三级黄色 | 欧美黄色一区 | 亚洲乱码一区二区三区在线观看 | av免费在线观看网站 | 在线日韩福利 |