成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據開拓者 帶給人的10大啟示

系統 Linux
首先我們要知道,在成百上千TB的信息中,我們該如何充分利用大數據。這完全取決于個人的需求和偏好。Interclick廣告服務公司找到了一種在提供接近實時數據分析的同時,能提供更高效的解決方案。哈佛醫學院也了解到,在對病人數量和多年保持不變的數據研究的情況下,數據也會明顯增長。互聯網流量監測機構comSCore,擁有12年的利用列存儲數據庫壓縮數據的豐富經驗,事實上,它采用了排序技術來優化壓縮、減少處理需求。

快速查詢確保高效和及時

 

 

 

 

毋庸置疑,大數據時代已經來了。那么,我們如何去應對這種局面呢?下面,我們聽聽擁有此方面經驗的專家是如何說的吧。

首先我們要知道,在成百上千TB的信息中,我們該如何充分利用大數據。這完全取決于個人的需求和偏好。Interclick廣告服務公司找到了一種在提供接近實時數據分析的同時,能提供更高效的解決方案。哈佛醫學院也了解到,在對病人數量和多年保持不變的數據研究的情況下,數據也會明顯增長。互聯網流量監測機構comSCore,擁有12年的利用列存儲數據庫壓縮數據的豐富經驗,事實上,它采用了排序技術來優化壓縮、減少處理需求。

目前,包括雅虎、Facebook、Twitter、NetFlix和eHarmony(美國在線約會網站)都認為,Hadoop是一個理想化的低成本處理 非結構化數據平臺。它不僅能滿足互聯網巨頭需要,也能滿足包括摩根大通銀行和其他主流的傳統企業的需求。數據供應商InfoChimps同時發現,隨著越來越多的附加和輔助應用的提供,Hadoop將是提供部署支持的快速成熟方案。

 

大數據開拓者 帶給人的10大啟示[組圖]

 

大數據時代下的應用

當然,并非所有的大數據部署都是根據總規模來衡量。比如Linkshare只保留了幾個月但每天都需要加載和快速分析多達數十GB的數據,因此對于每天的這些數據規模來說它是一個比較大規模的部署。除此之外,我們還需要注意數據倉庫擴展性的六個維度。只有這樣,我們才可以制定一個較為準確的方案,從而滿足最為苛刻的測試需求,并獲得技術投資滿足未來需要。

一、快速查詢確保高效和及時

大規模并行處理平臺、列存儲數據庫、數據庫內處理技術和內存計算技術,都可以大幅降低數據查詢時間,從數天、數小時縮減到幾分鐘甚至幾秒。但這并不夠。紐約廣告公司Interclick發現,快速分析帶來的最主要好處是高效。快速響應能爭取到更多時間進行更多、更深入的查詢工作。第二個好處則是,可以獲得幾近實時分析的結果,據此分析有助于提高決策反應水平和準確率。

 

大數據開拓者 帶給人的10大啟示[組圖]

 

Interclick所采用的大數據分析技術

通過快速響應,Interclick能夠在幾個小時甚至數分鐘內對網上沖浪者的行為進行細分。它能夠對訪問旅游站點、預訂酒店站點等的網名行為信息,發送給相應的航空公司、連鎖酒店、汽車租賃公司等。Interclick采用的是ParAccel列存儲數據庫部署,內存集群可以容納3.2TB容量的數據。#p#

壓縮和削減存儲成本

二、衡量數據增長時深知何為貴

通過對長達20年的醫療記錄、研究各種藥物的療效和風險,哈佛醫學院吸取到了這樣一種教訓--在規劃數據倉儲投資時,不僅僅需要解諸如客戶、記錄和交易數量等簡單問題。雖然病人數量和時限仍然較為穩定,但各種醫療記錄卻不斷豐富起來,因為涌現出了很多新的健康監測技術指標。因此,事先了解所有的動態需求至關重要。

 

大數據開拓者 帶給人的10大啟示[組圖]

 

哈佛醫學院

三、數據壓縮和削減存儲成本

更好的數據壓縮可以節省每TB硬件成本。列存儲數據庫,比惠普的Vertica、Infobright、ParAccel和Sybase IQ,可以實現30:1或者40:1的壓縮比。而行存儲數據庫,比如EMC Greenplum、IBM Netezza和Teradata,平均4:1的壓縮比。這是因為柱狀數據可以保持一致,包含郵編、采購訂單號碼等多種數據。而行狀數據,比如與客戶相關的屬性組合--名稱、地址、郵編、采購訂單號等等,則不具有這種優勢。Aster Data和甲骨文數據庫可以提供混合行/列存儲功能。甲骨文的Hybrid Columnar Compression可以提供10:1的壓縮比。

 

[[50569]]

 

數據壓縮

壓縮比率不同很大程度上取決于數據本身,而且列存儲并不總是最好的選擇。如果在數據查詢的時候需要調用很大屬性,行存儲方案可能會表現出更好的性能。事實上,行存儲數據庫經常被企業應用在處理混合查詢的數據倉庫中,而列存儲數據庫更多的是集中在海量數據查詢中。

四、分類壓縮、減少處理時間

類似連續性的列數據有利于壓縮一樣,我們也可以通過數據加載之前進行分類從而提高壓縮比。在將數據裝載進Sybase IQ至 強,comSCore使用Syncsort DMExpress軟件對數據進行分類。該公司的CTO Michael Brown(圖示)表示,它可以將10字節的 數據壓縮成3、4個字節,而通過分類后的10個字節數據可被壓縮成1個字節。“這將給我們存儲海量數據提供了另外一種方式 。”

 

[[51116]]

 

Michael Brown

此外,分類也可以提高數據處理效率。comScore對URL數據進行分類,從而將Web站點分類查詢工作量降到最低。無需加載40個網站頁面的URL地址從而在單個會話中進行訪問,而只需對它們進行分類就可以在Facebook上露出其中20個頁面,GMail上露出12個,其他的則可能會出現在NYTimes.com上面。

分類數據會觸發僅僅3個站點查詢,而未分類的數據則會引起多個毫不相關的數據查詢。“它有助于節約CPU大部分資源和時間,”Brown說到。完全可以借助SQL語句和自編腳本對數據進行分類。不過,在IBM、甲骨文、SAP、SAS等數據集成軟件中,數據分類也是一個常見功能。事實上,Hadoop是一個真正意義上的大規模數據分類和處理的良好選擇。#p#

速度勝于規模

五、Hadoop的低成本非結構化數據處理

Apache Hadoop是成長速度最快的開源項目之一,它是用于處理分布式數據尤其是大量非結構化數據的組件集合。而MapReduce是基于Hadoop的快速處理大量信息的編程模型。傳統的關系型數據庫,比如IBM Netezz、甲骨文、Teradata和MySQL不能處理這種數據,因為它們不能適應整行或者整列數據的情形,即使它們能夠提供支持,其帶來的許可成本會令人望而卻步。因為數據規模通常都是成百上千TB甚至PB級。Hadoop是一款免費軟件,可以運行在低成本的硬件平臺上(Hadoop部署需要日常維護,并不是免費的)。

 

大數據開拓者 帶給人的10大啟示[組圖]

 

Hadoop的特點

采用Hadoop的急先鋒包括有雅虎、eHarmony、Facebook、NetFlix和Twitter,而且也有越來越多的商業機構對Hadoop開始感興趣。

六、Hadoop減輕數據加載和處理煩惱

據預測,Hadoop市場規模將增長到數十億美元,而且相應配套和集成的產品也正在迅速成長。比如著名的數據集成廠商Informatica、Pervasive Software、SnapLogic和Syncsort,都宣布了旨在幫助更快更容易的與新一代處理平臺協同的產品或者集成方案。

Pervasive Software公司Data Rush工具可以提供與Hadoop協同、并行處理的優化,數據服務商InfoChimps采用該工具與Hadoop實例運行在亞馬遜的EC2云平臺上。該公司首席技術官Philip Kromer(圖示)表示,經過Data Rush對數百GB數據的測 試發現,其性能提升了2-4倍,由以往的16個小時降低到8小時,從而幫助InfoChimps降低計算成本,能夠從Twitter和其他非關系數據源獲取更多數據。

 

[[51117]]

 

Philip Kromer

Informatica、SnapLogic、Syncsort和其他廠商,在跨傳統數據庫和Hadoop部署上使用單個工具,正使得數據加載、分類和匯總變成可能。某個單一和熟悉的方式和工具集,會讓管理數據的專業人員工作變得更加輕松。

七、速度勝于規模

在很多情況下,大數據中的“大”并不是每天加載和分析的信息數據庫規模,比如市場營銷人員,通常加載和分析大量數據以盡快洞察市場行情,從而做出快速反應,并重新細分市場,而不會浪費精力和金錢到無用的事情上去。

 

大數據開拓者 帶給人的10大啟示[組圖]

 

LinkShare數據分析服務

 

為出版商、廣告商提供搜索、聯合營銷服務,廣告網絡公司Linkshare每天需要裝載和分析數百GB網絡點擊數據,但總的數據庫容量卻僅為6TB。低延遲正越來越成為該公司獲取競爭力的法寶之一,該公司首席運營官Jonathan Levine表示,“五年以前將昨天的數據信息提交給用戶還能滿足需要,但現在不能再拖延了。”#p#

充分利用所熟知的領域

八、充分利用所熟知的領域

傳統甲骨文、IBM DB2和微軟SQL Server部署之外,Netezza和Greenplum在2000年中期也進入了數據倉庫市場。轉眼間,甲骨文在2008年推出了Exadata,IBM于去年收購Netezza,而今年的早些時候微軟推出SQL Server 2008 PDW。IBM、微軟和甲骨文已經成為當下主流的幾大供應商。比如DirectEdge證券交易所,一直以來都是使用微軟解決方案的客戶。該公司首席技術官Richard Hochron(圖示)表示,PDW成為了“一個顯而易見的選擇”。

 

[[51118]]

 

Richard Hochron

汽車數據提供商Polk公司是甲骨文的客戶,其數據庫開發和運營總監Doug Miller說,公司選擇Exadata的很大一部分原因,是工作人員對管理這一類型數據庫比較熟悉,他們正在等待著第二版的產品更新。

九、基于兼容性的應用

某些數據庫平臺提供有對上一代產品的兼容,而其他產品則要求用戶對數據進行遷移和產品更新。Teradata就是這種提供保持對以往產品兼容性的代表產品之一,用戶可以在新舊硬件的混合環境下提升整體規模。

除此之外,用戶仍需要注意數據庫版本和硬件廠商的特殊要求。在方案實施以前,需要仔細了解各供應商產品的兼容性,同時也需要著眼于未來的長久擴展。

 

大數據開拓者 帶給人的10大啟示[組圖]

 

沃爾瑪網上超市

零售業巨頭沃爾瑪應用Teradata已經超過了20年。作為新協議的一部分,沃爾瑪的Teradata應用部署將繼續擴大和更新。一般來說,“服役期”滿的硬件通常都會為升級提供很好的理由。相比上一代產品,最新的Teradata產品能夠減少50%的占地面積,降低40%的能源消耗。

十、考慮擴展性的方方面面

數據庫專家Richard Winter建議,在進行數據倉庫平臺投資時,要考慮六個方面的擴展性,它們分別是:數據的大小、數據的復雜性、用戶數、查詢量、查詢的復雜性以及數據延遲要求。大量的并發用戶(1000名、10000名或者更多),混合查詢以及復雜的分析,會受限于大規模數據。如果無法滿足以上這六個方面,那么系統不堪重負的速度可能要比預期更快。

 

[[51119]]

 

Richard Winter

最后,用最復雜的數據,以及最難的查詢需求去測試那些數據倉庫平臺,這是非常有必要的。同時,將并發用戶的工作量進行復制和混合查詢,從而進一步測試數據倉庫平臺。

【編輯推薦】

  1. 服務器技巧之優化活動目錄組策略
  2. 深層防御DDoS攻擊-服務器綜合利用
  3. 日參院服務器遭侵入 參議員賬號密碼或外泄
責任編輯:Yeva 來源: ZOL
相關推薦

2015-01-23 17:05:40

PaaS云計算DevOps

2019-04-10 19:01:01

大數據保險業醫療保險

2016-01-08 10:28:44

技術棧SaaSIT管理

2016-12-20 08:40:00

印刷術信息安全

2017-11-28 16:37:19

黑五

2021-01-29 10:07:31

大數據大數據技術

2021-02-05 11:21:54

大數據大數據技術

2015-08-25 15:22:11

云計算綜合布線

2014-12-04 13:39:28

云計算動態智能基礎設施

2013-08-08 16:21:36

2011-11-16 10:37:14

SQL Server

2011-08-05 09:57:40

Windows 7教訓

2011-10-11 16:19:22

Tech·Ed 201開發者

2013-02-18 09:21:38

可用性測試

2015-04-22 15:05:37

大數據投資布局

2011-06-20 17:11:41

諾基亞OviSymbian

2013-11-05 10:44:15

大數據大數據應用

2012-05-26 20:42:39

移動廣告

2019-02-11 12:02:25

大數據智能云計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合在线一区 | 伊人久久大香线 | 在线免费黄色 | 日日夜夜天天干 | www.av在线 | а_天堂中文最新版地址 | 99精品观看| 一区二区视频在线 | 国产美女在线播放 | 亚洲精品在线免费观看视频 | 久久久久久久99 | 欧美性a视频 | 精品免费国产视频 | av黄色免费在线观看 | 日本不卡一区二区三区在线观看 | 午夜精品视频 | 免费午夜视频 | 婷婷激情在线 | 久久久久久久电影 | 国产午夜精品一区二区三区嫩草 | 亚洲精品一区在线观看 | 欧美日韩免费 | 99精品亚洲国产精品久久不卡 | 中文字幕1区 | 午夜一级黄色片 | 亚洲精品自在在线观看 | 欧美午夜一区 | 欧洲一级黄 | 国产成人精品一区二三区在线观看 | 最新国产视频 | 欧美精品欧美精品系列 | 中文字幕av在线播放 | 久久久精品一区 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 97视频人人澡人人爽 | 欧美视频中文字幕 | 免费同性女女aaa免费网站 | 欧美三区 | 亚洲美女在线一区 | 精品国产青草久久久久96 | 一区二区三区四区在线视频 |