成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專訪UCloud王冬冬:UDDP如何在大數據下拋頭露面

原創
大數據 開發
隨著移動電商、社交網絡、智能硬件的強勢加入,通過各自數據規模與維度的指數級增長,除了催生數據生態系統各個環節的技術模式與標準變化,還催生更大的市場和利潤空間。而這些TB至PB級的海量數據在存儲、處理、分析、檢索技術和成本上對很多中小型企業面臨著很高的門檻。在這些不同環節的商業需求上正在孵化新的急速模式和方法以實現新的商業模式。

小編認為,大數據與云計算已經在野蠻的演變為一個整體。

隨著移動電商、社交網絡、智能硬件的強勢加入,通過各自數據規模與維度的指數級增長,除了催生數據生態系統各個環節的技術模式與標準變化,還催生更大的市場和利潤空間。而這些TB至PB級的海量數據在存儲、處理、分析、檢索技術和成本上對很多中小型企業面臨著很高的門檻。在這些不同環節的商業需求上正在孵化新的急速模式和方法以實現新的商業模式。

所以,在數據處理方面Hadoop無疑是更多企業的首選。這脫胎于GoogleMapReduce的大數據分布式處理架構,為解決搜索引擎海量數據的處理和存儲問題而驕傲的誕生,許多的企業也圍繞這個架構產生:今天的主角UDDP也是如此。

UDDP能夠幫助用戶輕松、快速地處理TB甚至PB級的海量數據。主要應用于數字營銷、數據分析、商業智能、科學模擬等領域。同時也是基于 Hadoop 開源框架開發,包括 MapReduce 和 Hive。記者通過對UCloud分布式數據分析平臺負責人 王冬冬的專訪,從對UDDP技術應用層面的剖析,到其在市場中的競爭優勢以及相關的應用場景,讓用戶對UDDP有一個新的了解與參考。

 

[[121760]] 

王冬冬,ucloud分布式數據分析平臺負責人,先后分別在盛大和騰訊工作,2012年初離開騰訊加入ucloud。強邏輯性思維方式,熱愛互聯網。

以下是51CTO記者與王冬冬經理的專訪錄音整理:


記者:UCloud憑借其混合云產品和云內存儲產品UMem入圍2014年度互聯網最佳技術創新獎,UMem的自主研發Key-Value內存存儲系統與常見開源的Kye-Value分布式存儲系統有哪些不同?性能和兼容性如何?

王冬冬:UMem是我們自研的一個Key-Value內存存儲,它最大的一個特點是分布式設計的,它在容量和性能上可以突破單機的一些限制,同時UMem還做了主從熱備,主機故障的時候,它可以自動切換到從機,比其他單純的Key-Value存儲更加可靠。

UMem可以兼容絕大部分的memcached和Redis的協議,用戶應用幾乎是可以無縫的接入進來。性能也是根據用戶申請的容量來控制,我們現在目前是每1G大概支持4000QPS,申請的容量越大,你可以獲取的能力就會越大。

記者:前兩段時間SQLite剛發布了2.8.7版本,比上版本性能提升了50%以上,有沒有考慮應用到UDDP中?

王冬冬:關于您說的這塊,我們公司有另外一個產品對應,叫UDB。SQLite它是一個非常非常優秀的輕量級的關系型數據庫,它本身是沒有服務器進程,存儲在單一文件中,支持跨平臺性。但是SQLite的缺點其實也是非常明顯,它不支持很高的并發量和很大的數據量,數據維護也是一個非常困難的事情,對SQL的標準的支持也是不夠全,缺少用戶管理,所以在一些很小的中小型站點上應用可能會比較合適,但非常不適合大規模的應用。

目前我們本身的UDB這個產品,也會推出一些比較小的UDB去適應比較小的中小型站點,暫時不考慮把sqlite應用到我們的udb產品中。

記者:了解,UCloud近期推出旗下大數據產品UDDP,基于Hadoop開源框架開發,主要應用在哪些場景?有無自主研發或創新優化,和其他分布式數據處理產品的優勢在哪里?

王冬冬:Hadoop最初的誕生是谷歌發布的gfs、mapreduce兩大論文的實現。本質它是一個分布式計算平臺,在當時是為了解決搜索引擎海量數據的處理和存儲問題,所以在搜索這個場景是非常合適的。

隨著互聯網行業的發展,Hadoop現在已經廣泛應用于各個行業,比如說一些在線廣告、在線旅游,或者一些電子商務等等。包括一些傳統行業,也因為互聯網的滲透,開始慢慢使用起來,比如說一些商場零售、圖像處理、醫療保健等。

我們大數據產品UDDP是基于Hadoop的生態系統,采用的是多用戶共享集群的一個方式,在權限、安全方面做了很多的工作,包括從底層的網絡就進行了用戶的隔離,在這方面做得很多。

另外在任務調度、資源管理方面,我們也加了一層的設計,可以靈活的調度用戶提交過來的任務,對它進行優化。同時我們也結合了我們自身的云計算平臺,在保留用戶原來習慣的情況下,方便用戶進行海量數據存儲計算,而不需要考慮集群的維護,降低用戶的使用經濟成本和時間成本。

記者:UDDP提供了MapReduce 和 Hive,一般來說MapReduce從時間,數據量,計算量上來看,都會優于Hive。而Hive的開發和維護成本卻遠低于MapReduce,對于用戶不同場景的需求,在轉換的過程當中UCloud有提供哪些解決方案?

王冬冬:我們在幫助用戶應用一些大數據的時候,也的確發現了一些用戶對mapreduce使用感覺比較復雜,包括對Hive使用,也會覺得比較復雜。我們已經在針對性的開發一些周邊的工具,比如說數據源同步、MapReduce算法模塊、數據流水線等一些工具,從MapReduce場景轉換到Hive這樣的工具,我們后續也會有可能提供。

通過這些周邊工具的開發,能夠很方便地讓原來不太了解的用戶快速入門,在整個數據產生到最終的應用的過程,快速達成目標。同時我們也會和第三方的一些公司、社區進行合作,在一個良好的生態下為用戶提供這些服務。

記者:咱們還是在兩者之間開發一些周邊的工具,提供給用戶,應該說是簡化他們的一個操作流程。然后我之前也看到了您演講的PPT里面UDDP好像整合了HBase,能介紹一下整體的設計是怎樣的?

王冬冬:UDDP在整合HBase,現在已經在公司內部進行測試,預計很快會對外發布。UDDP整體的系統,它的底層存儲目前是用HDFS,后續會和我們自己的存儲產品進行整合。在存儲之上,我們會提供兩套的分析框架,一個是MapReduce,一個是Spark。

另外同時我們也會提供一些HBase這種列存儲,在MapReduce和Spark之上會衍生各種的工具,比如說現有的一些Spark SQL……,整個集群還會有專門的安全和權限管理系統,用于用戶權限的管理和數據的安全。同時還會有任務調度、監控,去調度優化用戶提交的任務,保證集群在一個非常好的狀態下去運行。

記者:在大數據環境下進行數據分析,更多人都會選擇Spark。剛才您也說了,會集成Spark,專門做一些分析。大家都知道它是基于內存上面進行運算的,這樣的話可能處理的數據會有限。在這方面,你們是如何解決這個問題的?

王冬冬:我們對比了MapReduce和Spark,一方面Spark比MapReduce更通用了,因為Spark提供了比MapReduce更多的數據集的一個操作類型,比如說MapReduce只是提供Map和Reduce這兩種操作,Spark還會提供一些filter,union,join,sort等等操作,這會讓編程模型更加靈活。

另外一方面,MapReduce在一些反復迭代的場景比較慢,它慢的原因就是MapReduce每次處理它的中間數據,要直接寫在HDFS上面。那么Spark是建立在一個統一抽象的RDD上面,中間數據是寫在內存當中,在整個迭代運算中會非常有優勢,非常有效率。

剛才您提到的內存有限,實際上加載到內存中的這個數據,只是整體數據的一個子集,是它運行中間的數據或者是一些Cache的數據,并不一定需要同等規模的內存來支持。Spark在一些細節的地方,就是說如果你內存不夠的情況下,也能夠很好地處理。

記者:在傳統的BI對于數據倉庫的一般規模結構化,數據進行處理分析和提供商業化商業智能的時候,都是基于Hadoop。那么就是說基于Hadoop上面UDDP的戰略級別的數據是怎么樣的一個形式?

王冬冬:從目前數據類型的分布來看,全球不斷產生的新數據,非結構化的數據增長是遠遠超過了結構化數據的,而且這個差距會越來越大。那么傳統的數據倉庫很難解決這種非結構化數據的一個分析,在這方面是我們基于Hadoop的UDDP它所擅長的。

當然結構化的數據需求是一直存在的,傳統BI之所以依賴這個數據倉庫,本身是整體的機制已經非常穩定和成熟。UDDP在針對結構化數據,一方面會和我們內部的產品進行結合,來提供服務,比如說上面提到的關系型數據庫產品UDB,另一方面,UDDP也會把數據流整個的生態給建立起來,會提供一些數據流的工具,提供數據對接的接口,這樣讓用戶可以享受大數據平臺海量分析能力的同時,不改變太多用戶的使用習慣,是這樣的方式來解決。

記者:剛才您說UCloud上面也有一個叫源數據,就是UDB,它跟UDDP之間會不會有一些整合進去?

王冬冬:會得,這個一定會,比如說我們數據流的一個工具,我們當前的一些用戶的數據,是一個非常海量的非結構化數據,但是對于一些數據的運營人員,他們來看這個數據的時候,還是希望以表格、曲線圖這樣的方式來看。這部分數據分析過后,可以去落地到udb里面,然后它的一個報表整體可以基于udb繼續去開發,去展示。

記者:剛才咱們也說了,UDDP集群是基于Hadoop集群上面做的。在這基礎上有哪些優化和創新?它們之間的關系是什么樣的?

王冬冬:UDDP集群基于Hadoop,是在Hadoop這個生態圈內,會把Hadoop成熟的一些思想、方法、工具集成進來,同時也會和我們云計算進行結合,提供彈性,更低成本的海量分析服務。另外,我們還會深入到用戶場景中,把很多原來在每個用戶都需要處理的繁瑣的數據流程,通過圖形化,工具化提供給用戶,讓用戶基本上只需要定義好數據輸入、輸出,就能得到想要的數據。通過建立大數據的生態圈,也讓用戶可以共享更多人已經實踐了的經驗。

記者:主要還是提供一些比較簡潔明了的,圖形化的一些界面給用戶去使用。

王冬冬:對。

記者:在大數據爆發的時代,傳統行業如果通過大數據去提升它的競爭力,UCloud這塊的一些案例您能分享一些嗎?主要是基于那些方面?

王冬冬:其實在互聯網行業,數據驅動業務這樣的一個模型是比較成熟的。比如說我們現在的游戲都是通過數據分析,去分析新用戶的增長,轉換率等等,它可以直接幫助我們改進游戲的一個設計和運營。但是傳統行業在這方面運用其實是比較少的,他們內部雖然沉淀了很多的基礎數據,但這些數據是靜止的,是不流動的。

我們通過大數據的應用,讓這些數據可以流動起來,可以和自身的業務結合起來,然后去推動業務的增長。比如我們看現在的一些零售行業,就是非常棒的例子,通過收集用戶的信息,通過用戶的反饋,去改進他們整個的零售運營。

那么UCloud大數據產品剛發布不久,已經和一些在線教育、金融還有視頻的用戶在接入。

記者:我了解咱們UCloud好像大部分都是基于游戲公司,以后的方向可能會跟在線教育這一塊,會提供更多的支持?

王冬冬:在線教育是我們非常重視的一塊,以后會提供更多支持。

記者:剛剛我們說的可能就是基于UCloud層面,那么在UDDP平臺上,它在傳統行業是如何應用的?比如您剛才也說的在線教育可能不算傳統行業,我們更多的是醫療、交通監控等,傳統行業其實本身是有很多數據的,這些數據如果我要遷移到UDDP上面,我們這邊有提供一些什么樣的方式或接口?

王冬冬:對于傳統行業,其實他們本身的大數據技術的積累是比較薄弱的。我們目前主要提供的還是一個數據分析的平臺,針對于這些不同的用戶,我們還是有一些周邊的工具支持,比如說用戶需要遷移,我們會提供一些遷移工具,比如他原來的數據放在Oracle,我們會提供一些Oracle遷移到我們的分析集群上的數據;如果他們原來是文本,或者是一些其他的關系數據庫或者是另外其他的介質,那么也會提供相應的一些工具來支持到,用戶在遷移數據的時候成本就很低。

另外一個方面,其實真正在大數據應用,我們幫助用戶更多的實際上是用戶去了解這個大數據,去真正能夠感受到大數據到底能幫助他們做哪些事情,同時我們也會對他們的技術人員提供技術指導,讓他們能夠很快地去適應在大數據分析的場景下,在我們的大數據平臺上面怎么把數據整體給運轉起來,得到他們想要的數據。

記者:剛才你說到Oracle數據庫,UDDP現在好像我看到只支持兩款數據庫,分別是MySQL和mangoDB,后期有其他更多的嗎?

王冬冬:我們現在其實提供產品主要的一個依據,一方面是用戶的使用非常多,一旦用戶達到一定規模的時候,我們就會在這上面去提供相應的一個產品,比如說Oracle,其實我們在內部也會討論。

記者:Oracle可能就是對于一些傳統行業用的比較多,大量的,這是我個人的理解。

王冬冬:對。

記者:在數據存儲上我大致了解幾類,像通常的key-value數據庫,文檔型的數據庫mongodb,列式分布式數據庫HBase等等,對于不同的業務,在UDDP上面是如何考量和選擇的?

王冬冬:我們提供的存儲還是根據用戶實際的應用場景來看,比如說mangoDB在游戲這個行業里面,應用的是比較多。那么當我們主打的一個行業是游戲行業的時候,我們會優先考慮把mangoDB給提供上去。

記者:像咱們的一些潛在用戶,就是可能他對咱們的產品不是很了解,因為之前基本都是使用過咱們產品的用戶,他才會給反饋。對于一些潛在用戶,有可能沒有用到您們提供的這兩款數據庫,結果是會造成這些用戶的流失。

王冬冬:我們一方面其實就是說讓用戶怎么來知道他應該選擇哪一種產品,對于這一塊,一方面我們在我們的官方網站上也會提供一些成熟的案例,包括一些整體的架構是怎么樣搭起來,哪些產品在這個設計里面是非常好的。另外一方面,我們也會有架構師去了解你的具體應用場景,然后向你提供專業的幫助,還有,我們也會和一些第三方合作,拓展更多能夠幫助到用戶的咨詢渠道。

記者:在Hadoop上面數據同步的設計是相當重要的,通常需要異構數據源的同步,像數據文件到關系型數據庫,或者數據文件到分布式數據庫,關系型數據庫到分布式數據庫等等,這方面你們是如何做的?

王冬冬:任務調度配合數據同步工具來做,每一個數據源都像是一個插座一樣,我們做很多適配這種數據源的插頭,然后中間做對應轉換,就像網一樣相互串起來。然后定時的任務調度就及時的調用工具,把數據同步任務做了。

記者:為了提高可用性,每個電商平臺都有容災備份,以防止節點宕機失效帶來的不可用問題,這方面你們選會如何選擇備份策略?

王冬冬:對于ucloud的每個產品都有對應的容災策略。在基礎設施方面,在北京我們做了同城機房災備,3機房光纖環形鏈路鏈接,保證機房的高可用。在大數據產品方面,存儲是分布式存儲,數據保存3份拷貝。所有存儲、計算的關鍵節點都有熱備。mapreduce、spark都有容錯機制保證。同時我們自身的監控系統也會及時發現問題,對問題任務進行調度處理。

 

責任編輯:林師授 來源: 51CTO
相關推薦

2014-11-04 14:58:57

開發技術周刊

2018-10-15 10:38:14

UCloud虛擬網絡SDN

2014-10-13 10:31:02

UCloud大數據

2018-06-19 16:58:36

UCloud彭晶鑫存儲

2017-01-17 14:04:26

數據消費金融

2015-09-01 13:58:25

大數據企業

2014-06-06 09:52:42

大數據

2015-12-07 15:05:39

UCloudUHadoop大數據

2013-10-21 10:20:39

多看閱讀移動閱讀用戶體驗

2016-10-12 17:11:04

華為HDG

2013-04-27 16:12:16

大數據全球技術峰會

2016-09-07 13:14:00

云計算 大數據

2017-04-24 11:40:26

大數據制造企業

2012-12-24 09:01:35

2013-11-19 17:27:22

多看閱讀小米小說小米

2014-12-23 15:07:56

攜程大數據Spark

2013-04-26 11:07:07

大數據全球技術峰會

2019-01-25 10:03:51

云服務

2013-02-18 09:56:50

大數據信息數字化云計算

2015-01-07 18:25:55

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲视频一区在线观看 | 狠狠插狠狠操 | 国产精品综合色区在线观看 | 久久高清免费视频 | 国产精品欧美一区二区三区不卡 | 国产亚洲成av人在线观看导航 | 91精品在线观看入口 | 亚洲综合在线视频 | 亚洲一区二区三区四区五区午夜 | 91精品国产色综合久久 | 国产精品久久一区二区三区 | 四虎成人免费视频 | 欧美a区| 亚洲精品一区av在线播放 | 97视频精品 | 欧美久久精品一级黑人c片 91免费在线视频 | 激情免费视频 | 精品欧美一区二区三区久久久 | 久久最新| 久久伊人久久 | 亚洲国产精品人人爽夜夜爽 | 欧美国产精品一区二区三区 | 女生羞羞网站 | 97精品超碰一区二区三区 | 日韩精品一区中文字幕 | 亚洲成人毛片 | 亚洲精品综合 | 成人免费精品视频 | 国产精品国产成人国产三级 | 美女天堂| 国产视频1 | 国产福利在线 | 91超碰caoporn97人人 | 黄色免费av | 国产欧美精品一区二区色综合 | 一区二区不卡视频 | 国产精品精品3d动漫 | 日韩中文在线视频 | 欧美成人久久 | 操人视频在线观看 | 久久精品国产免费 |