成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專訪TalkingData研發(fā)副總閻志濤:解讀大數(shù)據(jù)的秘密

原創(chuàng)
移動開發(fā)
在大數(shù)據(jù)的時代,數(shù)據(jù)的價值不言而喻。但是真正有價值的并非數(shù)據(jù)本身而是對數(shù)據(jù)進(jìn)行分析挖掘后的分析。對如今雨后春筍的互聯(lián)網(wǎng)公司來說,當(dāng)數(shù)據(jù)足夠多、足夠全面,他們甚至可以為用戶畫一幅數(shù)據(jù)肖像。

[[123691]]

在大數(shù)據(jù)的時代,數(shù)據(jù)的價值不言而喻。但是真正有價值的并非數(shù)據(jù)本身而是對數(shù)據(jù)進(jìn)行分析挖掘后的分析。對如今雨后春筍的互聯(lián)網(wǎng)公司來說,當(dāng)數(shù)據(jù)足夠多、足夠全面,他們甚至可以為用戶畫一幅數(shù)據(jù)肖像?,F(xiàn)在幾乎所有的行業(yè)都在談大數(shù)據(jù),然而隨著移動端的流量超越PC端,移動互聯(lián)網(wǎng)的數(shù)據(jù)就成為大數(shù)據(jù)中不可忽略的重要部分。

51CTO在2014年12月6日即將召開的2014 Spark亞太峰會前夕TalkingData研發(fā)副總裁閻志濤,為大家解讀互聯(lián)網(wǎng)數(shù)據(jù)的秘密。

在偏于碎片化的移動互聯(lián)網(wǎng)數(shù)據(jù)中,閻志濤認(rèn)為“數(shù)據(jù)主要分為設(shè)備信息,應(yīng)用行為信息,位置信息,傳感器信息這四大類”。

而其中的應(yīng)用行為信息在一定程度上可以反映用戶的習(xí)慣。而位置信息可以更加準(zhǔn)確的獲得用戶的位置對于O2O模式有著重要的意義。隨著智能硬件的爆發(fā)和普及,傳感器的數(shù)據(jù)信息更為重要。筆者在之前采訪一位做智能硬件的CEO時他也說道,傳感器就像智能硬件的大腦。所以對于智能硬件的數(shù)據(jù)收集、分析、挖掘,是智能硬件能否真正智能的關(guān)鍵。

閻志濤說:”智能硬件相比于軟件的信息更加瑣碎,相比于移動應(yīng)用的依附于手機(jī)而存在的方式,智能硬件更加不容易普及。換句話說,每種智能硬件智能覆蓋一小部分用戶群體,然而真正的意義在于如何能夠把每個小部分群體的數(shù)據(jù)收集起來做一次整合,那樣才能發(fā)揮***的價值。“

但是在筆者看來目前智能硬件因?yàn)樾酒膬r格導(dǎo)致成本居高不下,而且并沒有殺手級的應(yīng)用出現(xiàn)。想替代傳統(tǒng)的硬件設(shè)備,尚需時日。而隨著智能手機(jī)的普及程度,以及手機(jī)硬件的配置增加,殺手級的移動應(yīng)用、火爆的手機(jī)游戲卻是頻頻出現(xiàn)。

”從數(shù)據(jù)方面來看像淘寶、京東、唯品會這樣的電商應(yīng)用都會有不少的用戶群,而類似于360手機(jī)助手,Wifi***鑰匙的工具類應(yīng)用,因?yàn)槠渥陨韮r值也有一定的用戶群。從目前來看手機(jī)游戲中一些社交類,休閑類的游戲會有比較高的用戶群。“閻志濤告訴記者

2012年TalkingData Analytics上線,僅僅兩年唯品會、滴滴打車、聚美優(yōu)品、去哪兒都成為了它們的用戶,在移動端的覆蓋量也達(dá)到了8億以上。

那么在處理如此龐大的數(shù)據(jù)的分析和挖掘時他們所選用的的框架如何處理這么海量的數(shù)據(jù)?

閻志濤告訴記者:現(xiàn)在每天要處理好幾個T的數(shù)據(jù),分為離線和實(shí)時兩條線。在離線方面最初選用的是典型的Hadoop的生態(tài)系統(tǒng),通過小時或者幾個小時的任務(wù)來保證最終數(shù)據(jù)一致性。然而在實(shí)時方面,由于用戶的需求比較特殊,我們基于Redis來實(shí)現(xiàn)我們的實(shí)時統(tǒng)計。隨著業(yè)務(wù)的發(fā)展,我們做了一個TD2.0的平臺,它比離線的更優(yōu)秀,通過小批量的計算,完成準(zhǔn)實(shí)時的數(shù)據(jù)體現(xiàn)。而離線系統(tǒng)則逐漸的切換到以Spark為基礎(chǔ)的一個數(shù)據(jù)處理平臺。

其實(shí)在2012年Spark出現(xiàn)之初就因?yàn)槠浞奖愕刂С值\(yùn)算,對機(jī)器學(xué)習(xí)更友好的特點(diǎn)受到關(guān)注。閻志濤也提到:”是TalkingData的算法工程師最早使用Spark做迭代運(yùn)算,接著把平臺業(yè)務(wù)也在向上面做遷移。Spark相對Hadoop就是可以更好地進(jìn)行迭代運(yùn)算,以及及時請求的延時計算。最重要的是他的生態(tài)系統(tǒng)相比Hadoop更適合現(xiàn)在大數(shù)據(jù)分析的需求。“

然而在運(yùn)算的容錯率,效率上,閻志濤說:”就我個人的使用情況來看,在一些方面Spark要優(yōu)于Hadoop。因?yàn)镠adoop對IO存在一種高依賴,所有的東西都要放到IO上shuffle出去放到磁盤再讀取進(jìn)來,這樣導(dǎo)致不能很好的利用機(jī)器的計算能力。而Spark本身RDD的模型能夠很好的減少對IO的依賴,充分利用內(nèi)存,從而提升了性能。“

但國內(nèi)的JAVA程序員使用Spark需要一個學(xué)習(xí)Scala的曲線。雖然Spark存在一些問題,但是互聯(lián)網(wǎng)公司生來就是為了解決問題的。

無論是Hadoop還是Spark,都是一種開源的技術(shù)并沒有高下之分。作為企業(yè)或者開發(fā)者需要擇其長處而用之。實(shí)際上,現(xiàn)在一些社區(qū)和論壇上出現(xiàn)了讓Hadoop和Spark融合的聲音。

閻志濤同樣認(rèn)為:目前這就是一種融合的狀態(tài),現(xiàn)在TalkingData一些即時計算需求、一些請求,都在用Spark做,一些基于Hadoop的生態(tài)系統(tǒng)也在往Spark上遷移。

Spark在國內(nèi)出現(xiàn)的時間不如Hadoop長,一些公司也越來越注重Spark的發(fā)展。閻志濤也說:”國內(nèi)有一個叫Spark Meetup的一個社區(qū),每一期都我們在參與,參加的人也是越來越多?,F(xiàn)在像百度、京東、騰訊這些巨頭都在做Spark也越發(fā)的重視Spark畢竟Hadoop相對于Spark還是有那么一點(diǎn)點(diǎn)的老久不太適用于某些場景。可以說Spark在國內(nèi)越來越熱,發(fā)展也會越來越好。”

但是作為新興的技術(shù),必然也會有一些不足。拋開這項技術(shù)本身不說,因?yàn)閲鴥?nèi)畢竟是中文環(huán)境雖然有一些熱心的人寫博客,做翻譯,但是中文的資料還是供不應(yīng)求。所以需要更多的開發(fā)投入到Spark的建設(shè)之中。

都在說去IOE,TalkingData的技術(shù)團(tuán)隊很多核心成員都來自于IBM和Oracle在開源的問題上IBM和Oracle卻是兩種不同的態(tài)度。閻志濤表示,雖然我們的大部分成員來自IBM和Oracle這種傳統(tǒng)的軟件公司,但是畢竟現(xiàn)在是在互聯(lián)網(wǎng)企業(yè),用的也是互聯(lián)網(wǎng)的開發(fā)方式。其實(shí)IBM和Oracle兩家公司對于開源的態(tài)度也不太一樣。IBM相對于Oracle對于開源的態(tài)度就要開放的多。我們是以開源為主的,雖然用的數(shù)據(jù)庫是Apache并不會強(qiáng)制要求我們再開回去,當(dāng)我們認(rèn)為自己做的夠好的時候,我們就會開回去。我也會要求我們的工程師把代碼放到開源的社區(qū)里邊,提高代碼質(zhì)量。明年我們團(tuán)隊就會有更多的人員活躍到開源社區(qū)當(dāng)中。

無論是哪一種開源技術(shù),都是千萬人智慧的結(jié)晶。Spark也不例外,但是國內(nèi)的開源現(xiàn)狀并不樂觀甚至是一種半死不活的狀態(tài),還被外國人詬病只進(jìn)不出。

對此閻志濤告訴記者,的確在以前我們的開源做的不是很好,但是現(xiàn)在比如淘寶和騰訊就把他們的一些技術(shù)開源了,我相信過國內(nèi)更多的企業(yè)逐漸的回去開源。就我了解Spark社區(qū),里邊有很多很活躍的來自中國的Contributor。我相信以后也會有越來越多的貢獻(xiàn)。

他也希望團(tuán)隊的產(chǎn)品做得稍微好一點(diǎn)的時候,我們再開出去。因?yàn)檫@樣會更有價值,如果產(chǎn)品價值沒那么大,就會變成半死不活的狀態(tài),甚至是喪失價值。所以我們現(xiàn)階段努力把產(chǎn)品做好,預(yù)計在在2015年可能會把它變成一個開源項目。

在智能硬件頂著改變生活的光環(huán)出現(xiàn)的時候,大數(shù)據(jù)就成為讓其不跌落神壇的保障。無論是Spark還是Hadoop,都需要順應(yīng)時下的要求。取長補(bǔ)短,擇其優(yōu)者而用之。

責(zé)任編輯:chenqingxiang 來源: 51CTO
相關(guān)推薦

2014-12-15 11:22:59

華東電腦

2017-09-21 17:14:46

大數(shù)據(jù)AITalkingData

2016-10-09 13:19:54

大數(shù)據(jù)聯(lián)邦大數(shù)據(jù)研發(fā)戰(zhàn)略計劃

2016-09-21 12:44:15

大數(shù)據(jù)TalkingData

2013-04-26 13:05:10

大數(shù)據(jù)全球技術(shù)峰會

2013-08-08 10:07:43

大數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)

2009-02-27 10:29:11

虛擬化技術(shù)網(wǎng)絡(luò)大會虛擬化應(yīng)用航天聯(lián)志

2011-07-15 17:04:53

用友謝志華研發(fā)

2013-03-01 10:45:36

Nike大數(shù)據(jù)

2012-12-20 13:02:20

2015-11-24 17:59:13

2016-06-20 15:48:10

大數(shù)據(jù)

2011-11-03 10:12:01

數(shù)據(jù)中心電力消耗服務(wù)器虛擬化

2014-03-12 09:53:30

大數(shù)據(jù)

2016-09-08 10:23:19

TalkingData大數(shù)據(jù)

2013-08-06 13:20:42

蘋果研發(fā)團(tuán)隊

2015-02-05 13:14:17

2013-10-25 13:30:53

云計算

2017-02-23 15:28:21

移動互聯(lián)網(wǎng)TalkingData

2017-04-24 08:53:04

終極溝通技術(shù)Facebook
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩免费高清视频 | 亚洲国产成人精品久久久国产成人一区 | 黑人久久久 | 麻豆久久 | 天天爽综合网 | eeuss国产一区二区三区四区 | 成年人的视频免费观看 | 夜久久 | 99久久久99久久国产片鸭王 | 久久精品小视频 | 99热碰| 免费色网址 | 精品国产乱码 | 免费在线性爱视频 | 91精品国产综合久久福利软件 | 久久久高清| 狠狠干美女 | 日韩三级电影在线看 | 亚洲手机视频在线 | 久久国产精品网 | 久草电影网 | 久久久久久色 | 色视频在线播放 | 日韩在线电影 | 日韩高清一区二区 | 色约约视频 | 午夜99| 午夜天堂精品久久久久 | 精品视频在线观看 | 中文字幕第49页 | 看av片网站 | 偷拍自拍网站 | 一区二区三区视频在线免费观看 | 国外成人在线视频 | 亚洲三区在线 | 中文字幕一区二区三区不卡 | 日韩理论电影在线观看 | 亚洲成人999 | 国产精品美女久久久久aⅴ国产馆 | 天天草视频 | 久久精品免费观看 |