錢嶺:大數(shù)據(jù)研發(fā)歷程的回顧和思考
2016年12月8-10日,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,CCF大數(shù)據(jù)專家委員會(huì)承辦,中國(guó)科學(xué)院計(jì)算技術(shù)研究所、中科天璣數(shù)據(jù)科技股份有限公司與CSDN共同協(xié)辦,以“聚焦行業(yè)最佳實(shí)踐,數(shù)據(jù)與應(yīng)用的深度融合”為主題的2016中國(guó)大數(shù)據(jù)技術(shù)大會(huì)在北京新云南皇冠假日酒店隆重舉辦。
中國(guó)移動(dòng)蘇州研發(fā)中心大數(shù)據(jù)部總經(jīng)理,高級(jí)工程師 錢嶺
中國(guó)移動(dòng)蘇州研發(fā)中心大數(shù)據(jù)部總經(jīng)理,高級(jí)工程師錢嶺在主題演講《大數(shù)據(jù)研發(fā)歷程的回顧和思考》中分享了一個(gè)大數(shù)據(jù)實(shí)踐者所走過的歷程,主要包括三方面內(nèi)容,(1)對(duì)大數(shù)據(jù)理解的變化;(2)大數(shù)據(jù)實(shí)踐歷程回顧;(3)大數(shù)據(jù)發(fā)展方向思考。
一路走來,中國(guó)移動(dòng)蘇州研發(fā)中心對(duì)大數(shù)據(jù)理解在不斷深化。2007年,將大數(shù)據(jù)稱為大規(guī)模并行計(jì)算、云計(jì)算。2010年之后,大數(shù)據(jù)被按照3V~7V來定義。3V,即規(guī)模大(Volume)、種類繁多(Variety)、處理速度要求高(Velocity)。而到了2014年前后,開始跳出技術(shù)的視角來審視大數(shù)據(jù)。除了繼續(xù)關(guān)注技術(shù)外,開始關(guān)注大數(shù)據(jù)源、大數(shù)據(jù)工程師/科學(xué)家、大數(shù)據(jù)服務(wù)、大數(shù)據(jù)“眾包”、大數(shù)據(jù)咨詢。2016年,則開始以數(shù)據(jù)為中心來審視大數(shù)據(jù),并將數(shù)據(jù)形象比喻為管道中的水,其匯聚到數(shù)據(jù)工廠,自動(dòng)可視化,展示用戶希望的信息,告訴用戶潛在的規(guī)律,甚至智能地完成工作,這也中國(guó)移動(dòng)蘇州研發(fā)中心大數(shù)據(jù)平臺(tái)正在做的工作。至此,中國(guó)移動(dòng)蘇州研發(fā)中心對(duì)大數(shù)據(jù)有了更全面的認(rèn)識(shí),用一個(gè)公式表示便是:大數(shù)據(jù) = 業(yè)務(wù) + 數(shù)據(jù) + 平臺(tái) + 算法,所有大數(shù)據(jù)工作也將基于這四個(gè)方面展開。
伴隨著對(duì)大數(shù)據(jù)理解的不斷深入,對(duì)大數(shù)據(jù)的實(shí)踐也在不斷前行。2007年,從學(xué)習(xí)Hadoop入手,進(jìn)入大數(shù)據(jù)領(lǐng)域;2008年,深度改造開源軟件,目標(biāo)是商用產(chǎn)品;2009年,跟隨開源社區(qū)的發(fā)布,但是依然深度定制;2010年,以大云1.0為起點(diǎn),正式開展商用部署;2011~2013年,每年發(fā)布新版本,并增加新“產(chǎn)品”;2014年,重新規(guī)劃大數(shù)據(jù)產(chǎn)品體系,引入管理平臺(tái)。而這個(gè)過程,也走了很多彎路,大多是因?yàn)殚_源社區(qū)、自主研發(fā)兩大技術(shù)路線及技術(shù)驅(qū)動(dòng)、需求驅(qū)動(dòng)兩大研發(fā)方向的選擇偏差導(dǎo)致的。當(dāng)前主要選擇了基于開源,技術(shù)驅(qū)動(dòng)的研發(fā)方式。
以下為演講實(shí)錄
各位嘉賓上午好!我來這里也不是一次兩次了。剛才兩位嘉賓也介紹了一些比較嚴(yán)肅的課題,這些課題可能涉及到精準(zhǔn)醫(yī)學(xué),也涉及到天氣預(yù)報(bào)或者自然災(zāi)害的防治,這些問題我想現(xiàn)在可能不一定很好的解決方案,但根據(jù)技術(shù)的發(fā)展和這個(gè)業(yè)務(wù)的進(jìn)步,一定會(huì)找到一個(gè)很好的方案的。正如我們自己是怎么樣通過這九年以來一點(diǎn)點(diǎn)什么也不會(huì),到能做很多的事情。
我今天的匯報(bào)分三部分,一是對(duì)大數(shù)據(jù)理解的變化,為什么講這個(gè)呢?因?yàn)檫@個(gè)會(huì)直接影響后面的研發(fā)方向、工具選擇或者研發(fā)的思路。二是講一下到底踩過什么樣的坑,取得什么樣的經(jīng)驗(yàn)。后面是什么樣的思考和想法。
對(duì)大數(shù)據(jù)理解的變化
這件事,我們開展得很早。2007年初的時(shí)候開始關(guān)注云計(jì)算,但那個(gè)時(shí)候我們并沒有叫大數(shù)據(jù),那時(shí)候也沒有這個(gè)詞。那時(shí)候稱為大規(guī)模并行計(jì)算或者云計(jì)算,因?yàn)橹饕难芯繉?duì)象是跟Hadoop相關(guān)的事情,Hadoop本身是云計(jì)算的技術(shù),并沒有用虛擬化技術(shù),而是用隊(duì)列和槽位作為邏輯資源來調(diào)度任務(wù)。那個(gè)時(shí)候用13臺(tái)計(jì)算機(jī)來進(jìn)行排序或計(jì)數(shù),那時(shí)候成立了一個(gè)小的團(tuán)隊(duì),他們開始閱讀Hadoop整個(gè)系統(tǒng)的源代碼,那時(shí)候版本是0.16版本。
就這么過了好多年,Hadoop是研究實(shí)驗(yàn)為主,2008年之后發(fā)現(xiàn)大數(shù)據(jù)慢慢成型了,但還是以云計(jì)算的名義發(fā)展,2010年之后提出三維、四維。我們自己做這個(gè)事的時(shí)候,考慮了為什么要做這個(gè)研究?因?yàn)楹茈y說服我們公司里面的直達(dá)部門,他們覺得IOE架構(gòu)也挺好的,但有兩件事做不了,一是大數(shù)據(jù)實(shí)時(shí)處理計(jì)算,那時(shí)候云計(jì)算雖然不太多,但公認(rèn)的是數(shù)據(jù)庫做不了。第二,非結(jié)構(gòu)化數(shù)據(jù)的管理,但后來做了很多的擴(kuò)展就可以支持了。2013年對(duì)大數(shù)據(jù)的理解也是一塌糊涂,每個(gè)人都在做,但都不知道為什么要做大數(shù)據(jù),那個(gè)時(shí)候本質(zhì)上都在做云計(jì)算,其實(shí)沒有人考慮行業(yè)應(yīng)用的這些問題。
2014年前后我們也開始考慮這個(gè)問題,什么是大數(shù)據(jù),開始跳出技術(shù)的視野,因?yàn)橐郧翱偸羌性贖adoop這個(gè)領(lǐng)域,或者流計(jì)算,數(shù)據(jù)挖掘,始終認(rèn)識(shí)上是片面的。后來我們從數(shù)據(jù)源、大數(shù)據(jù)技術(shù)和人這幾個(gè)維度關(guān)注大數(shù)據(jù)到底是什么。數(shù)據(jù)源就是數(shù)據(jù)的來源,技術(shù)我們也做了很多年,人就是大數(shù)據(jù)科學(xué)家。當(dāng)時(shí)有一些企業(yè)把大數(shù)據(jù)科學(xué)家定義為CIO、CEO,此類評(píng)級(jí)的角色能做很多的事情,能決定企業(yè)的發(fā)展方向,現(xiàn)在看來也都是泡沫。
在大數(shù)據(jù)技術(shù)與數(shù)據(jù)源的交界處(見上圖),如果一個(gè)企業(yè)擁有數(shù)據(jù)源也有大數(shù)據(jù)技術(shù),可以做大數(shù)據(jù)服務(wù),把數(shù)據(jù)加工一下作為產(chǎn)品賣出去。第二是人和大數(shù)據(jù)源,可以做大數(shù)據(jù)眾包,像一些圖片、視頻、語音識(shí)別,都是用大數(shù)據(jù)眾包來潛移默化地影響這些產(chǎn)品。如果有大數(shù)據(jù)技術(shù)和人,可以做咨詢相關(guān)的工作。
這里有三個(gè)誤區(qū)吧,第一個(gè)誤區(qū)是對(duì)V的過于強(qiáng)調(diào),大家總是關(guān)注數(shù)據(jù)量大,快速,樣子很多也不準(zhǔn)確,忽略了高性價(jià)比的系統(tǒng)。所以那個(gè)時(shí)候有一個(gè)情況,有點(diǎn)什么小需求很可能就要建一個(gè)很大的數(shù)據(jù)中心集群來滿足數(shù)據(jù)的采集,然后把它做成報(bào)告。我算了一下這個(gè)報(bào)告一年二三十萬,可投個(gè)集群一兩千萬的系統(tǒng)設(shè)備,當(dāng)時(shí)并沒有人考慮這個(gè)性價(jià)比,所以為了滿足獨(dú)立的應(yīng)用目標(biāo),我們做了點(diǎn)狀應(yīng)用。帶來問題是投入比較大,數(shù)據(jù)不能共享,資源不能共享,造成成本的經(jīng)濟(jì)效益都比較差,沒法長(zhǎng)期的做一件事。在開始泡沫期鼓吹,到真正用的時(shí)候用不上。混合部署,我們后續(xù)產(chǎn)品的設(shè)計(jì)或者業(yè)務(wù)的發(fā)展也是以混合部署作為最基本的基線做的。
第二個(gè)誤區(qū)是數(shù)據(jù)和應(yīng)用是緊密結(jié)合的,這也是我們?cè)谡覙I(yè)務(wù)的時(shí)候發(fā)現(xiàn)的重要問題,往往在比較長(zhǎng)的時(shí)間里,因?yàn)榇髷?shù)據(jù)充滿了神秘感,誰也不知道能干什么事,一想大數(shù)據(jù)很大,反正也不知道怎么用。問題是數(shù)據(jù)的需求到數(shù)據(jù)的挖掘周期特別長(zhǎng),像移動(dòng)做秋季營(yíng)銷,學(xué)生入學(xué)需要做營(yíng)銷,如果這個(gè)營(yíng)銷兩個(gè)月前提出需求來,看后端能不能配合,就開始取數(shù)據(jù)。往往營(yíng)銷活動(dòng)都結(jié)束了,數(shù)據(jù)還沒弄完了,這種情況會(huì)造成很大的影響。這樣沒有一個(gè)簡(jiǎn)單的工具層面的東西,或者平臺(tái)層面的東西,能滿足一線用戶的需求,我們認(rèn)識(shí)這個(gè)響應(yīng)速度非常慢,也是一個(gè)非常重要的問題。
這一塊其實(shí)人家定義都很清楚,只是我們理論不夠深,是說要有一些創(chuàng)新方法來解決問題,什么是創(chuàng)新的?還是觀察一下成功案例。在成功案例里,最終是為最終用戶提供了簡(jiǎn)單易用的自助數(shù)據(jù)分析工具,我們是給用戶提供開發(fā)平臺(tái),而不是給開發(fā)人員使用的。
第三個(gè)誤區(qū),很多人誤以為Hadoop軟件免費(fèi)了,再也不用操心了,其實(shí)不是,還需要很多的優(yōu)化。我們很多的傳統(tǒng)行業(yè)都是廠家干活兒的,他不關(guān)注系統(tǒng)優(yōu)化,你給我多少錢就走了,就缺乏這個(gè)持續(xù)優(yōu)化,確實(shí)大數(shù)據(jù)特別是開源產(chǎn)品,如果缺少這個(gè),那業(yè)務(wù)無法持續(xù)發(fā)展。我們做過一個(gè)實(shí)際比較,優(yōu)化前是什么效果,總說需要優(yōu)化,還有一些眼邊的數(shù)據(jù),全部抓過來,為什么不精簡(jiǎn)呢?造成系統(tǒng)覆蓋很高,需要擴(kuò)容,全是假象。這給我們另外一個(gè)啟示,這個(gè)東西很多實(shí)驗(yàn)表明需要自己干,而是說移動(dòng)自己的人,比如用戶自己需要有這個(gè)能力,他去做一些優(yōu)化、判斷,這樣能解決很多的問題。
這三個(gè)誤區(qū)進(jìn)一步的思考,我們到2016年的時(shí)候開始做新的思考。大數(shù)據(jù)到底是什么東西,如果不清楚的話我們也很難推廣我們的技術(shù),也不好定位。一是中國(guó)移動(dòng)的大連接戰(zhàn)略,這個(gè)戰(zhàn)略是今年才提出來的,主要目標(biāo)是不斷拓展連接的廣度和深度,做大連接的規(guī)模,做強(qiáng)連接的應(yīng)用數(shù)量。計(jì)劃是到2020年的連接數(shù)量要超過2015年一倍的水平,那也就意味著連接數(shù)量快到頭了,那就需要考慮到車的身上,豬、牛、羊的身上,可能不會(huì)打電話,但是需要連接,這個(gè)連接對(duì)移動(dòng)來說需要做營(yíng)運(yùn),但對(duì)做大數(shù)據(jù)的人來說就是大數(shù)據(jù)。任正非也提出來,假設(shè)數(shù)據(jù)量的流量會(huì)變粗,變的像太平洋一樣粗,如果真的這樣的話,華為就押對(duì)這個(gè)寶了。連接,一個(gè)是終端的問題,第二個(gè)管道的問題,西安提出“云管端”,我們可以預(yù)測(cè)電信行業(yè)、通信領(lǐng)域,包括其它也差不多,在這種強(qiáng)烈的需求驅(qū)動(dòng)下,會(huì)把數(shù)據(jù)量越做越大,大到什么程度?我們認(rèn)為如果超過一定程度以后,你去分析的數(shù)據(jù)或者尋找數(shù)據(jù)的難度越來越大,什么是大數(shù)據(jù)平臺(tái)?什么是大數(shù)據(jù)中心?大數(shù)據(jù)中心我們認(rèn)為就像一朵云似的,數(shù)據(jù)就像管道上的水,匯聚到工廠,自動(dòng)可視化展現(xiàn)用戶需要的訊息,告訴用戶潛在規(guī)律,甚至智能化的完工作。
對(duì)于可視化這部分,現(xiàn)在我們的理解是讓業(yè)務(wù)人員去做可視化報(bào)告,工具過于復(fù)雜根本不切實(shí)際。展現(xiàn)用戶需要的數(shù)據(jù),你不去做挖掘至少去做統(tǒng)計(jì)分析,把信息呈現(xiàn)給用戶。告訴用戶潛在規(guī)律,這個(gè)規(guī)律你需要做數(shù)據(jù)挖掘,是數(shù)據(jù)信息向知識(shí)性發(fā)展,這里面數(shù)據(jù)挖掘算法我們做了很多,但發(fā)現(xiàn)用戶不太會(huì)用,這又回到前面誤區(qū)二了。最后是智能化工作,這樣對(duì)大數(shù)據(jù)就慢慢清楚了,把這個(gè)再細(xì)化一下變成四個(gè)東西。
大數(shù)據(jù)是什么?大數(shù)據(jù)是業(yè)務(wù)+數(shù)據(jù)+平臺(tái)+算法。
業(yè)務(wù):內(nèi)部有BOM、采購、內(nèi)審、信安、人力、財(cái)務(wù)、基建。外部有金融、政務(wù)、互聯(lián)網(wǎng)、旅游、交通。
數(shù)據(jù):內(nèi)部有互聯(lián)網(wǎng)、政府、交通、政務(wù)、電信、聯(lián)通。外部有BOM、視頻、音頻、尤其DPI數(shù)據(jù)。
算法:結(jié)構(gòu)化數(shù)據(jù)——三大類挖掘算法機(jī)器學(xué)習(xí);非結(jié)構(gòu)化數(shù)據(jù)——NLP;多媒體數(shù)據(jù):深度學(xué)習(xí)。
平臺(tái):大數(shù)據(jù)平臺(tái),架構(gòu)——兩域四層,采集、計(jì)算、存儲(chǔ)、能力開放、供給、管理、運(yùn)維、安全。來源——開源、自研、商業(yè)軟件。
大數(shù)據(jù)就是業(yè)務(wù)+數(shù)據(jù)+平臺(tái)+算法,在這之后的事情所有的開發(fā)工作或者研究工作都會(huì)基于這個(gè)思維開展。
大數(shù)據(jù)實(shí)踐歷程回顧
2007年我們從學(xué)習(xí)Hadoop入手。我們用的是0.16版本,后半年0.17點(diǎn)版本出現(xiàn)的時(shí)候,Hadoop已挺爛了,現(xiàn)在看來誰敢用它做商業(yè)版的話,這是吃了熊心豹子膽的。第一,成熟性比較低,第二,資源隔離也比較差,但是解決了可擴(kuò)展問題,后續(xù)開展了大量的實(shí)驗(yàn)室測(cè)試工作256~1024節(jié)點(diǎn),獲得大量經(jīng)驗(yàn)。
當(dāng)時(shí)規(guī)劃的幾項(xiàng)工作都轉(zhuǎn)了后續(xù)產(chǎn)品,但是并不那么一帆風(fēng)順,其中大規(guī)模計(jì)算管理系統(tǒng)孵化成為云計(jì)算集群管理系統(tǒng),成為通用的系統(tǒng)。大數(shù)據(jù)平臺(tái)Hadoop、搜索引擎SE、大規(guī)模計(jì)算管理。
2008年,深度改造開源軟件,目標(biāo)是商用產(chǎn)品。Hadoop-NN HA、HBase-Master HA,SQL over HBase數(shù)據(jù)挖掘算法并行化等特征性在2008年都是大大超前于社區(qū)的,進(jìn)而形成了自己的發(fā)行版和相關(guān)產(chǎn)品。
2009年,跟隨開源社區(qū)的發(fā)布,但是依然深度定制。隨著社區(qū)的成熟,Hive等新開源軟件的出現(xiàn),調(diào)整技術(shù)路線繼續(xù)研發(fā)大云SQL Over Hadoop、Parallel Data Mining、Search Engine,內(nèi)部發(fā)布0.5版本,并且在上腔、江蘇等省公司開展實(shí)驗(yàn)試點(diǎn)。效果優(yōu)于傳統(tǒng)的IOE系統(tǒng)。
2010年:以大云1.0為起點(diǎn),正式開展商用部署。經(jīng)濟(jì)試點(diǎn),定義了四項(xiàng)大數(shù)據(jù)產(chǎn)品(并未將Hadoop看作獨(dú)立產(chǎn)品),可以開展點(diǎn)狀大數(shù)據(jù)應(yīng)用,Huge Table在中國(guó)移動(dòng)第一朵云,“WAP彩信雙業(yè)務(wù)云”獲得商用,承載WAP和彩信系統(tǒng)生成的日志數(shù)據(jù),用于后端查詢分析。
2011~2013年:每年發(fā)布新版本,增加新產(chǎn)品。陸續(xù)引入了圖計(jì)算、大數(shù)據(jù)平、NoSQL數(shù)據(jù)庫,內(nèi)容分析和知識(shí)庫等五項(xiàng)產(chǎn)品/原型,并將Hadoop作為獨(dú)立產(chǎn)品,與若干單位合作Hadoop開源社區(qū),支撐盤古搜索上線,在福建、遼寧等省公司獲得點(diǎn)狀應(yīng)用,一直到大云2.5版本。
2014年,重新規(guī)劃大數(shù)據(jù)產(chǎn)品規(guī)劃體系,引入管理平臺(tái)。孵化成立蘇州研發(fā)中心,重新定制跟隨開源社區(qū)的技術(shù)路線,規(guī)劃兩域四層的產(chǎn)品體系,針對(duì)性開展研發(fā),啟動(dòng)大數(shù)據(jù)管理中心(BC-BDOC)產(chǎn)品,整合現(xiàn)有各種點(diǎn)狀應(yīng)用,并提供更多的能力開發(fā)能力,同時(shí)開展圍繞數(shù)據(jù)的開發(fā)。
這些年我們也走了很多彎路,主要有幾個(gè)方面引起的,一是技術(shù)路線選擇上出現(xiàn)了偏差(是開源還是自主研發(fā)),我堅(jiān)信一點(diǎn),這一走過的坑在人工智能和區(qū)塊鏈一樣會(huì)出現(xiàn),只不過是深淺的問題。在技術(shù)路線上的選擇,最終建議跟隨開源社區(qū)的方案來做這個(gè)事情,所以我們也看到很多的缺點(diǎn),第一,跟隨開源社區(qū),投入少,啟用快,只要一個(gè)小組研究它的代碼就好了,很快就可以把這個(gè)系統(tǒng)全整明白了,具有很快的交付能力。出現(xiàn)問題的話,因?yàn)樗_源也可以獨(dú)立解決,如果實(shí)在搞不定也可以找社區(qū)解決。缺點(diǎn),開源軟件很大的問題是質(zhì)量良莠不齊,要做很大的測(cè)量工作。還有一個(gè)問題,掌控需求和研發(fā)計(jì)劃能力非常弱,雖然社區(qū)里有一個(gè)里程碑,但里面是這些開源企業(yè)自己開戶需求的里程碑,并不是我的客戶的需求里程碑,研發(fā)計(jì)劃也是照它的來的,所以有時(shí)候不得不用其他的需求解決這個(gè)問題。接口上也有很大的問題。
自主研發(fā)優(yōu)點(diǎn)是容易控制節(jié)奏、需求,但缺點(diǎn)是投入很大,啟動(dòng)也很慢,至少做半年到一年才可以做出一個(gè)好的東西來,還有相關(guān)的配套等一些東西。
技術(shù)驅(qū)動(dòng)就是解決某一個(gè)問題的,很容易立項(xiàng),但那個(gè)跟其他產(chǎn)品界限也非常清楚。缺點(diǎn)可能不是業(yè)務(wù)需求,不能落地。所以我們?cè)缙谑亲灾餮邪l(fā)驅(qū)動(dòng)的,后期是業(yè)務(wù)驅(qū)動(dòng)來孵化這個(gè)產(chǎn)品。
大數(shù)據(jù)發(fā)展方向思考
最后講一下思考吧,有的未必是很成熟的思考。第一是商業(yè)模式的思考,講了半天大數(shù)據(jù)怎么掙錢,我們發(fā)現(xiàn)大數(shù)據(jù)的商業(yè)模式逐步清晰,一般在生態(tài)圈里為了擴(kuò)展自己數(shù)據(jù)的維度,提升價(jià)值,一個(gè)單位通常既是生產(chǎn)者也是消費(fèi)者。所以我們現(xiàn)在也開始跟一些有優(yōu)質(zhì)數(shù)據(jù)的客戶開始交流,看看能不能交換數(shù)據(jù)或者采購數(shù)據(jù),來彌補(bǔ)我們數(shù)據(jù)的不足。這樣的話就會(huì)在六種商業(yè)鏈之外形成很多復(fù)雜的商業(yè)模式組合,一開始是工具和服務(wù)提供商,運(yùn)營(yíng)在線大數(shù)據(jù)工具服務(wù),提供API或者DAAS服務(wù),運(yùn)營(yíng)免費(fèi)大數(shù)據(jù)服務(wù)+后向廣告,運(yùn)營(yíng)收費(fèi)大數(shù)據(jù)服務(wù),像輿情分析;運(yùn)營(yíng)大數(shù)據(jù)交易市場(chǎng)。
下面是我們對(duì)大數(shù)據(jù)系統(tǒng)的演進(jìn)歷程的判斷。
- (1)數(shù)據(jù):種類不斷增加,集群數(shù)據(jù)接口大幅度增加,希望最終形成多數(shù)據(jù)管理、上下游關(guān)系;
- (2)集群功能不斷增強(qiáng),最終會(huì)從點(diǎn)狀應(yīng)用整合為統(tǒng)一大數(shù)據(jù)平臺(tái),從離線轉(zhuǎn)向?qū)崟r(shí);
- (3)數(shù)據(jù)規(guī)模不斷增加,集群擴(kuò)容能力不足,最終形成多集群統(tǒng)一管理的架構(gòu)。
我們對(duì)大數(shù)據(jù)產(chǎn)品體系和解決方案總攬,目標(biāo)是構(gòu)建健壯、可擴(kuò)展、開放的,功能豐富的大數(shù)據(jù)平臺(tái),基于開源、MPP等軟件,面向公司內(nèi)外提供DaaS、PaaS和SaaS服務(wù)。
說一些相當(dāng)重要,但是不太成熟的大數(shù)據(jù)技術(shù)舉例。
數(shù)據(jù)安全:大數(shù)據(jù)安全需要哪些特征,如何與大數(shù)據(jù)整合在一起,如何提高效率,如何解決真實(shí)的業(yè)務(wù)需求。
人工智能,人工智能算法目前應(yīng)用領(lǐng)域還集中在互聯(lián)網(wǎng)領(lǐng)域,點(diǎn)狀系統(tǒng),成本也較高,如何形成統(tǒng)一的大數(shù)據(jù)能力,和與海量數(shù)據(jù)結(jié)合,如何為業(yè)務(wù)服務(wù)。
可視化:如何在現(xiàn)有圖表呈現(xiàn)之上,藝術(shù)設(shè)計(jì)之下的空間中尋找合適的可視化技術(shù),便于算法結(jié)果的呈現(xiàn)。
很高興和大家一起關(guān)注大數(shù)據(jù)過山車的起起伏伏,謝謝大家。