成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

干貨分享:企業大數據的實時分析之路

大數據 數據分析
近日,“2016易觀A10大數據應用峰會”主論壇“大數據基礎框架設計-實時分析技術平臺洞察與實踐”上,易觀CTO郭煒發表了“企業大數據的實時分析之路”的主題演講,從技術角度給大家講述如何用實時分析幫助企業進行數據運營。

近日,“2016易觀A10大數據應用峰會”主論壇“大數據基礎框架設計-實時分析技術平臺洞察與實踐”上,易觀CTO郭煒發表了“企業大數據的實時分析之路”的主題演講,從技術角度給大家講述如何用實時分析幫助企業進行數據運營。

[[175750]]

以下為演講實錄及PPT:

郭煒:各位嘉賓,各位領導,各位技術的小伙伴們,早上好!

非常榮幸今天站在這里和大家分享一下我們易觀對于實時分析技術的一些理解。其實昨天于老師也曾經講過,我們的實時分析會助力我們的用戶資產增長,究竟什么是實時分析,實時分析究竟怎么樣幫助企業能夠做到他的用戶資產增長。今天上午主要有幾個技術大咖,后面我相信王老師會一一介紹,從技術角度來給大家講講怎么讓一個企業做到實時分析之路。下午是相關移動互聯網一些實際用戶講講怎么樣他們是怎么樣做實時分析和應用分析,這是今天的安排。

今天我作為***個主講者,給大家講講我們怎么樣用實時分析幫助企業,讓他自己的企業數據運營做起來,從技術上面怎么做。

其實大家知道,在現在數據越來越多,而且越來越快,就在我剛才講話的1分鐘里面,有2100萬的微信會發出去,可能有900多萬分鐘的視頻就會被播放,大家會發現一個事情,在過去我們總是說現在的數據非常大,其實現在的數據也變得非常快,從我們觀察的觀點能看到,過去整個數據讓大數據平臺建起來之后,只是讓我們的企業數據連通起來,其實現在的實時分析和實時數據計算讓整個企業的效率增長起來。

很久以前大數據有三個概念,三個V,***個V是非常大的,海量。第二個V是速度,很快。第三個V是多樣化,很難。其實過去我們做大數據的時候大家一般都會強調一個企業有多少多少數據量,每天要加載多少數據,多少萬條用戶,每天月活是多少,在過去的時段里,特別是現在國內的創新企業,我們的數據真的越來越多,每一個企業都是數據資產企業。但其實到現在為止,每一個企業真的都有了很多的數據,下一步模式要面臨的是我們怎么能讓這些數據高效的運轉起來,而不僅僅是只拿到很多數據存儲起來,并沒有把它變成真正的實用價值,中間也遇到了很多的問題。

我記得我剛剛開始做數據的時候大家都說我們現在有幾個GB的數據,后來發現我們自己的倉庫有TB級數據倉庫,現在大家提到大數據平臺的時候都會提到PB級的數據平臺。大家會發現,隨著我們的數據增長,這些并不能夠很好衡量我們自己的數據量級,PB級其中一部分,再往上大家能看到EB級數據,ZB級數據。現在整個宇宙統計信息量來講,其實它是有250萬億數據在里面,將來所有數據加在一起不能用YottaByte衡量,其實我們的潮流速度并沒有幾何速度提升。我下面會講到每個企業怎么樣通過這么大數據量級幫助我們做相關的分析和相關的處理。

這里有一個觀點,過去大家經常說我們的數據非常大,第二天我們會看到頭一天很多相關的分析報表,我們的運營情況,其實我們會看到,我提一個概念,數據永遠是臨時的,分析永遠是有時效性的。無論你是在網絡也好,還是其他電商處理也好,你會發現一個現象,你購買一個東西,比如你購買了一個手機,購買以后你會發現,這些電商廣告還非常少的一直推薦你,在周圍所有推薦位都是手機,即使你完成了購買動作。為什么呢?為什么他的推薦沒有這么有效了呢?不在于他沒有捕捉到你的數據和信息,其實他已經完全采集到我們的信息,但為什么沒有很快的根據你現在的場景來去反饋你相關的推薦方法呢?其實是因為他的實時分析和他的實時計算沒有做到。所以***點,我們在做很多的日常處理和我們真正在做大數據分析的時候,我們如果沒有做到很好的實時分析就會產生一些不適時的產品推薦,包括很多在做APP分析也好,或者是做互聯網數據分析也好,經常會發現一些我們自己互聯網產品的一些問題,經常能看到,如果一個問題經常是通過我們的質控部門或者客服部門反饋回來說,比如我的一個購買,或者我的一個瀏覽出現了一些問題,這個時候再反饋到客戶那里,從你的客戶再看到你的研發部門,或者再到你的產品部門,說到這樣的問題的時候其實它也是過時的產品質量控制。我們做實時分析是希望在你用戶發現這個問題之前你就能發現你自己的產品問題,從而控制相關的產品質量。

第三個,現在互聯網金融非常火暴,大家做貸款的時候,每一個互聯網金融公司都在說我1分鐘發貸款,3分鐘發貸款,拼速度的同時,一旦這筆貸款發出去,沒有將這個人當時的相關狀況和信息做一個很好的模型分析,你拿到的是過時的數據,頭一天的數據,對你的風險是非常大的。我們現在說大數據,每一個數據都是臨時的,只有最接近你這段時間的數據它的價值越高,離你時間越遠的數據價值越低。所以做實時分析的目標是將眼前最零塊的數據分析能夠達到它***的價值,分析基于所有數據采集到處理完還不夠,我們將它做一個分析模型,將我們的分析模型也做到實時化,從而達到我們的實時分析,助力相關用戶資產的增長。

說到這里,現在AI都非常火,很多公司也要成立自己的AI部門,很多AI算法也在不斷的迭代,其實真正做AI之前一定要做的一件事情就是實時分析,為什么這么說?大家能看到,整個數據從過去2000年到現在,國內所有這些做數據的相關企業,從數據倉庫到大數據分析平臺到AI,都是有一個過程的,可能最開始是非常不實時的,企業內部的統計,可能每個月出一個月報,到后來出現數據倉庫,開始我們做了相關的OLAP分析,報表分析,BI的KPI,這都是在最開始的那段時間,它一般來講是以月以天來計的。再往后大數據出現了,過去企業內的這些數據開始現在能看到用戶的一些點擊,我們能看到一些日志分析,我們開始基于這些日志做用戶畫像,包括有一些推薦引擎,廣告位,這些是我們的企業大數據分析。再往后一步是我們現在正處的時代,它應該是企業實時大數據分析。

為什么這么講?它有幾部分:***個,我們的數據源在過去還只是鼠標點擊流,通過網頁,或者是APP,再往下,在現在的時代,都是可穿戴設備,智能的wifi,我們每一次人走在哪里他能夠知道你現在所處的環境和狀態,從而在你現在此時此刻此地給你做相關的推薦,最近很多廣告推薦算法已經融合了場景推薦的方式,它會要求我要知道你現在此時此刻在哪里,根據你此時此刻的一些狀態和你的行為來給你限時的反饋,這個反饋不僅僅是在過去只是把過去的一些數據做一些點擊的采集,做一些模型,做一些過去的實時畫像,而是知道你現在此時此刻的需求。比如實時的渠道分析,我現在做一個活動,究竟我這個活動它的每一個渠道究竟哪里比較好,我究竟在哪里加大投入,比如實時場景推薦,此時此刻你在哪里,實時風險評估,你放貸款的時候應該什么時間給什么樣的人,做到這些才能說我拿到這個數據將來才能實現AI分析。很多自動駕駛的汽車,你是在開車的時候前面的情況經常發生變化,如果你只是一個小數據量級去訓練你的模型,你會發現我們可能會出現異常駕駛事故,最近也出現很多類似的事故,不是因為AI不夠智能,而是因為他給AI提供的數據量級不夠大不夠快,造成我們在AI學習過程當中中間有一些盲點,從而造成一些安全事故。

所以所有的AI,如果企業想做AI的時候,***步先要實現整個實時計算整個采集分析加工的這套流程。企業如何做有效實時分析呢?無外乎分幾步,***步是定方向,為什么先把它放在里面講呢,因為對于每一個企業來講,講實時分析是非常容易的,但實時分析的投入非常大,因為它和過去大數據平臺又不同,它對實時計算集群能力、架構、人員都有更高的要求,所以企業做實時分析的時候首先要評估企業自己的ROI,選擇一個適合的場景,究竟什么樣的場景對于每個企業比較合適,究竟你要做場景推薦還是要做實時分析的風險評估,這是***個。第二步是夯實基礎,現在有各種各樣的開源的閉源的大數據實時分析框架,我會給大家詳講,大家要選擇一種或者幾種適合自己企業當時狀態的實時計算框架,今天也來了非常多的這方面的專家,后面會給大家詳細講解。第三步是打造能力,這里提一個說法,提到實時分析的時候我聽到很多技術小伙伴會跟我講,實時分析,這邊做批量,這邊做實時,或者現在提出的Lambda架構,把實時和批量計算放在一起,不就這些嗎。其實完全不是,因為實時的分析并不等于實時的計算,實時計算只是實時分析當中的一步,在我們的分析過程當中除了數據計算之外還有數據挖掘能力,實時采集的能力,這都是企業打造實時分析時候的重要節點。第四步是實現突破,找到產品出口,找到最合適的一個點,哪怕一兩點,找出來,讓企業自己的實時分析流暢的流轉起來。

剛才講了四點,我稍微展開講一講實時分析的要素。

***個要素,選擇合適的業務方向,數據時間軸離現在越近它的價值越高,真正反饋到我們產品的企業生命周期當中,無外乎有這么六點,每一個企業看自己究竟做實時分析的時候應該選擇哪一點做突破。

***是產品選擇,中間會提到相關適合場景的推薦,我們相關的競品反饋,馬上雙十一就到了,在座如果有電商小伙伴,一定是實時跟蹤競爭對手的價格變化,然后做決策。現在主要靠人,未來加上算法,應該是系統能夠自動去調的,否則你的價格和模型永遠趕不上競爭對手,永遠被動在做。

第二個,購買,購買有幾個,一個是價格要合適,不同的人可能他的價格和他的優惠幅度是不同的,在他購買的剎那你究竟給他打五折還是給優惠券激勵他完成閉環,還有白條,我們這個白條什么時候給什么樣的人做相關推薦,也是購買流程。

第三個,業務創新,現在有很多這種洞察,我們很多新的業務,包括現在的智能硬件都需要實時分析引擎才能轉起來。

第四個,品牌感知,如果一個問題出現的時候往往通過互聯網的傳播,它是指數級的增長,一旦你沒有控制住相關問題的爆發,比如最近某款手機,開始的時候只是一兩個點,突然爆發到全球航空公司都不能用,禁止這款手機登上飛機,你的品牌控制和質量控制怎么在***時間控制好,這是非常重要的。包括產品使用,用戶在使用你產品的時候能夠實時看到用戶究竟怎么用你這款產品的,怎么樣提高你的這款產品,包括后面數據相關的服務,比如說用戶的反饋機制也好,產品的質量控制也好,這個其實是找到企業自己***個找到我們相關分析的方向。

第二個是要構建實時數據源生態,實時數據采集和過去的采集有很大的不同,因為在一開始的時候我們覺得每一個企業比如拿到他的網絡行為日志,或者拿到他的APP行為日志,或者拿到企業相關交易信息,我們覺得就夠了。但現在整體實時分析的時候發現這不夠,因為你要了解一個用戶所處狀態做到完整實時分析,你要知道這個人現在所處場景是怎么樣的,場景這個詞會延展到不僅僅是他在場景里面點擊的狀態,而是他現在所處的周圍場景。比如在座各位在這個會場里面,可能對于某一些不同的場景來講,還有一些人在不同的商場里面,究竟他在電影院里面還是剛出來,還是在商場里面吃飯,這個場景如果只是單一一家企業很難拿到相關數據和信息,他需要融合到新的比如智能硬件,智能wifi,或者是智能視頻識別,知道你所處的場景。這些可能不僅僅是一個企業就可以完成的,它需要多個企業聯合,形成數據的實時融合,才能將你自己的數據,對于用戶的數據采集完整,才能讓你的數據達到實時化。過去我們的采集還是很容易的,比如你去采集我們的行為日志就可以了,現金采集方法完全不同了,我們在做視頻識別或者照片識別的時候,并不是每個企業都有這樣的能力。你在實時分析實時處理的時候也需要生態,需要你的合作伙伴幫助你把過去批量的分析變成現在的實時分析。所以在企業做實時分析的時候需要打造一個比較好的數據源生態,才能夠讓你獲得這些實時的數據源。

第三個,我們要實現實時的計算架構與算法。這里分幾層:***個是實時采集,你現在有相關的合作伙伴也好、生態也好,自己的SDK也好,采集也好,通過智能設備也好,把你的數據采集上來。再往上是實時計算,這只是其中的一部分,我把數據實時計算出來,因為你把它計算出來如果你不能給它做很好的查詢,其實這件事情還沒有達到分析報表層面。所以再往上一層最基本的,實時查詢,目前也是越來越多的開源和相關的技術小伙伴投入到里面,比如像麒麟,他主要做實時OLAP查詢,百億級的數據怎么能夠在秒級別甚至毫秒級別能夠把數據查詢出來,這是像麒麟這樣的。像Greenplum,他怎么能夠在那么大數據量里面秒級相關數據查詢,當然,現在也有一個新出的Druid,很多用戶在用,也是實時OLAP引擎查詢。包括Impala、Spark SQL,我們計算到某一個結果以后,要給你的業務部門,要給你的分析師,要給你的相關風險控制部門能查到這些用戶實時動態,不僅僅是當前此時此刻的數據,還包括了這個用戶以往一年兩年、三年,甚至很長的數據,能夠實時把數據相關分析做起來。

后面這個稍微多講一點,實時分析算法,大家比較熟悉的是R,MLlib ,Kamanja,MOA,SAMOA,后面三個是大家不太熟悉的,開源也有一段時間了,他們做流式數據挖掘的,我給大家多講兩句SAMOA,我們做了采集,做了計算,做了查詢,其實并沒有做完,需要將你現在的狀況把它實時分析出來,變成一個模型。舉一個例子,昨天Google的郭老師舉了一個例子,Google做防風險欺詐的時候,能看到手機屏幕點擊的位置,從而看到你這個人是機器在點還是人在點,這個過程完全就是通過我們流式的聚類就能做出來,每次點擊的時候能夠看到每個設備究竟是聚在一起點擊還是隨機點屏幕任何東西,從而看到防欺詐相關的算法。再往上相關的并發服務很多小伙伴比較熟悉了,比如現在常用挖掘的實時Python,我就不做分析了。

第四個,精準的產品出口。實時的分析,實時的展示,實時的反饋,你可以做一些股票的購買,風險的控制,人機交互。這都是要素四里面說到的。

實時分析是大數據分析的必經之路,一開始我們企業做的是內部數據BI,之后是企業大數據分析,經過企業實時大數據分析,才能做到企業AI應用。這些是和大家溝通交流的。

今天時間也差不多了,后面有非常多的技術專家會和我們去做一些相關的溝通,就像我剛才提到的,麒麟,包括Greenplum,他會把我們剛才提到的每一層都給大家做比較詳細的講解,各位都是專家,我就不講太多了,把時間留給我們的技術專家做相關介紹。

總體來講,我相信實時分析是每個企業在大數據上面的必經之路,我相信每個企業在現在的階段一定建立自己的實時分析平臺,從而助力自己實時分析的進展。

非常感謝各位早上聆聽我的演講,謝謝。

責任編輯:未麗燕 來源: 易觀開發者服務
相關推薦

2013-01-21 09:31:22

大數據分析大數據實時分析云計算

2016-08-31 14:41:31

大數據實時分析算法分類

2016-12-01 19:07:46

大數據數據分析

2022-05-09 09:00:00

Splunk數據分析工具

2024-06-04 14:10:00

FlinkSQL窗口大數據

2024-06-06 08:58:08

大數據SQLAPI

2012-05-17 10:08:52

智慧的分析洞察BAO大數據

2016-04-08 17:55:23

HPE大數據Haven

2016-12-20 16:03:08

大數據分析大數據

2024-06-03 08:26:35

2024-06-05 09:16:54

開源工具Airflow

2013-09-25 13:47:35

Oracle甲骨文

2017-11-28 17:41:39

大數據

2014-03-17 09:45:04

大數據

2013-03-18 10:14:00

大數據小數據

2013-02-21 16:36:09

大數據

2022-09-29 09:08:15

數據體系

2014-01-08 09:35:50

2014-01-15 13:40:57

2018-04-27 13:21:29

大數據IT企業數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕亚洲在线 | 中文字幕一区二区三区精彩视频 | 九一在线 | 国产成人精品一区二区在线 | 黄色小视频大全 | 91麻豆久久久| 欧美国产日韩一区二区三区 | 欧美韩一区二区 | 国产精品乱码一二三区的特点 | 成人黄色在线 | 中文字幕一级 | 日本三级电影免费 | 久久在线免费 | 国产视频一区二区在线观看 | 在线视频a | 狠狠做深爱婷婷综合一区 | 日韩一区二区三区在线观看 | av在线免费观看网站 | 久久91| 国产福利91精品一区二区三区 | 天天综合日日夜夜 | 国产精品视频播放 | 成人在线观看免费 | 亚洲毛片在线观看 | 五月婷婷在线播放 | 久久综合一区二区三区 | 亚洲欧洲小视频 | 一区二区中文字幕 | 一级做a爰片性色毛片视频停止 | 欧美网站一区 | 成人a在线观看 | 亚洲天堂影院 | 蜜桃在线播放 | 97超碰人人| 狠狠干在线 | 国产精品久久久久久久7777 | 国产小视频在线 | 中文字幕在线观看日韩 | 日韩在线视频免费观看 | 欧美成人精品在线 | 国产成人久久精品一区二区三区 |