WOT干貨大放送:大數(shù)據(jù)架構(gòu)發(fā)展趨勢(shì)及探索實(shí)踐分享
原創(chuàng)【51CTO.com原創(chuàng)稿件】2018年5月18-19日,由51CTO主辦的全球軟件與運(yùn)維技術(shù)峰會(huì)在北京召開。來自全球企業(yè)的技術(shù)精英匯聚北京,暢談軟件技術(shù)前沿,共同探索運(yùn)維技術(shù)的新邊界。而在本次大會(huì)上,除了眾星云集的主論壇環(huán)節(jié),12場(chǎng)分論壇更是各具特色,分別聚焦了時(shí)下最受關(guān)注的容器、AI、區(qū)塊鏈、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)領(lǐng)域,是一次圍繞軟件與運(yùn)維方向的技術(shù)干貨與實(shí)踐經(jīng)驗(yàn)分享的高端技術(shù)盛宴。
18日下午的大數(shù)據(jù)處理技術(shù)分會(huì)場(chǎng),PingCAP CTO黃東旭、易觀智庫(kù)CTO郭煒、Mob開發(fā)者服務(wù)平臺(tái)技術(shù)副總監(jiān)林榮波、宜信技術(shù)研發(fā)中心高級(jí)架構(gòu)師王東及商助科技(99Click)顧問總監(jiān)鄭泉五位講師,分別針對(duì)時(shí)下熱門的HTAP數(shù)據(jù)庫(kù)TiDB、去ETL化的IOTA架構(gòu)、數(shù)據(jù)工廠架構(gòu)、實(shí)時(shí)敏捷大數(shù)據(jù)理念實(shí)踐、基于場(chǎng)景的大數(shù)據(jù)營(yíng)銷等話題,展開實(shí)踐分享。
PingCAP CTO 黃東旭
如何運(yùn)用HTAP數(shù)據(jù)庫(kù)幫到你? TiDB的故事
TiDB是一套開源分布式HTAP數(shù)據(jù)庫(kù),同時(shí)提供MySQL與Spark SQL接口。PingCAP CTO黃東旭在演講中介紹,TiDB旨在以HTAP(Hybrid Transactional/Analytical Processing)數(shù)據(jù)庫(kù)的形式支持基于實(shí)時(shí)交易數(shù)據(jù)的實(shí)時(shí)業(yè)務(wù)分析需求,他分享了TiDB的設(shè)計(jì)思路,以及TiDB集群在部署與運(yùn)營(yíng)方面的最佳實(shí)踐。
黃東旭提到,當(dāng)前數(shù)據(jù)庫(kù)領(lǐng)域面臨很多問題,數(shù)據(jù)庫(kù)解決方案和大數(shù)據(jù)分析引擎解決方案處于割裂的狀態(tài),由于Oracle、MySQL數(shù)據(jù)庫(kù)并不是面向分布式環(huán)境而設(shè)計(jì),因此即使勉強(qiáng)通過分庫(kù)、分表或中間件的方式,在數(shù)據(jù)庫(kù)層面做了分片,從本質(zhì)上看也只是復(fù)制了相同的堆棧,而非針對(duì)分布式系統(tǒng)進(jìn)行存儲(chǔ)和計(jì)算優(yōu)化,這正是進(jìn)行跨業(yè)務(wù)查詢或跨物理機(jī)查詢和寫入十分繁瑣的本質(zhì)原因。
為了解決這一問題,TiDB在架構(gòu)上將計(jì)算和存儲(chǔ)層進(jìn)行高度的抽象和分離,對(duì)混合負(fù)載的場(chǎng)景通過IO優(yōu)先級(jí)隊(duì)列,智能副本調(diào)度,行列混合存儲(chǔ)等技術(shù)使其變?yōu)榭赡?。TiDB產(chǎn)品的整體架構(gòu)是分層的,由分布式SQL層(TiDB)、分布式KV存儲(chǔ)引擎(TiKV)以及管理整個(gè)集群的PD模塊組成。無限水平擴(kuò)展是TiDB的一大特點(diǎn),這里所說的水平擴(kuò)展包括兩方面:計(jì)算能力和存儲(chǔ)能力。
HTAP給開發(fā)者提供了一個(gè)實(shí)時(shí)數(shù)據(jù)分析方面的新思路,不需要再去維護(hù)另一個(gè)離線的數(shù)據(jù)倉(cāng)庫(kù),既減輕了ETL的工作,又能節(jié)省很大一部分建立數(shù)據(jù)倉(cāng)庫(kù)所用到的存儲(chǔ)和計(jì)算成本,HTAP將是未來的重要趨勢(shì)。黃東旭介紹了HTAP數(shù)據(jù)庫(kù)的三類主要應(yīng)用場(chǎng)景,一是大中臺(tái)[鳶瑋1] 的場(chǎng)景;二是為微服務(wù)提供強(qiáng)一致的持久化數(shù)據(jù)層(the source of truth);三是MySQL分庫(kù)分表的完美替代品。
易觀 CTO 郭煒
Lambda架構(gòu)已死,新一代去ETL化的IOTA架構(gòu)
易觀CTO郭煒表示, 在大數(shù)據(jù)3.0時(shí)代,Lambda大數(shù)據(jù)架構(gòu)已經(jīng)無法滿足企業(yè)用戶日常大數(shù)據(jù)分析和精益運(yùn)營(yíng)的需要,去ETL化的IOTA大數(shù)據(jù)架構(gòu)才是未來。郭煒從Lambda與Kappa架構(gòu)的發(fā)展及優(yōu)缺點(diǎn)展開,闡述了IOTA大數(shù)據(jù)架構(gòu)的思路及優(yōu)缺點(diǎn),以及易觀在IOTA架構(gòu)領(lǐng)域的實(shí)踐經(jīng)驗(yàn)。
在過去Lambda數(shù)據(jù)架構(gòu)是每一個(gè)公司大數(shù)據(jù)平臺(tái)必備的架構(gòu),Lambda架構(gòu)經(jīng)歷多年的發(fā)展,其優(yōu)點(diǎn)是穩(wěn)定,對(duì)于實(shí)時(shí)計(jì)算部分的計(jì)算成本可控。然而在大數(shù)據(jù)3.0時(shí)代,其致命缺點(diǎn)逐漸顯現(xiàn):一是實(shí)時(shí)與批量計(jì)算結(jié)果不一致引起的數(shù)據(jù)口徑問題;二是批量計(jì)算在計(jì)算窗口內(nèi)無法完成;三是數(shù)據(jù)源變化要重新開發(fā),開發(fā)周期長(zhǎng);四是服務(wù)器存儲(chǔ)壓力大。
針對(duì)Lambda的部分缺陷,Kappa架構(gòu)被提出來,其核心思想是通過改進(jìn)流計(jì)算系統(tǒng)來解決數(shù)據(jù)全量處理的問題,使得實(shí)時(shí)計(jì)算和批處理過程使用同一套代碼。然而Kappa架構(gòu)的缺點(diǎn)也十分明顯,那就是流式處理對(duì)于歷史數(shù)據(jù)的高吞吐量力不從心,開發(fā)周期長(zhǎng)以及服務(wù)器成本浪費(fèi)嚴(yán)重。
為解決上述問題,郭煒針對(duì)IoT時(shí)代的特點(diǎn)提出了新一代的大數(shù)據(jù)IOTA架構(gòu),整體思路是設(shè)定標(biāo)準(zhǔn)數(shù)據(jù)模型,通過邊緣計(jì)算技術(shù)把所有的計(jì)算過程分散在數(shù)據(jù)產(chǎn)生、計(jì)算和查詢過程當(dāng)中,以統(tǒng)一的數(shù)據(jù)模型貫穿始終,從而提高整體的預(yù)算效率,同時(shí)滿足即時(shí)計(jì)算的需要,可以使用各種Ad-hoc Query來查詢底層數(shù)據(jù)。
IOTA整體技術(shù)結(jié)構(gòu)分為以下幾部分:
- Common Data Model
- Edge SDKs & Edge Servers
- Real Time Data
- Historical Data
- Dumper
- Query Engine
- Realtime model feedback
IOTA大數(shù)據(jù)架構(gòu)主要有如下幾個(gè)特點(diǎn):一是去ETL化,解決了大數(shù)據(jù)處理中ETL和相關(guān)開發(fā)的痛點(diǎn);二是不用等待ETL或Streaming的數(shù)據(jù)研發(fā)和處理,實(shí)現(xiàn)了Ad-hoc即時(shí)查詢;三是將過去統(tǒng)一到中央進(jìn)行整體計(jì)算,分散到數(shù)據(jù)產(chǎn)生、存儲(chǔ)和查詢端,實(shí)現(xiàn)邊緣計(jì)算。
Mob開發(fā)者服務(wù)平臺(tái)技術(shù)副總監(jiān) 林榮波
數(shù)據(jù)工廠架構(gòu)升級(jí)分享
Mob是全球領(lǐng)先第三方全景數(shù)據(jù)服務(wù)平臺(tái),其SDK產(chǎn)品現(xiàn)已累計(jì)服務(wù)23萬開發(fā)者,36萬個(gè)App。Mob在數(shù)據(jù)工廠的構(gòu)成以及運(yùn)作方面,有著全球領(lǐng)先的技術(shù)實(shí)力。Mob開發(fā)者服務(wù)平臺(tái)技術(shù)副總監(jiān)林榮波分享了數(shù)據(jù)工廠整體架構(gòu)設(shè)計(jì)實(shí)踐與變革歷程,從數(shù)據(jù)源、數(shù)據(jù)關(guān)系以及商業(yè)化產(chǎn)品產(chǎn)出效能這三大領(lǐng)域,闡述數(shù)據(jù)工廠的運(yùn)作模式,以及結(jié)構(gòu)升級(jí)對(duì)原有問題的優(yōu)化和解決方案。
林榮波總結(jié)了公司創(chuàng)建以來在數(shù)據(jù)采集和處理方面的三大問題:一是數(shù)據(jù)源的問題,主要包括地域和應(yīng)用市場(chǎng)政策問題,硬件和系統(tǒng)兼容問題,SDK業(yè)務(wù)團(tuán)隊(duì)與商業(yè)化團(tuán)隊(duì)碰撞問題等;二是數(shù)據(jù)關(guān)系問題,數(shù)據(jù)源到成品數(shù)據(jù)鏈雜亂,團(tuán)隊(duì)學(xué)習(xí)成本加劇,開發(fā)人員進(jìn)行數(shù)據(jù)加工越來越累;三是商業(yè)化產(chǎn)品產(chǎn)出效能問題,產(chǎn)品迭代與新品的產(chǎn)出效能低,大數(shù)據(jù)開發(fā)和產(chǎn)品服務(wù)端的耦合度高,服務(wù)穩(wěn)定性、隔離性較差。
Mob針對(duì)數(shù)據(jù)源問題提出了這樣的解決思路,采用公有云+私有云的方案確保數(shù)據(jù)正常,運(yùn)用智能DNS+本地服務(wù)干預(yù)的方式將服務(wù)流量分發(fā),增加服務(wù)開關(guān)設(shè)置解決數(shù)據(jù)項(xiàng)的政策問題,成立通用組件團(tuán)隊(duì)解決團(tuán)隊(duì)之間問題。
林榮波用“數(shù)據(jù)即血液”比喻數(shù)據(jù)關(guān)系,Mob通過表定義規(guī)劃、文檔規(guī)范,制定一些標(biāo)準(zhǔn)的工作流程,開發(fā)血緣管理系統(tǒng),QC系統(tǒng)(監(jiān)控?cái)?shù)據(jù)流健康狀態(tài)&容錯(cuò)處理),解決了數(shù)據(jù)關(guān)系的問題。
在商業(yè)化產(chǎn)出效能方面,Mob采用搭建中間件的方式來解決,形象的比喻就是數(shù)據(jù)庫(kù)的客戶端,它包括三大組件:3A系統(tǒng),進(jìn)行統(tǒng)一計(jì)費(fèi)以及權(quán)限管理;商業(yè)化查詢網(wǎng)關(guān)服務(wù),實(shí)現(xiàn)負(fù)載均衡、請(qǐng)求監(jiān)控、過載保護(hù)和故障定位等功能;最后是單獨(dú)的微服務(wù)集群。目前大多數(shù)商業(yè)化項(xiàng)目都可以由中間件的這三大組件搭建和拼接出來。針對(duì)那些新的或臨時(shí)性的商業(yè)需求,則交給HDP(個(gè)性化數(shù)據(jù)提供商)處理。
宜信技術(shù)研發(fā)中心高級(jí)架構(gòu)師 王東
實(shí)時(shí)敏捷大數(shù)據(jù)在宜信的實(shí)踐
自去年9月宜信開源了AIOps三大利器(UAVStack,Wormhole,DBus)之后,這幾款開源軟件受到業(yè)界廣泛關(guān)注,不少企業(yè)已經(jīng)試用,甚至部署到生產(chǎn)中。宜信技術(shù)研發(fā)中心高級(jí)架構(gòu)師王東介紹了實(shí)時(shí)敏捷大數(shù)據(jù)在宜信的實(shí)踐過程,包括過去幾年宜信在實(shí)時(shí)大數(shù)據(jù)方面的需求、痛點(diǎn)和挑戰(zhàn),以及實(shí)時(shí)敏捷大數(shù)據(jù)的基本概念和設(shè)計(jì)思路。此外,王東還介紹了宜信實(shí)時(shí)敏捷大數(shù)據(jù)的基石DBus+Wormhole兩個(gè)平臺(tái)的總體架構(gòu)、主要功能、關(guān)鍵技術(shù)原理和優(yōu)化方案,以及使用這兩個(gè)平臺(tái)構(gòu)建和解決的各種實(shí)時(shí)場(chǎng)景的應(yīng)用:包括實(shí)時(shí)營(yíng)銷、實(shí)時(shí)運(yùn)營(yíng)、實(shí)時(shí)報(bào)表和數(shù)據(jù)同步等。
他總結(jié)并分析了大數(shù)據(jù)應(yīng)用項(xiàng)目面臨的一些痛點(diǎn),包括:數(shù)據(jù)孤島、數(shù)據(jù)時(shí)效性差、一致性差、無法快速響應(yīng)業(yè)務(wù)開發(fā)數(shù)據(jù)產(chǎn)品等問題,并向與會(huì)者解讀了實(shí)時(shí)大數(shù)據(jù)應(yīng)用中面臨的幾項(xiàng)技術(shù)挑戰(zhàn):如何解決大數(shù)據(jù)中來源多樣化、實(shí)時(shí)性差的問題;如何降低大數(shù)據(jù)使用的技術(shù)門檻;如何快速迭代響應(yīng)用戶需求,讓用戶參與進(jìn)來,自助完成數(shù)據(jù)應(yīng)用等。
宜信基于對(duì)實(shí)時(shí)敏捷大數(shù)據(jù)的理念,構(gòu)建了DBus實(shí)時(shí)數(shù)據(jù)總線平臺(tái) + Wormhole實(shí)時(shí)流式處理平臺(tái)。其中,DBus作為實(shí)時(shí)數(shù)據(jù)總線平臺(tái),關(guān)注數(shù)據(jù)的抓取和結(jié)構(gòu)化;Wormhole作為實(shí)時(shí)流式處理平臺(tái),提供基于配置SQL的方式進(jìn)行各種流式計(jì)算,并支持落庫(kù)到各種常見數(shù)據(jù)目標(biāo)中。
王東從技術(shù)層面具體介紹這兩個(gè)平臺(tái)的內(nèi)部架構(gòu),重點(diǎn)介紹了DBus和Wormhole兩個(gè)平臺(tái)的關(guān)鍵實(shí)現(xiàn)原理,例如:DBus 數(shù)據(jù)增量數(shù)據(jù)如何生成,全量數(shù)據(jù)如何切片;Wormhole平臺(tái)中數(shù)據(jù)如何進(jìn)行流式計(jì)算優(yōu)化,如何高效落庫(kù)等,并結(jié)合應(yīng)用場(chǎng)景,對(duì)這兩個(gè)平臺(tái)解決的一些實(shí)際問題進(jìn)行介紹,包括:實(shí)時(shí)營(yíng)銷、實(shí)時(shí)運(yùn)營(yíng)和數(shù)倉(cāng)同步等。
商助科技(99Click)顧問總監(jiān)鄭泉
場(chǎng)景化大數(shù)據(jù)分析與營(yíng)銷
商助科技(99Click)顧問總監(jiān)鄭泉介紹,99Click是第一家獲得互聯(lián)網(wǎng)營(yíng)銷數(shù)據(jù)分析專利的服務(wù)提供商,對(duì)大部分互聯(lián)網(wǎng)企業(yè)而言,大數(shù)據(jù)的價(jià)值已經(jīng)超越了單純的積累數(shù)據(jù)或比拼運(yùn)算效率,場(chǎng)景化是一個(gè)越來越熱的話題,他在本次演講中重點(diǎn)分享了場(chǎng)景化大數(shù)據(jù)營(yíng)銷的實(shí)踐經(jīng)驗(yàn)。
企業(yè)的數(shù)據(jù)來源于產(chǎn)品、銷售、推廣、會(huì)員、供應(yīng)鏈、財(cái)務(wù)以及管理等方方面面,這些數(shù)據(jù)在內(nèi)部管理和對(duì)外營(yíng)銷兩方面凸顯其價(jià)值。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,用戶數(shù)據(jù)、用戶畫像不斷完善,精準(zhǔn)營(yíng)銷乃大勢(shì)所趨。當(dāng)今的互聯(lián)網(wǎng)市場(chǎng),用戶增長(zhǎng)放緩,用戶平均使用時(shí)長(zhǎng)已近飽和狀態(tài),增長(zhǎng)空間十分狹小。因此,對(duì)互聯(lián)網(wǎng)企業(yè)來說,如何拉新、促活、召回和留存用戶,提升用戶粘性,并實(shí)現(xiàn)商業(yè)變現(xiàn),是企業(yè)挖掘互聯(lián)網(wǎng)財(cái)富的工作重點(diǎn)。
99click 營(yíng)銷數(shù)據(jù)模型
鄭泉認(rèn)為,互聯(lián)網(wǎng)商業(yè)變現(xiàn)的能力涉及到場(chǎng)景入口和場(chǎng)景轉(zhuǎn)化能力。從客戶的時(shí)間、地點(diǎn)、事件等信息判斷客戶所屬的場(chǎng)景,站在客戶的角度去分析其需求,是提升轉(zhuǎn)化率的關(guān)鍵。用戶在不同場(chǎng)景間的行為產(chǎn)生了用戶數(shù)據(jù),觸發(fā)、期望、接近、知曉、聯(lián)系、行動(dòng)、響應(yīng)以及評(píng)價(jià),是用戶體驗(yàn)生命周期的一個(gè)循環(huán)過程,企業(yè)可以通過數(shù)據(jù)分析出哪個(gè)環(huán)節(jié)出了問題,從而進(jìn)行有針對(duì)性的營(yíng)銷。
99click “一站式”解決方案
99click提供場(chǎng)景化大數(shù)據(jù)分析與營(yíng)銷的一站式解決方案,99click為剛剛成立不久、業(yè)務(wù)模式還在探索及調(diào)整階段的企業(yè),提供兩項(xiàng)服務(wù):一是系統(tǒng)服務(wù),包括站點(diǎn)運(yùn)營(yíng)、推廣觸達(dá)、商品分析、用戶分析及數(shù)據(jù)整合等;二是人工服務(wù),涵蓋初始化與全周期服務(wù),數(shù)據(jù)分析與優(yōu)化服務(wù),從需求溝通與確認(rèn),定制方案,實(shí)施支持,數(shù)據(jù)校對(duì)與分析,到給出優(yōu)化建議,是一個(gè)完整的人工服務(wù)流程。
大數(shù)據(jù)架構(gòu)正悄然轉(zhuǎn)變
從五位講師的分享中不難看出,現(xiàn)階段數(shù)據(jù)庫(kù)技術(shù)、大數(shù)據(jù)架構(gòu)和應(yīng)用還存在諸多難題,然而技術(shù)發(fā)展從未止步,正因有這些勇于探索、創(chuàng)新實(shí)踐、樂于分享的有志之士,才讓技術(shù)不斷迭代、快速演進(jìn)。本次大數(shù)據(jù)專場(chǎng)上,聽眾爆滿,互動(dòng)問答環(huán)節(jié),與會(huì)嘉賓追問頻頻,講師均做出耐心解答。講師們帶來的全方位企業(yè)級(jí)大數(shù)據(jù)處理技術(shù),以及前瞻性的實(shí)踐經(jīng)驗(yàn)分享,讓與會(huì)嘉賓受益頗多。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】