成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

得物供應(yīng)鏈復(fù)雜業(yè)務(wù)實時數(shù)倉建設(shè)之路

大數(shù)據(jù) 數(shù)據(jù)倉庫
得物供應(yīng)鏈業(yè)務(wù)是紛繁復(fù)雜的,我們既有JIT的現(xiàn)貨模式中間夾著這大量的倉庫作業(yè)環(huán)節(jié),又有到倉的寄售,品牌業(yè)務(wù),有非常復(fù)雜的逆向鏈路。在這么復(fù)雜的業(yè)務(wù)背后,我們需要精細化關(guān)注人貨場車的效率和成本,每一單的及時履約情況,要做到這一點我們需要各粒度和維度的數(shù)據(jù)來支撐我們的精細化管理。

1、背景

得物供應(yīng)鏈業(yè)務(wù)是紛繁復(fù)雜的,我們既有JIT的現(xiàn)貨模式中間夾著這大量的倉庫作業(yè)環(huán)節(jié),又有到倉的寄售,品牌業(yè)務(wù),有非常復(fù)雜的逆向鏈路。在這么復(fù)雜的業(yè)務(wù)背后,我們需要精細化關(guān)注人貨場車的效率和成本,每一單的及時履約情況,要做到這一點我們需要各粒度和維度的數(shù)據(jù)來支撐我們的精細化管理。

1.1 業(yè)務(wù)早期

業(yè)務(wù)早期,業(yè)務(wù)反饋我們后臺管理系統(tǒng)某些報表查詢慢。查詢代碼可知,如下圖:

圖片

這種現(xiàn)象一般表現(xiàn)為:

  • 大表JOIN,rdbms不擅長做數(shù)據(jù)聚合,查詢響應(yīng)慢,調(diào)優(yōu)困難;
  • 多表關(guān)聯(lián),索引優(yōu)化,子查詢優(yōu)化,加劇了復(fù)雜度,大量索引,讀庫磁盤空間膨脹過快;
  • 數(shù)據(jù)量大,多維分析困難,跨域取數(shù),自助拉到實時數(shù)據(jù)困難等。

一方面原因是系統(tǒng)設(shè)計之初,我們主要關(guān)注業(yè)務(wù)流程功能設(shè)計,事務(wù)型業(yè)務(wù)流程數(shù)據(jù)建模,對于未來核心指標的落地,特別是關(guān)鍵實時指標落地在業(yè)務(wù)快速增長的情況下如何做到非常好的支撐。mysql在此方面越來越捉襟見肘。

另外一方面原因是mysql這種oltp數(shù)據(jù)庫是無法滿足實時數(shù)據(jù)分析需求的,我們需要探索一套實時數(shù)據(jù)架構(gòu),拉通我們的履約,倉儲,運配等各域的數(shù)據(jù),做有效串聯(lián),因此我們開始了我們的實時數(shù)據(jù)架構(gòu)探索,下圖是我們一些思考。

附:數(shù)據(jù)視角的架構(gòu)設(shè)計也是系統(tǒng)架構(gòu)設(shè)計的重要組成部分。

圖片

2、架構(gòu)演變

2.1 原始階段

2.1.1 通過Adb(AnalyticDB for MySQL)完成實時join

通過阿里云DTS同步直接將業(yè)務(wù)庫單表實時同步到Adb,通過Adb強大的join能力和完全兼容mysql語法,可以執(zhí)行任意sql,對于單表大數(shù)據(jù)量場景或者單表和一些簡單維表的join場景表現(xiàn)還是不錯的,但是在業(yè)務(wù)復(fù)雜,復(fù)雜的sql rt很難滿足要求,即使rt滿足要求,單個sql所消耗的內(nèi)存,cpu也不盡人意,能支撐的并發(fā)量很有限。

2.1.2 通過Otter完成大寬表的建設(shè)

圖片

基于Canal開源產(chǎn)品,獲取數(shù)據(jù)庫增量日志數(shù)據(jù)并下發(fā),下游消費增量數(shù)據(jù)直接生成大寬表,但是寬表還是寫入mysql數(shù)據(jù)庫,實現(xiàn)單表查詢,單表查詢速度顯著提升,無olap數(shù)據(jù)庫的常見做法,通過寬表減少join帶來的性能消耗。

但是存在以下幾個問題:

  • 雖然otter有不錯的封裝,通過數(shù)據(jù)路由能做一些簡單的數(shù)據(jù)拼接,但在調(diào)試上線復(fù)雜度上依然有不小的復(fù)雜度;
  • otter偽裝mysql從庫同時要去做etl邏輯,把cdc干的活和實時ETL的活同時干了,耦合度較高

2.2 實時架構(gòu)1.0

2.2.1 flink+kafka+ClickHouse

在上述調(diào)研嘗試后都沒有解決根本的問題,我們開始把目標建立標準的實時數(shù)倉的思路上來,在20年olap沒有太多的可選項,我們把目標放在clickhouse上。

圖片

  • 為了保證順序append每次寫入都會生成一個part文件,滿足一定條件后臺定時合并。
  • 非常弱的update delete,不能保證原子性和實時性。
  • clickhouse只適合數(shù)據(jù)量大,業(yè)務(wù)模型簡單,更新場景少的場景。
  • 存算不分離,復(fù)雜查詢影響clickhouse寫入。

因為clickhouse的這些特性,尤其是不支持upsert的情況下,我們通常需要提前把大寬表的數(shù)據(jù)提前在flink聚合好,并且供應(yīng)鏈數(shù)據(jù)生命周期長,作業(yè)流程也長如:

  • 貨物的生命周期較短時長為一周,長周期時長超過1個月;
  • 庫內(nèi)環(huán)節(jié)異常的多,從賣家發(fā)貨到收貨、分揀、質(zhì)檢、拍照、鑒別、防偽、復(fù)查、打包、出庫、買家簽收等十幾個甚至更多的環(huán)節(jié),一張以商品實物id為主鍵的大寬表,需要join幾十張業(yè)務(wù)表;
  • 供應(yīng)鏈系統(tǒng)早期設(shè)計沒有每張表都會冗余唯一單號(入庫單,作業(yè)單,履約單)這樣的關(guān)鍵字段,導(dǎo)致沒辦法直接簡單的join數(shù)據(jù)。

在這樣一個架構(gòu)下,們的flink在成本上,在穩(wěn)定性維護上,調(diào)優(yōu)上做的非常吃力。

圖片

附:

clickhouse不支持標準的upsert模式,可以通過使用AggregatingMergeTree 引擎字段類型使用SimpleAggregateFunction(anyLast, Nullable(UInt64)) 合并規(guī)則取最后一條非null數(shù)據(jù)可以實現(xiàn)upsert相似的功能,但讀時合并性能有影響。

2.3 實時架構(gòu)2.0

2.3.1 flink+kafka+hologres

因此我們迫切的希望有支持upsert能力的olap數(shù)據(jù)庫,同時能搞定供應(yīng)鏈寫多少的場景,也能搞定我們復(fù)雜查詢的場景,我們希望的olap數(shù)據(jù)至少能做到如下幾點:

  • 有upsert能力,能對flink大任務(wù)做有效拆分;
  • 存算分離,復(fù)雜業(yè)務(wù)計算,不影響業(yè)務(wù)寫入,同時能平滑擴縮容;
  • 有一定的join能力帶來一些靈活度;
  • 有完善的分區(qū)機制,熱數(shù)據(jù)查詢性能不受整體數(shù)據(jù)增長影響;
  • 完善的數(shù)據(jù)備份機制。

圖片

這樣一個行列混合的olap數(shù)據(jù)庫,支持upsert,支持存算分離,還是比較符合我們的預(yù)期。

圖片

目前這樣一套架構(gòu)支持了供應(yīng)鏈每天數(shù)千人的報表取數(shù)需求,以及每天10億數(shù)據(jù)量的導(dǎo)出,訪問量在得物所有to B系統(tǒng)中排名靠前。

2.3.2 我們遇到的一些問題

多時間問題

如何設(shè)置segment_key,選擇哪個業(yè)務(wù)字段作為segment_key供應(yīng)鏈幾十個環(huán)節(jié)都有操作時間,在不帶segment_key的情況下性能如何保障,困擾了我們一段時間。

圖片

設(shè)置合理的segment_key如有序的時間字段,可以做到完全順序?qū)憽C總€segment文件都有個min,max值,所有的時間字段過來只需要去比較下在不在這個最小值最大值之間(這個動作開銷很低),不在范圍內(nèi)直接跳過,在不帶segment_key查詢的條件下,也能極大的降低所需要過濾的文件數(shù)量。

圖片

批流融合

背景:業(yè)務(wù)快速發(fā)展過程中,持續(xù)迭代實時任務(wù)成為常態(tài)。供應(yīng)鏈業(yè)務(wù)復(fù)雜,環(huán)節(jié)多,流程往往長達一個月周期之久,這就導(dǎo)致state ttl設(shè)置周期長。job的operator變化(sql修改),checkpoint無法自動恢復(fù),savepoint恢復(fù)機制無法滿足,比如增加group by和join。重新消費歷史數(shù)據(jù)依賴上游kafka存儲時效,kafka在公司平臺一般默認都是存儲7天,不能滿足一個月數(shù)據(jù)回刷需求場景。

方案:通過批流融合在source端實現(xiàn)離線 + 實時數(shù)據(jù)進行數(shù)據(jù)讀取、補齊。

圖片

(1)離線按key去重,每個key只保留一條,減少消息量下發(fā)。

(2)離線和實時數(shù)據(jù)合并,使用last_value取相同主鍵最新事件時間戳的一條數(shù)據(jù)。

(3)使用union all + group by方式是可作為代替join的一個選擇。

(4)實時數(shù)據(jù)取當(dāng)日數(shù)據(jù),離線數(shù)據(jù)取歷史數(shù)據(jù),防止數(shù)據(jù)漂移,實時數(shù)據(jù)需前置一小時。

Join算子亂序

圖片

  • 問題分析

由于join算子是對join鍵做hash后走不同的分片處理數(shù)據(jù),開啟了2個并發(fā)后,再因為header_id字段的值變化,detail表2次數(shù)據(jù)流走到了2個不同的taskmanage,而不同的線程是無法保證輸出有序性的,所以數(shù)據(jù)有一定的概率會亂序輸出,導(dǎo)致期望的結(jié)果不正確,現(xiàn)象是數(shù)據(jù)丟失。

  • 解決辦法

通過header inner join detail表后,拿到detail_id,這樣再次通過detail_id join就不會出現(xiàn)(join鍵)的值會從null變成非null的情況發(fā)生了,也就不會亂序了。

insert into sink
Select detail.id,detail.header_id,header.id
from detail
left join (
Select detail.id AS detail_id,detail.header_id,header.id
from header
inner join detail
on detail.header_id = header.id
) headerNew
on detail.id = headerNew.detail_id

2.3.3 Hologres or starrocks

這里也聊聊大家比較關(guān)注的hologres和starrocks,starrocks從開源開始也和我們保持了密切聯(lián)系,也做了多次的深入交流,我們也大致列了兩者之間的一些各自優(yōu)勢和對于我們看來一些不足的地方。

圖片

3、其他做的一些事情

3.1 開發(fā)提效工具——flink代碼生成器

參考MyBatis gennerator一些思想,利用模板引擎技術(shù),定制化模板來生成flink sql。可以解決代碼規(guī)范,和提升開發(fā)效率。基本可以通過代碼配置來生成flink sql。

圖片

3.2 開發(fā)提效工具——可視化平臺

直接通過配置的方式,在線寫sql,直接生成頁面和接口,一鍵發(fā)布,同時引入緩存,鎖排隊機制解決高峰訪問性能問題。

動態(tài)配置接口,一鍵生成rpc服務(wù):

圖片

動態(tài)配置報表:

圖片

4、未來規(guī)劃

當(dāng)前架構(gòu)依然存在某種程度的不可能三角,我們需要探索更多的架構(gòu)可能性:

圖片

(1)利用寫在holo,計算在mc避免holo這種內(nèi)存數(shù)據(jù)庫,在極端查詢內(nèi)存被打爆的問題,利用mc的計算能力可以搞定一些事實表join的問題提升一些靈活度。

圖片

(2) 借助apache hudi推進湖倉一體,hudi做批流存儲統(tǒng)一,flink做批流計算統(tǒng)一,一套代碼,提供5-10分鐘級的準實時架構(gòu),緩解部分場景只需要準時降低實時計算成本。

圖片

責(zé)任編輯:武曉燕 來源: 得物技術(shù)
相關(guān)推薦

2023-02-23 07:52:20

2022-12-13 11:21:48

2020-12-02 10:29:41

物聯(lián)網(wǎng)供應(yīng)鏈IOT

2021-12-22 23:13:09

物聯(lián)網(wǎng)云計算運營商

2023-10-31 15:40:12

2018-05-29 10:38:17

供應(yīng)鏈

2020-10-11 19:38:30

物聯(lián)網(wǎng)智能信標運輸

2023-07-28 10:59:24

2022-11-16 14:27:46

物聯(lián)網(wǎng)供應(yīng)鏈管理

2022-04-26 10:47:15

智能供應(yīng)鏈供應(yīng)鏈

2021-11-29 14:53:02

物聯(lián)網(wǎng)IOT

2020-05-25 20:48:06

物聯(lián)網(wǎng)供應(yīng)鏈技術(shù)

2019-12-20 17:45:17

物聯(lián)網(wǎng)供應(yīng)鏈工業(yè)物聯(lián)網(wǎng)

2023-06-14 08:00:00

物聯(lián)網(wǎng)Kafka供應(yīng)鏈

2022-09-28 07:08:25

技術(shù)實時數(shù)倉

2018-10-19 14:16:09

Flink數(shù)據(jù)倉庫數(shù)據(jù)系統(tǒng)

2020-06-08 13:09:31

物聯(lián)網(wǎng)供應(yīng)鏈技術(shù)

2022-12-27 10:11:30

物聯(lián)網(wǎng)IOT

2022-11-16 18:41:45

Redis接口性能

2022-12-13 10:30:50

供應(yīng)鏈運營計劃
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩在线精品视频 | 国产伦一区二区三区久久 | 久久久久久亚洲精品不卡 | 亚洲天堂av网 | 在线中文字幕亚洲 | 国产精品日韩 | 久久综合久色欧美综合狠狠 | 国产精品a久久久久 | av成年人网站 | 欧美日韩国产一区二区三区 | 国产一区二区在线视频 | 午夜视频在线免费观看 | 激情五月婷婷丁香 | 在线免费91| 中文字幕av在线播放 | 亚洲一本 | 国产福利在线播放 | 在线播放中文字幕 | 欧美激情视频一区二区三区在线播放 | 午夜精品一区二区三区在线视频 | 91视频在线网站 | 欧美综合视频在线 | 久久99精品国产自在现线小黄鸭 | 久久国产精品久久久久 | 中文字幕第100页 | 奇米在线 | 91小视频在线 | 二区在线视频 | 黄色片免费在线观看 | 成人3d动漫一区二区三区91 | 伊人狠狠干 | 九九综合| av免费看在线 | 国产欧美精品一区二区色综合朱莉 | 久久青| 精品视频久久久久久 | 日韩欧美在线视频播放 | 精品久久久久香蕉网 | 国产精品久久久久久久午夜 | 尤物在线精品视频 | 中文字幕在线视频精品 |