火山引擎 DataLeap:揭秘字節(jié)跳動(dòng)業(yè)務(wù)背后的分布式數(shù)據(jù)治理思路
字節(jié)的挑戰(zhàn)與實(shí)踐
首先來看一個(gè)問題:“一家公司,數(shù)據(jù)體系要怎么搭建?”
- 方案一:整體規(guī)劃,系統(tǒng)架構(gòu)驅(qū)動(dòng)
- 方案二:問題出發(fā),業(yè)務(wù)價(jià)值驅(qū)動(dòng)
在字節(jié)跳動(dòng),我們選擇的是方案二,即從業(yè)務(wù)遇到的問題出發(fā),重視落地結(jié)果與業(yè)務(wù)過程,去解決實(shí)際的治理問題。
基于這個(gè)理念,在數(shù)據(jù)治理過程中,字節(jié)跳動(dòng)也面臨以下三個(gè)挑戰(zhàn)與機(jī)遇:
業(yè)務(wù)特點(diǎn):業(yè)務(wù)發(fā)展快、場(chǎng)景豐富、數(shù)據(jù)量大且形態(tài)各異。 業(yè)務(wù)的線上服務(wù)及創(chuàng)新,都對(duì)數(shù)據(jù)有較強(qiáng)的依賴,核心業(yè)務(wù)數(shù)據(jù)延遲,質(zhì)量問題將直接影響業(yè)務(wù)表現(xiàn)及發(fā)展。
組織特點(diǎn):扁平化的組織模式,分布式的組織管理。 無行政手段或強(qiáng)組織約束,也無全局治理委員會(huì),且數(shù)據(jù)從采集到應(yīng)用全部的生產(chǎn)流程,沒有全局規(guī)范,業(yè)務(wù)團(tuán)隊(duì)需要自主制定策略并落地。
文化特點(diǎn): OKR 拆解與對(duì)齊文化,業(yè)務(wù)團(tuán)隊(duì)有充足的目標(biāo)定義與拆解權(quán)限,且任何人都可能有動(dòng)機(jī)、有角色、甚至有權(quán)限去進(jìn)行數(shù)據(jù)治理,導(dǎo)致數(shù)據(jù)治理的業(yè)務(wù)流程復(fù)雜
字節(jié)數(shù)據(jù)治理演進(jìn)階段
字節(jié)數(shù)據(jù)治理演進(jìn)階段分為 6 個(gè)階段:
業(yè)務(wù)第一原則: 堅(jiān)持業(yè)務(wù)第一原則,解決業(yè)務(wù)實(shí)際遇到的治理痛點(diǎn)
優(yōu)先穩(wěn)定建設(shè): 優(yōu)先解決交付穩(wěn)定,保障數(shù)據(jù)鏈路與產(chǎn)出穩(wěn)定,減少交付延遲
保障數(shù)據(jù)質(zhì)量: 核心鏈路質(zhì)量管控,配置強(qiáng)質(zhì)量規(guī)則,自動(dòng)熔斷,避免全鏈路數(shù)據(jù)污染;加強(qiáng)事前檢查,從源頭加強(qiáng)質(zhì)量控制;完善事后評(píng)估,為每一張表建立健康檔案,持續(xù)改進(jìn)。
關(guān)注數(shù)據(jù)安全: 冗余權(quán)限識(shí)別,消除授權(quán)風(fēng)險(xiǎn);數(shù)據(jù)分類分級(jí),風(fēng)險(xiǎn)定義與多策略控制,減少安全風(fēng)險(xiǎn)
重視成本優(yōu)化: 基于多種規(guī)則的與完備的治理元數(shù)倉,提供低門檻的治理產(chǎn)品能力,快速優(yōu)化存儲(chǔ)
提高員工幸福感: 在幫助業(yè)務(wù)完成數(shù)據(jù)治理的后,還需要考慮團(tuán)隊(duì)的負(fù)載壓力,報(bào)警治理,降低員工起夜率;歸因分析,快速排查修復(fù)故障。
在這里,再介紹字節(jié)特色的“0987”量化數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)。這四個(gè)數(shù)字分別指的是:穩(wěn)定性 SLA 核心指標(biāo)要達(dá)到 0 個(gè)事故,需求滿足率要達(dá)到 90%,數(shù)倉構(gòu)建覆蓋 80% 的分析需求,同時(shí)用戶滿意度達(dá)到 70%。按照這個(gè)高標(biāo)準(zhǔn)來要求自己,同時(shí)這也是一種自監(jiān)管的機(jī)制,能夠有效的防止自嗨,脫離業(yè)務(wù)需求和價(jià)值。
字節(jié)的部分場(chǎng)景實(shí)踐
下面通過兩個(gè)例子為大家介紹數(shù)據(jù)治理在字節(jié)的場(chǎng)景實(shí)踐。
案例一:
- 問題:字節(jié)跳動(dòng)內(nèi)部 2019 年到 2020 年間,雙月內(nèi)事故數(shù)量較多,對(duì)業(yè)務(wù)造成一定影響,且收斂困難,每天都有告警、起夜、對(duì)正常開發(fā)進(jìn)度造成影響。
- 解決方案:采用了分布式用戶自治的 SLA 治理,通過數(shù)據(jù)分級(jí)保障目標(biāo)管理,在各業(yè)務(wù)內(nèi)部進(jìn)行【拉齊鏈路-數(shù)據(jù)分級(jí)-廣泛共識(shí)-系統(tǒng)管理】的行動(dòng)閉環(huán),系統(tǒng)化保障目標(biāo)傳遞和落地。
- 效果:截止 2020 年中,事故以每雙月 30% 環(huán)比下降,在 1 年內(nèi)達(dá)到穩(wěn)定性問題徹底收斂。
案例二:
- 問題:抖音的實(shí)時(shí)數(shù)倉治理人員的精力分散,以被動(dòng)的運(yùn)動(dòng)式、“救火”式的工作模式為主。協(xié)同效率低,人力投入巨大,缺少可持續(xù)性。
- 解決方案:覆蓋質(zhì)量、成本、SLA、安全等治理方向,以業(yè)務(wù)評(píng)估體系,構(gòu)建治理方案進(jìn)行例行診斷,對(duì)存量問題進(jìn)行識(shí)別和派發(fā),形成一套【評(píng)估->識(shí)別->規(guī)劃->執(zhí)行->復(fù)盤】業(yè)務(wù)內(nèi)部分布式自治的治理機(jī)制。
- 效果:從 21 年至今,治理人員的精力徹底從”運(yùn)動(dòng)式“治理的模式中解放出來,更多精力會(huì)集中在監(jiān)督執(zhí)行與規(guī)則優(yōu)化中,團(tuán)隊(duì)起夜率降低 30%。質(zhì)量保障覆蓋率達(dá)到 100%。雙月存儲(chǔ)優(yōu)化均在 20+PB。
數(shù)據(jù)治理的發(fā)展與分布式
眾所周知,有很多機(jī)構(gòu)都分享了對(duì)數(shù)據(jù)治理的定義,這里簡(jiǎn)單分享一下
國際數(shù)據(jù)管理協(xié)會(huì)(DAMA):數(shù)據(jù)治理是對(duì)數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動(dòng)集合
IBM:數(shù)據(jù)治理是對(duì)企業(yè)中的數(shù)據(jù)可用性、相關(guān)性、 完整性和安全性的全面管理。它幫助組織管理 他們的信息知識(shí)和作為決策依據(jù)
維基百科對(duì)數(shù)據(jù)治理的定義:數(shù)據(jù)治理是一個(gè)涉及全體組織的數(shù)據(jù)管理概念,通過數(shù)據(jù)治理,確保在數(shù)據(jù)的整個(gè)生命周期中擁有高數(shù)據(jù)質(zhì)量的能力,也是對(duì)業(yè)務(wù)目標(biāo)的支持。數(shù)據(jù)治理的關(guān)鍵的重點(diǎn)領(lǐng)域包括可用性、一致性、數(shù)據(jù)完整性和數(shù)據(jù)安全性,也包括建立流程來確保整個(gè)企業(yè)實(shí)施有效數(shù)據(jù)管理。
在傳統(tǒng)的數(shù)據(jù)治理方法論與定義中,注意到他有以下共性特點(diǎn),同時(shí)也是現(xiàn)在大多數(shù)公司的實(shí)踐路徑,即:
但是在實(shí)際的執(zhí)行過程中,他需要以下幾個(gè)前提和隨之帶來的落地難點(diǎn)
- 需要明確組織制度
梳理業(yè)務(wù)數(shù)據(jù)部門,設(shè)立公司級(jí)別數(shù)據(jù)治理委員會(huì)/部門,各業(yè)務(wù)分設(shè)執(zhí)行部門,公司內(nèi)各業(yè)務(wù)宣導(dǎo)討論,統(tǒng)一制定公司數(shù)據(jù)治理規(guī)章制度
難點(diǎn)一:組織依賴重、建設(shè)周期長(zhǎng)。需要招聘大量專業(yè)的治理專家或引入外部咨詢機(jī)構(gòu),計(jì)劃制定周期長(zhǎng);專設(shè)部門牽頭,若無自頂向下的項(xiàng)目背景,業(yè)務(wù)協(xié)調(diào)對(duì)齊困難。
- 需要明確權(quán)責(zé)管理
梳理公司數(shù)據(jù)資產(chǎn),遷移、拆分、業(yè)務(wù)改造。確保資產(chǎn)歸屬與治理權(quán)責(zé)明確,定期梳理資產(chǎn)類目,維護(hù)資產(chǎn)元數(shù)據(jù)的有效性,確保治理邊界清晰
難點(diǎn)二:業(yè)務(wù)影響大,目標(biāo)對(duì)齊難。需完成存量的資產(chǎn)歸屬劃分、改造生產(chǎn)開發(fā)體系,對(duì)增量定期人力打標(biāo),確保資產(chǎn)歸屬與權(quán)責(zé)邊界清晰,因可能業(yè)務(wù)系統(tǒng)改造,會(huì)對(duì)業(yè)務(wù)發(fā)展造成影響。
- 需要進(jìn)行復(fù)盤抽查
管理組織定期檢查各業(yè)務(wù)治理過程是否符合公司治理制度,定期檢查各項(xiàng)治理結(jié)果是否落地,線下復(fù)盤與推動(dòng)不符合預(yù)期的治理過程
難點(diǎn)三:溝通成本高,執(zhí)行推動(dòng)難。如何制定適用于不同業(yè)務(wù)特點(diǎn)與發(fā)展階段的團(tuán)隊(duì)的治理評(píng)估體系,各團(tuán)隊(duì)是否認(rèn)可評(píng)估標(biāo)準(zhǔn)。
為了解決以上三個(gè)問題,我們有些新的思考,即引入「分布式」的理念。
Governance 一詞在根源上同 Government,1990 年代被經(jīng)濟(jì)學(xué)家和政治科學(xué)家重新創(chuàng)造,由聯(lián)合國、世界貨幣組織和世界銀行等機(jī)構(gòu)進(jìn)行傳播。其核心有以下兩種論述:
第一個(gè)論述:標(biāo)準(zhǔn)與規(guī)范。指的是一定范圍內(nèi)的一致的管理,統(tǒng)一的政策,某一責(zé)任區(qū)指導(dǎo)以及合適的監(jiān)管和可問責(zé)機(jī)制。這種行政力的集中化管理存在一些問題,比如決策成本高,人力投入高、落地阻力大,精力消耗大。
第二個(gè)論述:過程與結(jié)果。指的是只要關(guān)注結(jié)果和產(chǎn)出以及業(yè)務(wù)內(nèi)部實(shí)踐,通過分布式協(xié)作讓業(yè)務(wù)的治理結(jié)果、業(yè)務(wù)痛點(diǎn)和治理方式及手段在內(nèi)部閉環(huán),而不是由中臺(tái)層面統(tǒng)一推動(dòng)。
我們嘗試從第二種論述,即重視過程落地和治理結(jié)果產(chǎn)出的出發(fā),更快的落地產(chǎn)品,落地?cái)?shù)據(jù)治理的產(chǎn)品解決方案
從集中式到分布式
基于分布式的數(shù)據(jù)自治的理念,我們來解決在落地執(zhí)行上的兩個(gè)最困難的點(diǎn)
一、組織制度分布式: 嘗試將組織的強(qiáng)管理屬性轉(zhuǎn)換到監(jiān)督屬性,治理單元與制度設(shè)計(jì)回歸到業(yè)務(wù)單元。好處是,不強(qiáng)依賴橫向中心化組織,業(yè)務(wù)治理痛點(diǎn)閉環(huán)在業(yè)務(wù)單元,且業(yè)務(wù)基于自身發(fā)展階段制定治理目標(biāo),ROI 論證回歸業(yè)務(wù)。
二、權(quán)責(zé)驗(yàn)收分布式: 基于產(chǎn)品體系與落地解決方案,支持業(yè)務(wù)按需自驅(qū),市場(chǎng)化執(zhí)行,平臺(tái)輔助與按需驗(yàn)收。好處是,無須長(zhǎng)周期的資產(chǎn)類目梳理,業(yè)務(wù)系統(tǒng)改造,權(quán)責(zé)均由業(yè)務(wù)區(qū)分,基于業(yè)務(wù)單元與多維視角,按需驗(yàn)收治理結(jié)果,業(yè)務(wù)單元內(nèi)對(duì)齊。
如上圖展示的餅圖,對(duì)于一個(gè)公司的數(shù)據(jù)資產(chǎn),傳統(tǒng)來說,可以很清晰地按照業(yè)務(wù)邊界來劃分清楚。對(duì)于分布式數(shù)據(jù)治理,我們通常是由業(yè)務(wù)單元自行認(rèn)領(lǐng),業(yè)務(wù)單元 A 自行認(rèn)領(lǐng)屬于自己部分,業(yè)務(wù)單 B 也自行認(rèn)領(lǐng)屬于自己部分。認(rèn)領(lǐng)就意味著,所有治理的動(dòng)作包括結(jié)果,安全性、成本、質(zhì)量、穩(wěn)定都由認(rèn)領(lǐng)業(yè)務(wù)單元負(fù)責(zé)。
當(dāng)然,這樣這樣也可能存在兩個(gè)問題,不過在分布式的理念中能夠得到較好解決。
第一是認(rèn)領(lǐng)范圍重合:這種情況往往讓業(yè)務(wù)在線下對(duì)齊是否需要去做改造和劃分,各自拿到自身需要的治理結(jié)果,短期無須重人力投入,不追求絕對(duì)的邊界劃分。長(zhǎng)期因不同治理驗(yàn)收需求或團(tuán)隊(duì)管理需求,自行進(jìn)行資產(chǎn)歸集和整理。達(dá)到動(dòng)態(tài)的平衡狀態(tài)。
第二是無人認(rèn)領(lǐng):針對(duì)長(zhǎng)期無人認(rèn)領(lǐng)的資產(chǎn),我們可以基于每個(gè)業(yè)務(wù)的歷史的規(guī)則和能力,形成一個(gè)治理的平均線,再從平臺(tái)層面推動(dòng)無人認(rèn)領(lǐng)的資產(chǎn)治理,由于無人認(rèn)領(lǐng),這樣的資產(chǎn)推動(dòng)起來相對(duì)較快。
我們理解的分布式治理
定義:以業(yè)務(wù)單元為數(shù)據(jù)治理閉環(huán)單元,通過完善的產(chǎn)品工具,將管理視角轉(zhuǎn)化為監(jiān)督視角,解決數(shù)據(jù)治理落地痛點(diǎn);各業(yè)務(wù)團(tuán)隊(duì)分布式自運(yùn)行,整體上達(dá)到全局最優(yōu),從形態(tài)上,適配更多業(yè)務(wù)特性和發(fā)展階段,從效果上,強(qiáng)推進(jìn)重落實(shí)與結(jié)果。
字節(jié)跳動(dòng)通常以業(yè)務(wù)單元作為一個(gè)數(shù)據(jù)治理閉環(huán),即在業(yè)務(wù)單元內(nèi)部完成數(shù)據(jù)穩(wěn)定性、質(zhì)量、存儲(chǔ)、計(jì)算等治理。同時(shí)每個(gè)業(yè)務(wù)單元不是孤立的,也有相互協(xié)作,比如 A 業(yè)務(wù)單元的數(shù)據(jù)治理經(jīng)驗(yàn)可以沉淀為治理模板,供后續(xù)其他業(yè)務(wù)使用。
這樣的分布式治理方式,有以下一些優(yōu)勢(shì):
- 影響小,依賴小。治理下放到各個(gè)業(yè)務(wù)中,各級(jí)業(yè)務(wù)乃至個(gè)人都能自驅(qū)治理,業(yè)務(wù)根據(jù)自身發(fā)展階段靈活組合治理工具,無須對(duì)組織強(qiáng)依賴。
- 周期短,見效快。業(yè)務(wù)自驅(qū)梳理核心數(shù)據(jù)及鏈路,跨團(tuán)隊(duì)對(duì)齊線上化、協(xié)議簽署、過程追蹤。治理周期顯著縮短,很快就出成效,增強(qiáng)團(tuán)隊(duì)信心。
- 效率高,省人力。SLA 治理提高跨團(tuán)隊(duì)協(xié)作效率,聚焦核心數(shù)據(jù)任務(wù)集中資源保障,集中精力,報(bào)警歸因減少起夜,幫助企業(yè)節(jié)省年度人力消耗。
- 算清帳,降成本。各業(yè)務(wù)口徑的存儲(chǔ)計(jì)算資源消耗、核算成本,制定降本目標(biāo)并追蹤落地;業(yè)務(wù)經(jīng)驗(yàn)規(guī)則化、策略化、自動(dòng)化、自驅(qū)化持續(xù)降本增效。
分布式自治架構(gòu)
為達(dá)成業(yè)務(wù)分布式自治,產(chǎn)品需要對(duì)用戶行為路徑完全覆蓋,對(duì)業(yè)務(wù)經(jīng)驗(yàn)完全接受。平臺(tái)提供完善的開放能力,協(xié)助業(yè)務(wù)進(jìn)一步提效。
產(chǎn)品體系
以上關(guān)于分布式的理解,下面將介紹字節(jié)分布式自治的產(chǎn)品體系。
從治理門戶來看,包括治理全景、工作臺(tái)、規(guī)劃、診斷、復(fù)盤等全流程治理環(huán)節(jié)。在治理場(chǎng)景中,提供數(shù)據(jù)質(zhì)量安全、資源優(yōu)化、報(bào)警、企業(yè)復(fù)盤管理等一系列垂直場(chǎng)景。在底層,包含數(shù)據(jù)全生命周期流程,從數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)共享到數(shù)據(jù)銷毀。
治理雙路徑
為了把用戶所有治理經(jīng)驗(yàn)沉淀為平臺(tái)能力,我們抽象了 2 種治理路徑。
- 第一種是規(guī)劃式路徑。這是一個(gè)比較常見的規(guī)劃式路徑,即從看板和報(bào)表出發(fā),自上而下做規(guī)劃。比如看板已經(jīng)反映出成本增加、延時(shí)變長(zhǎng)或者數(shù)據(jù)質(zhì)量變差,團(tuán)隊(duì)管理者發(fā)起報(bào)告或事故,推動(dòng)業(yè)務(wù)單元同事進(jìn)行數(shù)據(jù)治理,最后進(jìn)行復(fù)盤。
- 第二種是響應(yīng)式。比如生產(chǎn)者收到一個(gè)數(shù)據(jù)質(zhì)量或延時(shí)的報(bào)警,隨后快速定位原因并做改進(jìn)計(jì)劃。
為了更好把業(yè)務(wù)經(jīng)驗(yàn)全部線上化,我們通常雙路徑并行使用。
規(guī)劃式治理路徑案例
首先看通用模塊資產(chǎn)視圖,包括資產(chǎn)增量情況評(píng)估等,以及業(yè)務(wù)對(duì)于資產(chǎn)的評(píng)價(jià),如健康分體系。我們通常根據(jù)資產(chǎn)情況去制定目標(biāo)。如果發(fā)現(xiàn)問題之后,業(yè)務(wù)驅(qū)動(dòng)制定目標(biāo),可能是降低存儲(chǔ)。同時(shí)需要去應(yīng)用一些業(yè)務(wù)規(guī)則,比如團(tuán)隊(duì)內(nèi)部認(rèn)為 TTL (數(shù)據(jù)生命周期)很重要,需要幫助識(shí)別出來的同時(shí)也需要設(shè)定一個(gè)診斷周期。在團(tuán)隊(duì)方案確認(rèn)完之后,產(chǎn)品會(huì)做監(jiān)督,包括定義提醒,同時(shí)也推動(dòng)資產(chǎn) owner 完成總結(jié)。
響應(yīng)式治理路徑案例
例如,我們發(fā)現(xiàn)一些任務(wù)在深夜執(zhí)行失敗了,需要先做問題排查,發(fā)現(xiàn)問題是 HDFS 丟塊導(dǎo)致。在傳統(tǒng)情況下,解決方案是去檢查 API 問題,再去拉相關(guān)人員,可能 2- 3 小時(shí)才能完成,最后配合監(jiān)控并收歸到 wiki 中。而在 DataLeap 數(shù)據(jù)治理產(chǎn)品里,可以直接實(shí)現(xiàn)歸因打標(biāo)等能力,最后快速復(fù)盤。
治理全規(guī)則
如果要覆蓋業(yè)務(wù)的全部屬性,治理平臺(tái)需要形成有效且全面的規(guī)則模板。目前,我們的規(guī)則模板包含兩個(gè)部分:
第一是 規(guī)則引擎 ,具體包括業(yè)務(wù)輸入、平臺(tái)輸入、推薦輸入。
- 業(yè)務(wù)輸入:主要依據(jù)業(yè)務(wù)團(tuán)隊(duì)的治理經(jīng)驗(yàn)以及行業(yè)經(jīng)驗(yàn)。
- 平臺(tái)輸入:平臺(tái)會(huì)提供一些基礎(chǔ)能力,如存儲(chǔ)、計(jì)算、質(zhì)量、報(bào)警等幾個(gè)維度。截至目前已經(jīng)提供了 80 多個(gè)規(guī)則。
- 推薦輸入:基于業(yè)務(wù)輸入和平臺(tái)輸入,去做分析和挖掘,發(fā)現(xiàn)哪些規(guī)則用得多、哪些規(guī)則閾值更合理。
第二是治理數(shù)倉 ,具體包括行為數(shù)據(jù)、治理操作、效果數(shù)據(jù)。
- 行為數(shù)據(jù):包括用戶規(guī)則配置等內(nèi)容是否有重復(fù)以及帶元素標(biāo)簽的資產(chǎn)數(shù)據(jù)等。
- 治理操作:包括生命周期、任務(wù)關(guān)閉、數(shù)據(jù)刪除、SLA 簽署等。
- 效果數(shù)據(jù):包括操作收益、資產(chǎn)收益、指標(biāo)收益等。
不同業(yè)務(wù)快速靈活接入治理規(guī)則
分布式自治基礎(chǔ)是要構(gòu)建治理生態(tài)、建設(shè)開放平臺(tái),讓不同業(yè)務(wù)能夠快速、靈活接入。
為了讓業(yè)務(wù)能快速介入,我們把數(shù)據(jù)分成了四種類型:表達(dá)式、三方元數(shù)據(jù)、標(biāo)準(zhǔn)元數(shù)據(jù)、算法包。針對(duì)不同的業(yè)務(wù),根據(jù)當(dāng)前的經(jīng)驗(yàn)和能力,我們會(huì)提供不同的接入方式,讓業(yè)務(wù)去更好把規(guī)則和能力去接入到我們的平臺(tái)。
基于業(yè)務(wù)單元進(jìn)行智能化提效
在獲取不同業(yè)務(wù)的規(guī)則和能力之后,我們需要再做平臺(tái)能力沉淀,把好的規(guī)則和能力復(fù)用給更多業(yè)務(wù)。
Case 1:任務(wù) SLA 簽署推薦。基于運(yùn)營(yíng)時(shí)間做權(quán)重分配,保證下游任務(wù)運(yùn)行完成,同時(shí)也會(huì)進(jìn)行關(guān)鍵鏈路分析。這個(gè)規(guī)則目前在字節(jié)內(nèi)部廣泛使用。
Case 2:動(dòng)態(tài)閾值監(jiān)控。這是基于業(yè)務(wù)在報(bào)警閾值上的實(shí)踐提取的規(guī)則。
Case 3:相似任務(wù)識(shí)別。通過序列化和向量化操作,去和底層 spark 引擎做配合。在業(yè)務(wù)內(nèi)部應(yīng)用覆蓋 99%,且優(yōu)化任務(wù)都千級(jí)以上,由此接入平臺(tái)并推薦給其他業(yè)務(wù)。
分布式自治核心能力
治理全景 - 分布式驗(yàn)收
在分布式驗(yàn)收中,會(huì)區(qū)分為全員視角、團(tuán)隊(duì)視角和個(gè)人視角。全員視角可以看到公司級(jí)資產(chǎn),包括整體的健康分體系以及核心指標(biāo)。團(tuán)隊(duì)視角中,主要由業(yè)務(wù)自己梳理,包括內(nèi)部的評(píng)價(jià)體系。
治理工作臺(tái) - 集中治理待辦
上圖為個(gè)人工作臺(tái)功能,主要為了把 SLA 保障、計(jì)算任務(wù)、數(shù)據(jù)存儲(chǔ)等治理場(chǎng)景展示在一個(gè)頁面,方便 owner 業(yè)務(wù)全局查看治理待辦事項(xiàng)。
治理規(guī)劃與診斷 - 權(quán)責(zé)與規(guī)劃分布式
第一,支持自定義治理域,靈活自治,提供多種維度,自定義組合和圈選資產(chǎn)范圍。
第二,支持創(chuàng)建治理方案,例行診斷:發(fā)起人基于業(yè)務(wù)需求,選擇治理域,設(shè)計(jì)治理規(guī)則,發(fā)起存儲(chǔ)/計(jì)算/質(zhì)量等類型治理方案。例行診斷與推進(jìn)實(shí)施。
第三,支持規(guī)則管理,提供 80+ 治理基礎(chǔ)規(guī)則,支持自定義組合和配置規(guī)則與分享。
復(fù)盤管理
復(fù)盤管理是一個(gè)通用模塊。業(yè)務(wù)根據(jù)自身需要去識(shí)別任務(wù)是否需要復(fù)盤,或者僅僅做問題登記。除此之外,業(yè)務(wù)還可以用復(fù)盤管理能力做內(nèi)部管理,比如查看、檢索所有的事故復(fù)盤,查看每個(gè)事故發(fā)生的原因和改進(jìn)計(jì)劃。同時(shí),也可了解歸因分布情況,并幫助下一個(gè)值班同學(xué)快速反饋和定位問題。
SLA 治理
在字節(jié)跳動(dòng)內(nèi)部,SLA 不是平臺(tái)級(jí)保障,而是源于業(yè)務(wù)團(tuán)隊(duì)內(nèi)部。首先是業(yè)務(wù)按需申報(bào),可能是 PM、運(yùn)營(yíng)或數(shù)據(jù)研發(fā)等任何角色,認(rèn)為自身任務(wù)重要,填寫背景、原因、等級(jí)、時(shí)間等信息之后,即可發(fā)起一個(gè) SLA。發(fā)起之后,在團(tuán)隊(duì)內(nèi)部進(jìn)行審核,可能存在同一個(gè)團(tuán)隊(duì)多個(gè)高優(yōu)任務(wù)的情況,這由團(tuán)隊(duì)內(nèi)部自行調(diào)整優(yōu)先級(jí)。同時(shí),這個(gè)也是跨團(tuán)隊(duì)判斷該任務(wù)重要性的標(biāo)準(zhǔn)。
之后是完成簽署,簽署也會(huì)在產(chǎn)品里面體現(xiàn)出來。每個(gè)節(jié)點(diǎn)時(shí)間都有實(shí)時(shí)監(jiān)控,如果產(chǎn)生了延遲,會(huì)推動(dòng)業(yè)務(wù)做復(fù)盤和登記。我們也提供基礎(chǔ)的 DAG,包括申報(bào)業(yè)務(wù)單的查看,同時(shí)也可以讓大家去查看每個(gè)等級(jí)的破線情況,以及團(tuán)隊(duì)對(duì)業(yè)務(wù)的服務(wù)情況。
數(shù)據(jù)安全
在數(shù)據(jù)安全層面,主要專注于清理冗余權(quán)限,完善分類分級(jí)。不同團(tuán)隊(duì)對(duì)冗余權(quán)限定義不同,有的 90 天無訪問算冗余權(quán)限,有的 70 天,有的 7 天。因此我們提供自定義能力,由業(yè)務(wù)內(nèi)部發(fā)起 review,完成冗余權(quán)限的識(shí)別和定義規(guī)則,識(shí)別之后復(fù)用診斷能力。
資源優(yōu)化
基于每個(gè)團(tuán)隊(duì)實(shí)際執(zhí)行情況,提煉出一些通用的規(guī)則。例如,某些規(guī)則可能有幾十個(gè)業(yè)務(wù)在使用,近 90% 認(rèn)為近 30 天無查詢需要被識(shí)別出來,我們就會(huì)在平臺(tái)中提供這類能力,方便新業(yè)務(wù)或者小白業(yè)務(wù)去使用。
報(bào)警歸因
在報(bào)警歸因方面,我們能提供所有報(bào)警明細(xì),方便查看是否有重復(fù)規(guī)則,是否有高頻報(bào)警規(guī)則,幫助用戶發(fā)現(xiàn)無效報(bào)警和重復(fù)規(guī)則,降低告警量和跟起夜率。除此之外,我們也提供業(yè)務(wù)內(nèi)部的歸因登記和分析能力。