那些與健康運營密切相關(guān)的衡量標準

作者：陳峻譯 2020-09-02 07:00:00

本文將和您討論在健康運營的過程中，企業(yè)所面臨的挑戰(zhàn)、痛點、以及需要衡量的各項關(guān)鍵指標。在此基礎(chǔ)上，我們會進一步給出一個標準成熟度模型，以及對應的實踐案例。

【51CTO.com快譯】最近，我們通過針對一些企業(yè)內(nèi)各個運營團隊與工程師開展了一項調(diào)查。我們發(fā)現(xiàn)：大約有70%的受訪者會使用MTTA(Mean Time To Answer，平均應答時間)和MTTR(Mean time to Repair，平均響應時間)作為主要運營能力的指標之一;而20%的受訪者關(guān)注的是計劃內(nèi)與計劃外的工作占比;還有10%的受訪者則表示他們并無既定的衡量標準。當然，在實際運營過程中，光靠MTTA和MTTR是遠遠不夠的。隨著系統(tǒng)復雜性的增加，我們需要對各項服務(wù)的運行狀況獲取更加充分的了解。

下面，我們將和您在健康運營的過程中，企業(yè)所面臨的各項挑戰(zhàn)、痛點、以及需要衡量的各項關(guān)鍵指標。在此基礎(chǔ)上，我們會進一步給出一個標準成熟度模型，以及對應的實踐案例。

根據(jù)痛點，創(chuàng)建實用標準

在運營時，為了避免陷入海量卻有無用的信息陷阱中，我們需要事先設(shè)計好準確的儀表板和監(jiān)控指標。以下便是運營與基礎(chǔ)架構(gòu)團隊經(jīng)常遇到各種痛點和挑戰(zhàn)。

數(shù)據(jù)不足：我們的APM(應用平臺管理)、派單、運營聊天工具等平臺，都會分散地產(chǎn)生不同類型的數(shù)據(jù)。同時，由于不同團隊各司其職、各自為政，因此數(shù)據(jù)孤島的現(xiàn)象在企業(yè)中屢見不鮮。
缺乏反饋：各種發(fā)生過或正在發(fā)生的事件，無法相互聯(lián)系與關(guān)聯(lián)，無法反饋給后續(xù)的行動。運營團隊疲于應付各種計劃外的事故。
標準缺失：傳統(tǒng)的APM和分析工具雖然功能強大，但是由于缺乏針對目標系統(tǒng)所制定的具體標準與規(guī)范，因此運營團隊難以使用這些工具，達到預期的效果。
千篇一律：有時候，某些數(shù)據(jù)能夠?qū)σ粋€團隊非常實用，并不一定對另一個團隊也有用。因此，我們需要在不同的場景中監(jiān)控不同的數(shù)據(jù)指標，不可千篇一律。

那么基于上述痛點，我們該制定哪些關(guān)鍵性運營標準呢?

健康運營的關(guān)鍵指標

顯然對于由系統(tǒng)產(chǎn)生的紛繁復雜的各類數(shù)據(jù)，我們并非只是為了監(jiān)控而進行獲取。我們需要確保在充分了解其所處上下文環(huán)境的基礎(chǔ)上，合理進行選擇，按需進行調(diào)整，以提高運營團隊的能力與效率。如下是各個企業(yè)，特別是落地了DevOps的企業(yè)最常用的一些監(jiān)控指標，您可以根據(jù)實際情況酌情進行選擇：

速度
- 它是最常用、最普遍且值得監(jiān)控和衡量的指標之一。
- 對應的KPI包括：沖刺能力的規(guī)劃，以及團隊將新功能推入生產(chǎn)環(huán)境的速度。
可用性
- 系統(tǒng)在給定時間內(nèi)正常運行的占比。
- 對應的KPI包括：了解本系統(tǒng)和團隊能夠從事故或中斷中恢復正常的能力。
工程時間
- 由于系統(tǒng)的不穩(wěn)定性，導致團隊運營效率低下的耗時。
- 對應的KPI包括：減少擁塞，提高自動化。
產(chǎn)品質(zhì)量和客戶滿意度
- 了解客戶的滿意水平。
- 對應的KPI包括：了解用戶的關(guān)鍵服務(wù)水平目標(Service Level Object，SLO)狀態(tài)，反應式事件響應(reactive incident response)等。

值得注意的是，如果單獨地去考量上述指標中的某一項，我們可能會被誤導。例如，表面上看，那些部署能力高的團隊似乎會比部署效率低下的團隊更成功。但是，如果效率高的團隊自身反而失敗率或錯誤率也高的話，那就不能簡單地將其認定為成功了。因此，我們需要花一些時間，弄清楚與每項指標相關(guān)的上下文環(huán)境。進而在此基礎(chǔ)上，為每個團隊或組織建立不同的標準成熟度模型級別。

標準成熟度模型

我們可以通過如下成熟度模型，來描述從脆弱到該領(lǐng)域的領(lǐng)導者，這種不斷成長和提升的變化過程。下面是每個檔次的不同關(guān)鍵特征：

脆弱(Fragile)：目前，大多數(shù)企業(yè)和團隊都處于該成熟度層次上，他們雖然在運營中有一定的響應能力，但是也時常倍感壓力。在這個脫離了上下文環(huán)境的階段中，團隊主要著眼于事件數(shù)量、或派單數(shù)量。例如：在單位時間內(nèi)產(chǎn)生的50個事件，看似比40個事件的絕對數(shù)量要大。但是，如果團隊對于那50個事件中的絕大多數(shù)都能夠擁有預案，而且可以快速解決，那么這50個事件實際所造成的影響其實并不大。此外，由于沒有明確的參考與分級標準，團隊可能會將大多數(shù)事件都界定為高嚴重等級，進而動輒耗費大量的人力、物力、乃至于時間去處理。
統(tǒng)一(Unified)：在該級別上，團隊可能會按照類型和既定的標簽對事件進行分類，從而有的放矢地對各類事件予以處置。同時，隨著那些突發(fā)事件的可見度增加，團隊既能夠不斷地改進既有的事件分類和處置能力，又能夠集中精力去解決那些計劃外的嚴重事故(通常占比為30-50%)。
優(yōu)勢(Advantage)：處于該成熟度級別的團隊，擁有更高級的SLO和相關(guān)指標，能夠前攝性地預防各類事故所帶來的影響。為了權(quán)衡數(shù)據(jù)驅(qū)動所要求的服務(wù)質(zhì)量，他們需要讓系統(tǒng)平穩(wěn)地提供各項功能的同時，確保整體的可靠性。其中，更加成熟的團隊還能夠通過更小、更頻繁的變更，更好地定位和限制事故的影響半徑，進而讓那些計劃外的處理工作的占比少于30%。
領(lǐng)導者(Leader)：目前，只有不到1%的企業(yè)能夠達到這種成熟度水平。其特點在于擁有各項高級實踐，例如：通過適當?shù)姆?wù)降級、或自身容錯功能，以應對那些大規(guī)模的意外事件所造成的影響。因此，他們能夠?qū)⒅饕Ｗ⒂诮鉀Q那些占比少于20%計劃外的嚴重事故上。

可見，領(lǐng)導者級別是無法一蹴而就的，運營團隊需要從目標系統(tǒng)的細微處入手，循序漸進地建立恰當?shù)谋O(jiān)控與處置標準。下面，我們來共同研究一個典型案例。

案例研究

2019年初，一家全球性電商公司的運營團隊開始從那些最基礎(chǔ)的關(guān)鍵性指標入手，其中包括：花費在事件處理上的時間，事件嚴重性級別的劃分，以及區(qū)分何為計劃內(nèi)的工作(即功能性的)、何為計劃外的工作(如：事件與錯誤)等。

通過半年的時間，他們建立了堅實的基準性指標，并從中了解到各項指標數(shù)據(jù)的發(fā)展趨勢和改進機會。據(jù)此，他們發(fā)現(xiàn)：整個團隊總工程時間的45%被花費在了計劃外的工作上，這相當于每月額外消耗了20萬美元。其中，主要事件都集中在產(chǎn)品頁面上的各個處理流程中，包括：頁面加載時間和故障排查時間等。

有了這些數(shù)據(jù)，他們開始進行深入分類，以分析出到底是什么導致了用戶訂單流程出現(xiàn)了問題。通過進一步的調(diào)查，他們認定這些錯誤與某個第三者反欺詐服務(wù)，以及支付商的數(shù)據(jù)庫標簽和API有關(guān)。

2020年第一季度，該運營團隊進行了如下重點改進：

重寫了數(shù)據(jù)庫的查詢和索引，以提高數(shù)據(jù)質(zhì)量和系統(tǒng)性能。
改進了API的連接處理和錯誤處理方式。
替換了其中的一個反欺詐服務(wù)提供商。
修改了CDN的提供程序，以提高動態(tài)對象的加載速度，并增加靜態(tài)對象的TTL。

在2020年第一季度之后，團隊再次進行了評估與衡量。他們發(fā)現(xiàn)：在用戶使用流程(如：產(chǎn)品頁面和支付結(jié)算流程)上的事件數(shù)量減少了76%;在計劃外事故上花費的總工程時間占比下降了40%。盡管這并非他們健康運營的終點，但的確是一個很好的開端。

原標題：Here Are the Metrics you Need to Understand Operational Health，作者: Hannah Culver

【51CTO譯稿，合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責任編輯：龐桂玉來源： 51CTO

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

那些與健康運營密切相關(guān)的衡量標準