聽云APM:新經(jīng)濟環(huán)境下的精益化應(yīng)用管理
2017年3月23日,第八屆中國金融云高峰論壇在上海盛大召開,來自國內(nèi)外政府機構(gòu)、行業(yè)協(xié)會、金融銀行的***信息官、數(shù)據(jù)中心經(jīng)理、軟件開發(fā)主任等齊聚一堂,針對銀行業(yè)新核心系統(tǒng)開發(fā)、中小銀行如何把握金融創(chuàng)新、大數(shù)據(jù)技術(shù)在銀行數(shù)據(jù)中心的建設(shè)等多個熱點話題展開討論,聽云華東技術(shù)總監(jiān)王凡就傳統(tǒng)金融的互聯(lián)網(wǎng)轉(zhuǎn)型在會場與現(xiàn)場觀眾進行了相關(guān)分享。
以下為演講內(nèi)容:
一、2017年金融市場的三大熱詞
非常高興有機會能夠和大家一起探討一下在新經(jīng)濟形勢下精益化的應(yīng)用性能管理。
2017年經(jīng)濟將會有些變動,前段時間剛好兩會召開,我上網(wǎng)搜了幾個熱詞可能和我們有點關(guān)系。一個是普惠金融,普惠金融其實喊了很多年,這是國家對金融行業(yè)的一個要求,要求金融行業(yè)做更多的業(yè)務(wù),提升服務(wù)的有效性和加大對中低端用戶的覆蓋面,這是一個很好的要求,但是這個要求的問題是傳統(tǒng)銀行是否能適應(yīng)這種變化。對傳統(tǒng)金融來說,在這方面做的是不足的,甚至已經(jīng)被很多互聯(lián)網(wǎng)金融公司滲透并搶走了很多用戶。
另一塊是互聯(lián)網(wǎng)+,“互聯(lián)網(wǎng)+”是在新經(jīng)濟環(huán)境下對傳統(tǒng)金融提出的一個新的要求,不是說傳統(tǒng)金融主動想做“互聯(lián)網(wǎng)+”,而是當前的經(jīng)濟條件要求必須做“互聯(lián)網(wǎng)+”。那在這種情況下,就會發(fā)現(xiàn)傳統(tǒng)金融在這方面沒有積累。其實都能看到大多數(shù)的傳統(tǒng)金融還是基于很陳舊的思維方式在做,雖然也有嘗試在做互聯(lián)網(wǎng)、做一些拓展,但是實際的效果并不好。
還有一塊是情景式商務(wù),情景式商務(wù)是這兩年比較火的話題之一。大家都在說傳統(tǒng)金融業(yè)要提供更好的服務(wù)體驗,讓客戶能夠得到一些更好的服務(wù)價值,提升服務(wù)黏性,讓他成為忠實客戶。那么在這種服務(wù)優(yōu)化的過程中有一個問題,就是一款應(yīng)用,這個應(yīng)用怎么才能讓客戶感受到好的服務(wù)體驗,這就是要考慮的內(nèi)容。那么怎么來提供更好的服務(wù)呢,這就要看一下大環(huán)境。
二、面臨金融蛋糕的切分,不要坐在金山上要飯
我們發(fā)現(xiàn),在很多情況下傳統(tǒng)金融留下來的意義就是信貸這一方面了,包括一些個人理財,但是這一方面也被現(xiàn)在很多的中小型互聯(lián)網(wǎng)金融公司沖擊的比較厲害,那么如何適應(yīng)這樣的變化就需要去想辦法,否則的話就會像上圖寫的,在金山上要飯。這個標題是從哪來的呢,這句話是我看了埃森哲對中國金融的一個評估報告,報告里面有這么一句話讓我印象很深刻。的確是,我們擁有這么大的體量,有這么好的一個基礎(chǔ),為什么不能把業(yè)務(wù)做得更好。
那金融的業(yè)務(wù)到底是什么樣子?普惠金融、“互聯(lián)網(wǎng)+”,這些已經(jīng)在金融行業(yè)提了很多年了,但是需要看實際業(yè)務(wù)。
三、為什么要做精益化應(yīng)用管理?傳統(tǒng)金融遇到的問題
現(xiàn)在從大環(huán)境來說,未來所有金融的競爭不會再去說有多少個柜員機,多少個分析機構(gòu),可能更多的是存在于客戶端的競爭。因為現(xiàn)在的用戶已經(jīng)越來越習慣于通過手機來做理財、轉(zhuǎn)賬等各種各樣的業(yè)務(wù)。那這種用戶在客戶端使用業(yè)務(wù)的體驗就直接決定金融機構(gòu)的服務(wù)質(zhì)量是否能滿足業(yè)務(wù)的需要。那么從目前看到的數(shù)據(jù)來說的話,大多數(shù)的銀行所提供的這些服務(wù)終端的用戶體驗都是不太好的,原因就在于對于整個“互聯(lián)網(wǎng)+”這種新的挑戰(zhàn)還不夠適應(yīng)。
但是做銀行、做金融運維保障是做的時間最長的,銀行有很大的團隊,有很長時間的數(shù)據(jù)積累,但是為什么在這塊對于新形式的變化反而更不上了呢?
這其中有很大的原因是,過去在傳統(tǒng)運維、傳統(tǒng)應(yīng)用管理過程中,銀行更多管理的是自己的后臺數(shù)據(jù)中心內(nèi)部的系統(tǒng),看的是服務(wù)器、網(wǎng)絡(luò)、存儲等,保障每一個服務(wù)器、網(wǎng)絡(luò)、存儲的可用性都是4個9或5個9;但從用戶而言的話,并沒有看到用戶的體驗,沒有看到應(yīng)用的真實服務(wù)價值,所以在對后臺的保障很***的時候照樣會存在困難。所以發(fā)現(xiàn)一個問題,從過去傳統(tǒng)銀行已有的監(jiān)控工具來看,只能發(fā)現(xiàn)大概30%的問題,剩下的很多問題發(fā)現(xiàn)不到。
四、傳統(tǒng)管理工具的能力是有限的
這就需要一些手段能夠把沒有覆蓋到的,比如說對于交易的管理、應(yīng)用的管理、用戶體驗的管理。那在這些都覆蓋到之后就能看得到用戶在真正使用銀行的業(yè)務(wù)的時候,從登陸開始,到查詢、轉(zhuǎn)賬、支付整個一個過程,如果發(fā)現(xiàn)過程中有一個環(huán)節(jié)出現(xiàn)了問題,比如說支付過程中支付不了,那首先這個問題是由什么引起的,如果能快速定位這個問題,從而進行快速的修復(fù)。這樣就能對應(yīng)用做到真正的精益化管理。
聽云在國內(nèi)精益化管理領(lǐng)域做了11年,在為客戶服務(wù)的過程中,聽云也在不斷地溝通、不斷地學(xué)習,我們發(fā)現(xiàn)在真正做管理層的,不是簡單的說這是一個運維的事情、或這是一個開發(fā)的事情,因為這是整個IT部門的事情,它會涉及到我們多個部門之間的合作和聯(lián)動,所以現(xiàn)在需要“三個中心聯(lián)動”的方式來做這種精益化的管理。
四、建設(shè)“三個中心聯(lián)動”的精益化應(yīng)用管理
1、決策管理中心
需要它對現(xiàn)實中的所有應(yīng)用來做一個考核,這個考核一般情況下國有銀行做得比較多的是兩類考核。一類考核叫對標,或者是競品分析,可以看到我們所提供的這個業(yè)務(wù)和其他的對標公司在服務(wù)質(zhì)量、可用性、關(guān)聯(lián)性是不是滿足要求的;另一類是對于自身的對標,比如說今年做了十個業(yè)務(wù),那么每個業(yè)務(wù)的質(zhì)量到底如何。過去的時候會是通過好、壞、快、慢來進行評估,現(xiàn)在會對它做一個確實的考評。按照國內(nèi)標準做法來說的話,就是會從整個對用戶的體驗、服務(wù)質(zhì)量等等之中來選擇幾個指標來作為KPI考核的指標,來看這些應(yīng)用內(nèi)哪些應(yīng)用是9分以上,哪些是6分以下,那么可以根據(jù)業(yè)務(wù)規(guī)劃來淘汰不好的應(yīng)用,從而為我們整個決策來提供更科學(xué)的規(guī)劃支持。
2、開發(fā)策略中心
它做的更多的是從用戶角度來保障應(yīng)用的質(zhì)量。過去的話銀行對質(zhì)量的要求是比較高的,可以看到國內(nèi)最早做壓力測試等都是從銀行開始做起的,但是更多的時候還是在基于銀行內(nèi)部網(wǎng)絡(luò)、內(nèi)部環(huán)境來做,很難看到真實用戶在使用過程中出現(xiàn)的問題。比如說現(xiàn)在開發(fā)業(yè)務(wù)開發(fā)好了,內(nèi)測結(jié)果也不錯,但是生產(chǎn)環(huán)境是很復(fù)雜的,有不同地區(qū)的用戶,有通過不同運營商網(wǎng)絡(luò)通道來訪問的用戶,終端的種類也比較多。那么怎么能保證每一位客戶都能滿足需要呢,這就是需要考慮的東西。但是銀行又沒有手段去查看真實用戶在使用應(yīng)用過程中所出現(xiàn)的問題。現(xiàn)在一般來說,在開發(fā)測試過程中,會增加一部分對于應(yīng)用質(zhì)量的評估,這種評估是基于真實的用戶網(wǎng)絡(luò)、真實的用戶行為來看當前應(yīng)用的狀態(tài)是否正常,只有它滿足要求的時候才會滿足這個應(yīng)用上線,從而保證應(yīng)用的服務(wù)質(zhì)量。
3、運維中心
就是在傳統(tǒng)運維的基礎(chǔ)上,提升對交互、用戶、對應(yīng)用的一個性能管理,比如說CDN的管理。CDN國內(nèi)廠商比較多,質(zhì)量普遍來說不是特別好。這就需要去判斷在應(yīng)用使用過程中出現(xiàn)的問題是不是由CDN引起的,這樣在發(fā)現(xiàn)的時候才能要求CDN廠商去做優(yōu)化,提升服務(wù)質(zhì)量。另一塊就是我們所需要做的相關(guān)監(jiān)測,查看系統(tǒng)到底是否可用,針對不同地區(qū)、不同用戶、國內(nèi)國外等等在使用業(yè)務(wù)的過程中是否能夠提供很好的服務(wù),如果出現(xiàn)異常的時候,能不能對這個異常進行深入的分析,或者問題定位。這種定位強調(diào)的不是對于某一個服務(wù)器的定位,而是強調(diào)對于應(yīng)用代碼的定位。尤其在精益化建設(shè)過程中更為重要,比如說后臺的某一個SQL語句,前臺的崩潰代碼在哪個位置,通過這些數(shù)據(jù)來幫助去做相關(guān)的優(yōu)化,來提升服務(wù)能力。
所以通過三個中心的聯(lián)動,能夠保證系統(tǒng)滿足開發(fā)、運維、管理這三個層面的要求,從而整體提升對于應(yīng)用的管理和控制能力。
在金融行業(yè),精益化管理已經(jīng)比較成熟了,同時也在不斷地豐富管理的思路和框架,現(xiàn)在大家看到的就是一個標準的管理框架,這個框架會通過外部應(yīng)用、內(nèi)部應(yīng)用等不同應(yīng)用的邏輯采集,通過相應(yīng)的數(shù)據(jù)整理來提供一些相應(yīng)的管理方式,例如集中告警、內(nèi)容呈現(xiàn),為開發(fā)、運維、管理人員提供相應(yīng)的管理接口和界面。
五、金融行業(yè)精益化應(yīng)用管理功能
在未來,應(yīng)該如何使用這套系統(tǒng)?或者這套系統(tǒng)能夠帶來什么價值?
1、要做關(guān)鍵性的轉(zhuǎn)變。過去金融更多關(guān)注的是內(nèi)部架構(gòu)層面的一些東西,現(xiàn)在更強調(diào)的是看用戶在使用過程的好壞,所以會通過一些關(guān)鍵視圖來展示一些用戶層面的信息,比如會有一個基于全國的地圖,會看到這些用戶在不同地區(qū)在使用主流業(yè)務(wù)的時候的業(yè)務(wù)體驗是否有異常。有異常的時候會對這個業(yè)務(wù)進行一個實時打分。傳統(tǒng)做法是通過事件關(guān)聯(lián)的方式來關(guān)聯(lián)到一張業(yè)務(wù)拓撲圖上去,業(yè)務(wù)拓撲圖會展示每個業(yè)務(wù)現(xiàn)在的邏輯關(guān)系,可以很清楚的看到是哪一個業(yè)務(wù)交易出了問題,這個業(yè)務(wù)交易是由哪個人負責的,開發(fā)小組就可以很方便的看到后臺執(zhí)行的怎樣的代碼,這條代碼是由哪條SQL引起的,這樣就可以在做優(yōu)化的過程中有很清晰的方向。通過這種運維方式的好處就是,可以讓不同層面的管理人員在同一個平臺進行很友好的溝通,避免了過去跨部門溝通中的困難。
2、可以幫助我們真正的看到應(yīng)用代碼在邏輯中存在的問題,這是在過去運維中很難看到的,它減輕了邏輯上的錯誤和運維過程中的壓力。
六、傳統(tǒng)金融精益化管理的效果
1、真正看到用戶的體驗、行為。可以看到用戶對業(yè)務(wù)的評價是如何的,是否能夠真的達到最初設(shè)定的目標,是否能夠滿足整個企業(yè)發(fā)展的要求。
2、通過不斷地對用戶體驗數(shù)據(jù)的收集去建立大數(shù)據(jù),就像銀行現(xiàn)在都在做各自的大數(shù)據(jù)。在業(yè)務(wù)數(shù)據(jù)中應(yīng)該有很重要的一塊是針對業(yè)務(wù)、應(yīng)用性能的數(shù)據(jù),可以看到大客戶在使用不同業(yè)務(wù)時能否提供更好的服務(wù)給他,如果他的使用體驗不好,那么體驗問題是在什么位置引起的,應(yīng)該要怎樣做改進。這樣會對大數(shù)據(jù)的建設(shè)來進行一個數(shù)據(jù)支撐。
3、用戶故障定位。某一個重要客戶的體驗出現(xiàn)問題,能夠做到快速定位并進行分析,將過去2-3天做的事情在1-2分鐘內(nèi)定位出來。
4、實時改進。一款應(yīng)用不可能什么問題都沒有,總會在某一方面出現(xiàn)問題。對于我們而言能夠?qū)崟r改進,能夠把它改到一個用戶能夠接受的范圍之內(nèi)就可以了。
七、實現(xiàn)應(yīng)用服務(wù)的可視化管理
它把我們整個用戶的使用情況、整個用戶體驗狀態(tài)、關(guān)鍵業(yè)務(wù)交易的性能情況來做分開的展示。在整個銀行業(yè)精益化管理場景主要有這四大場景:
1、應(yīng)用性能管理
標準是運維層面用到的東西,以某金融集團為例,基本上所有應(yīng)用業(yè)務(wù)都已經(jīng)使用了聽云的服務(wù),監(jiān)控目的是希望能看到每一個業(yè)務(wù)交易的狀態(tài),每一個業(yè)務(wù)交易都會涉及到金錢的流失,隨著業(yè)務(wù)的增長,會有怎樣的問題來造成用戶的流失和業(yè)務(wù)的變化。該集團在使用了聽云后,最典型的變化就是改善了整體的崩潰率和投訴率,分別降低了50%和70%。2、競品分析
對產(chǎn)品的規(guī)劃、開發(fā)是有很大的幫助。以某銀行為例,他們對于行業(yè)對標很重視,需要對它的每一個業(yè)務(wù)是否能夠達到最初設(shè)計時的要求進行評定。為什么要做這么多的業(yè)務(wù),一方面是提供這種的服務(wù),一方面是提升企業(yè)的競爭力。企業(yè)的競爭力不是自己說了算的,是需要和同行的各方面性能、質(zhì)量進行比較的,確認是否能夠具有競爭力。3、測試驗收
過去銀行業(yè)務(wù)上線的壓力比較大,每年的開發(fā)周期很緊張,大家都在不斷地撲新項目,在這樣的情況下就幾乎沒有什么時間來做測試,這樣***的結(jié)果就是讓客戶去做測試了。對此,某個金融公司的場景比較典型。過去的很多問題它在測試的時候都能發(fā)現(xiàn),但是并不能確定這樣的問題對應(yīng)用能帶來多大的影響,之后發(fā)現(xiàn)用戶的反饋很嚴重。通過聽云的服務(wù)就可以做到在產(chǎn)品上線前就監(jiān)測到,會通過全國的系統(tǒng)來進行實時訪問,看到整體的用戶體驗是否在可接受范圍之內(nèi)。通過這種方式,一方面加快了產(chǎn)品的上線時間, 另一方面,又提升了服務(wù)的質(zhì)量。4、數(shù)據(jù)驅(qū)動
如何驅(qū)動業(yè)務(wù)價值的***化?便需要對CDN、云服務(wù)等進行監(jiān)測是否正常。某銀行在做業(yè)務(wù)的過程中有很重要的一塊,就是對CDN業(yè)務(wù)進行優(yōu)化和評估,通過對業(yè)務(wù)的提升,來提升服務(wù)質(zhì)量。
因為聽云是國內(nèi)的公司,所以提供的是本地化服務(wù)。我們一直強調(diào)我們是做服務(wù)的公司,不是做產(chǎn)品的公司。為什么講這點呢,因為從APM行業(yè)中,聽云更多監(jiān)控的對象是用戶,是應(yīng)用。用戶和應(yīng)用意味著一定要有相應(yīng)的配套服務(wù),配套人員、配套知識來支撐的。從我過去對于銀行的了解,大多數(shù)銀行對于APM這方面是缺失的,聽云可以幫助銀行來做這方面的彌補和相應(yīng)的拓展。
從聽云的產(chǎn)品來說,主要做以下兩種事情:
1、實時了解全球用戶的金融體驗:
做全球的用戶體驗監(jiān)測,實際上在全球128個城市、國內(nèi)470個城市,聽云共擁有30W+的節(jié)點,這些節(jié)點會實時的跑任務(wù),去查看銀行當前的系統(tǒng)的用戶體驗。根據(jù)不同地區(qū),不同運營商,不同的通道,幫助我們做一個用戶評估。
2、用戶行為+性能數(shù)據(jù),讓業(yè)務(wù)價值數(shù)據(jù)***化:聽云會看兩類信息,一方面是用戶行為和性能數(shù)據(jù):可以方便銀行看到用戶使用銀行業(yè)務(wù)哪方面用的最多,那這個業(yè)務(wù)就一定是用戶體驗保障的***的,通過這種方式能真正提升自己的服務(wù)質(zhì)量。另一方面就是后臺的服務(wù)診斷,真正鉆到應(yīng)用層面時就會涉及到代碼,幫助運維人員通過可視化的方法把應(yīng)用層面的問題診斷并展示出來。通過智能化的分析,自動診斷后臺某條代碼出現(xiàn)問題,比如說某個API接口、第三方的調(diào)用等等;當有問題的時候,聽云可以做切片化分析,分析出問題點是在用戶端還是在服務(wù)器端,通過這種分析報警定位問題出在哪些代碼上。
聽云會有大量的技術(shù)人員來提供相應(yīng)的技術(shù)服務(wù)。大量技術(shù)人員配備的目的是在每個項目中都會有一個技術(shù)支持來進行跟進以提升服務(wù)質(zhì)量,因為這部分對于大多數(shù)廠商都是知識缺失的一部分。