聽云技術副總裁吳靜濤:快速實現用戶體驗可度量的監控管理平臺
原創2016年4月14-15日,由51CTO傳媒主辦的WOT2016互聯網運維與開發者大會在北京珠三角JW萬豪酒店召開。秉承專注技術、服務技術 人員的理念,自2012年以來,WOT品牌大會已經成功舉辦了八屆,積累了大量的技術專家資源,獲得了廣大IT從業者和技術愛好者的一致認可,成為了業界重要 的技術分享交流平臺以及人脈拓展平臺。
本次會議分為11個技術主題,分別是:數據庫技術與應用,大數據與運維,云計算與運維,運維安全,移動運維,容器體系構建與實踐,運維自動化,行業運維、監控與性能優化、高可用架構和分布式存儲技術。51CTO作為本次大會的主辦方,將以快速報道、現場專訪與后期視頻等形式展示這場盛宴。
下面是來自聽云技術副總裁吳靜濤先生給大家帶來的是主題為《快速實現用戶體驗可度量的監控管理平臺》的精彩演講。
吳靜濤,現任聽云技術副總裁,主管售前,售后技術和技術支持中心。1999年加入現在的應用交付領域,后轉戰應用性能管理領域,對網絡,安全,優化,虛擬化,SDN/SDDC和多活數據中心等基礎技術都有深刻理解,曾任F5中國區技術總監。工作經驗涉及到互聯網,電信,金融,政府等各主要行業。
【以下為現場演講實錄】
我跟前幾位的演講者有一個本質的區別,他們都是做運維出身的,我們今天的話題是運維與開發者的峰會,可是很抱歉的告訴大家,我不是做運維出身的。不過因為身份不同,我希望我的內容能給大家帶來一個很前面幾位完全不同的想法和思路,給大家不同的感覺。
我今天帶來的題目是《快速實現用戶體驗可度量的監控管理平臺》,比較坳口。不過我希望我講完之后,大家能夠理解我帶來的為什么跟之前的人完全不一樣的思路,原因非常簡單,因為我帶來的這張圖,就跟之前的不一樣,他們都很簡單,我做得非常復雜。他們每個人的圖,那個頁面的內容都極其簡單,我拿出來的第一張就有這么復雜的一張圖,原因只有一個,不想讓你們看清。我來告訴大家,聽云想給大家帶來的不同,不論以前的研發人員,還是運維人員,都是坐在自己的機房里面、數據中心里面、辦公室里面來做自己的工作,而今天在移動互聯網的時代,我們要走出我們的機房、走出我們的辦公室,到真正用戶端體驗一下,到底什么叫做以用戶體驗為視角的運維行動,這是真正以運維為中心的思路。
屏幕上的左上角,這張圖是我以前的工作經驗,中國移動4G的核心的示意圖,看起來極簡單了,但實際上還是蠻復雜的。右下角是某個大行的雙國世紀中心的架構,我要給你們視覺沖擊,我只想給你們一個印象,就是從移動互聯網開始,我們來想象一下,從這個開始,到后臺的DB為止,到底有多少環節?所謂的互聯網,有一個互聯網思維,在9幾年的時候,那時候我們在做新浪、搜狐、TOM,那時候在做網頁,后來有了百度、有搜索、有游戲、有視頻,之后有B2B、B2C、O2O,在過去這些年,互聯網不停的變化,有一件事情從來沒有變化,叫做用戶為王,用戶體驗第一。當移動互聯網90后小朋友們拿著手機訪問你的應用的時候,你的開發人員跟運維人員,到底應該用什么樣的角度來考慮這個問題?聽云所帶來的完全不同的想法,我們希望能夠從用戶端的體驗入手,來去看整個系統的運行跟維護,包括開發,這是個全新的理念,于是我們在跟全球合作的時候,有一個非常有名的外企經常用的一個Gartner,第三方執行機構,它在中國選擇聽云做唯一合作伙伴,推出了下一代的運營性能管理平臺的規范,中間有最重要的就是五條,其中第一條,以最終用戶體驗作為入口,來去做后面所有的應用性能的監控跟管理,說的稍微有一點點的太古板了,這個不是很好聽。這是我們真實想做的一個方向,也就是說我們希望的是開發跟運營,跟運維要走出自己的機房,真的能夠到用戶端去關注用戶的體驗,反過來往回看。
怎么往回看?這個就是我們提出的理念。從外網看無論是什么樣的用戶,可能是一個APP,甚至加了一些H5,混合式的客戶端,我把它所有的用戶體驗拿回來,這是第一條。之后我們做均值,好、壞、快、慢形容詞全拿過來做數字化,我就拿過來做均值,低于這個值的叫體驗不好。體驗不好應該怎么處理?就可以從客戶端開始,從用戶體驗交互開始,從網絡傳輸到后臺業務邏輯,到整個代碼執行效率,從頭查到尾,來真的去把這個用戶體驗不好的人給解決掉,這樣就能保證用戶體驗的可持續提升。
各位,互聯網的用戶體驗提升這句話意味著什么?會意味著你的首日留存率,意味著你的月活,意味著你的客單值,意味著你的利潤率,這就是用戶視角做這件事情跟之前做運維有什么不同和區別。
聽云做這套系統有8到9年時間,基本上大的互聯網應用都是我們的客戶,這套思路已經慢慢被客戶所接受跟認可。我們先看從客戶端怎么考慮這個問題。第一步,我們四步可以實現這個技術,為各位運維人員在比較苦的道路上,能夠提供一點點光亮的可能性。我們會給大家一個非常簡單的思路和平臺,而不把它做那么復雜。
第一步,從客戶端入手。客戶端的體驗好壞,實際上是你的命脈之所在,有什么可以影響客戶端呢?交互的過程。你訪問的時候,它的顏值。你在使用它的過程中的錯誤率,APP的崩潰率,一系列可能性都會造成用戶端體驗下降,好壞快慢是用戶體驗,能不能把它變成一個數值?聽云目前在手機客戶端,差不多有8億獨立終端監控著全中國用戶真正體驗,我們有這個數據基礎在,所以我們可以把這些數據整合回來,真正收集在一起做一個加全的運算,告訴您說在這樣的業務條件下,這樣的一個用戶體驗叫好,否則叫不好。而且注意到這個詞是非常困難的基準,給大家一個提醒是這樣的,雙十一的時候,如果你在淘寶三分鐘之內,你能把錢付掉,你應該很開心,因為搶到這個貨品了。如果你用另外一個客戶,比如滴滴結賬的時候,30秒沒有結完,你覺得這事肯定不對。為什么3分鐘覺得快,30秒覺得慢?因為是在不同業務場景下。甚至人的不同心態下省事,人的生活形勢下,好壞快慢的均值完全不一樣。如何通過數據分析,做出這樣的均值出來,這是第一步。
第二步,網絡時間切片,判斷它的原因是客戶端的交互造成的、網絡原因、后臺造成的?從頭切到尾。如果不是交互問題,不是傳輸問題,那就可能是后臺問題,后臺問題怎么辦?第一件事情,先把后臺的業務邏輯的調用關系拿出來。問一個問題,一筆交易過程,一個業務后臺需要多少個業務邏輯單元的支撐?有沒有運維人員能畫出來?如果沒有,當這個業務出現故障,運維的人經常使用三二原則,以前就是這么干的,這就是我們以前運維經常干的事,為什么不能更好的幫助這些應用?因為你不曉得業務邏輯。如果有人能夠全自動的把后臺業務調用邏輯關系拿出來,慢在哪?就更加一清二楚了。
實在不行,我把每個Web交易過程,把它時間做切片,全部拿出來,分析到那一行代碼執行的時間量是多少,這樣來看到底問題出在哪。聽云今天帶來的跟之前幾位有運維經驗的人完全不一樣。我不是從數據中心往外圍看,我從外圍用戶端往里面看,看誰的體驗好、誰體驗壞,體驗壞的那個人到底什么原因造成壞,從交互開始到網絡傳輸,到業務邏輯,到每一行代碼的執行效率,我都拿出來看,到底問題出在哪里,這是一個全新的運維的思想的理論。很榮幸的告訴大家,這套東西,我們已經做了很多年了,基本上已經實現了。下面給大家一個很小的視頻,看一下到底實現的效果是怎樣的。
大家看一下,現在就是一個用戶端的評分,非常明顯的是我們用幾個簡單的數據表明,從錯誤率、下載速度、首包時間,這個用戶的體驗是多少分。注意到,應該很細的,可以做得更細一些,甚至手機版本、APP版本、你的LS的版本。現在這個分值比較低一些,不可接受,到底是誰造成了這個分數比較低呢?用戶體驗不可能都不好,原來在北京邊上不好,其他地方可以可接受。比如在河北、天津,7秒幾的首問時間,這個體驗實在是非常難受的事情。到底是誰拖垮了我們的用戶體驗?這個人是誰?IP地址是什么?他的手機型號是什么?我把數據信息全部抓出來,看他到底發生了什么內容。這時候我就把整個訪問過程模擬出來。點一下它,你就可以進入到下面實際內容。大家看到這個就是整個頁面加載過程,在頁面加載過程中,我們已經可以把首包時間、延遲時間、排隊時間,全部拉出來了,而且我能夠還原當時用戶端訪問的細節。我不知道分析是交互的問題,還是傳輸的問題,還是后臺服務的問題,我們是可以看到,他到底哪的耗時比較強一些。現在我們可以很清晰的看到,這里面首包時間長了,如果首包時間長,原因是什么?他的應用處理慢了,這是后臺的問題,不應該找APP,應該跳到后臺去,我們能不能跳到后臺去呢?大家看一下,在屏幕上面是有一些小的標記,那兒有一個小的圓球,跟一個小的跳轉。我們已經完全打通了全過程。我們看一下每個Web應用過程到底耗時多少,很清楚的顯示在屏幕上。比如說虛擬化,比如說SOA,可能有各路跳轉,我不管它,一查到底,同時我們可以看到,如果用肉眼來看,哪一個時間的量最長,它耗的時間就最長,每一行代碼,甚至我們可以把它點開,我們看到藍色顯示的是一個mysql query的過程,我們可以點開它的請求,看它到底發生了什么內容。
我們的想法很簡單,運維是一個比較介于苦A跟苦C之間的活,聽云希望為各位比較苦的人提供新的思路。外邊的用戶體驗是什么,有一套評分體系出來,不管你是什么樣的客戶端,APP還是混合式的客戶端,把用戶體驗拿出來做評分、做行業均值,你是電商行業、視頻行業,還是什么行業的做均值,低于這個均值叫做體驗不好,體驗不好的,我從你手機交互開始,一直到后臺DB為止從頭找到尾,做時間切片,我們看問題到底發生在哪里。這就是四步驟實現以用戶體驗為緯度的應用級別的應用監控跟管理體系。
想理解它很容易,各位看到屏幕的右上角,之前的幾位專家都是運維級的大牛,十幾、二十年的經驗,我也是十幾、二十年的經驗,雖然我不是做運維的,可是這些有經驗的人都經常會參加一種非常苦惱的會議,出大事了,運維的人最怕的一個人,叫老板的朋友,最怕那個人說一個字,老板的朋友說慢。我們所有運維大牛都參加過這種會,各個部門、各個廠商,幾十號人談誰快、誰慢,為什么、誰的原因。搞運維的兄弟們難道不專業嗎?就是這個慢誰解?鬼知道誰接,再說吧。那個時候,完全是靠這個老大爺,拿著一個聽診器,專家嘛,憑著聽診器判斷說問題出在哪里。可是他只能解決一些小活,我不是看不起之前的幾位專家,我問大家一句話是這樣的,如果你今天去醫院看的不是感冒發燒和咳嗽,而是看的腫瘤,一個比較大的活,你覺得一個老大爺拿著聽診器給你從頭到尾聽一遍,你愿意嗎?還是希望到最右邊的那邊的兄弟,又年輕、又帥,又穿著襯衫,給你拿著那個片子看,說我從頭到尾給你切了60片,你這兒有一個腫瘤,你瞧就在這兒,我看得見。各位,這老大爺跟年輕人之間到底有什么區別?就是有一個,他擁有一個平臺,他可以做切片。
今天聽云的想法是什么?非常簡單。首先我們先定義好還是壞,其次把這個壞的人拿出來,把它做切片,從頭切到尾,從體驗開始切,一直切到DB為止,全過程切完,看問題到底出在哪了,然后我們再說如何去治療,這個絕對是為運維的人員,讓研發人員真的在一個平臺上能看到自己的代碼運營效率,看到用戶體驗,看到實際應用的效果,這是一個完全不同的思路想法。各位想象一下,可能對您的工作會造成什么樣的不同的影響?是完全不同的想法和思路。
對運維人員而言,一般情況下內部出問題很容易查,有報警、有監控系統,哪那么難?真正出問題都是從外面客戶開始。現在我來給大家看一個非常標準的,從客戶打電話投訴到后臺處理的流程。想問各位一個事情是這樣的,如果有一個人打電話投訴,說我用了你的APP不好用,你覺得這個人的投訴的后面,可能有什么樣的影響?我直接說答案,是這樣的,問各位一句,當你們用某一個APP產生了菊花,或者產生崩潰的時候,你有沒有打電話給那個公司說我用的體驗不好?當然沒有。會不會意味著你只要接到一個電話,他的背后可能是一千人呢?有可能。跟各位提的第一個醒是這樣的。我舉一個實際的例子,假如今天您的APP沒有任何問題,因為安卓的升級,造成外部用戶大范圍用戶體驗下降,甚至崩潰。你坐在數據中心里,你知道嗎?你要等到什么時候知道嗎?有人投訴嗎?我剛才問了,現場1000人都沒有投訴,你怎么知道?你接到第一個投訴電話,可能后面就是1000個人受影響。難道要等到第100個電話打進來,才知道自己出問題嗎?對各位來講,第一個最大的變更來自于一個,我們不要等客戶投訴來了之后來處理問題跟解決問題,而是在問題沒有被投訴之前,發生的一剎那,我就要收集到這個問題,幫助他解決這個問題。
各位,我們前一天在春運期間有個大客戶賣票的,本來當時大家在網站上用花邊新聞在談,說白百合的照片比對問題,做校驗碼,我們監控體系發現有云南跟廣西兩個手機用戶忽然買到票了,于是快速的介入解決,這事沒了。想象一下,如果這事爆了,兩只手沒買著會不會成為頭條新聞?完全不同的思路和理念就可以造成完全不同的結果。各位運維的兄弟,你們覺得這樣的新的思路和方法,會不會對你的工作造成好的變化和影響?在處理中間,以前有多少專家坐在一起做會診?有沒有?太多了。能查出來嗎?難。而今天如果有人叮當叮當60片,我100片都給你切出來了,你告訴他時間去哪了,誰的問題,到底是研發的問題、運維的問題、傳輸的問題還是運營商的問題,誰的問題誰解決。我強調不要坐在數據中心里面做你的運維跟研發,而要走出數據中心,以外部用戶體驗為主考慮這個問題,因為它意味著你的月活,意味著你的客單值,意味著你的利潤比,這是最關鍵的問題所在。
各位有研發的自己做嗎?答案是否定的。
第一條,好壞是個形容詞,需要行業的均值,您只了解自己,您不了解業界,我了解業界。
第二條舉個例子,某大的電商集團,足夠有錢的人,投了30個人做了一年,只覆蓋了部分,而且不是字節碼現實,是在應用中埋點的方式。
第三條,我最喜歡的一條,作為一個技術人員,應該是以“專、精”為目標,可是談到用戶體驗的時候,完全有可能從外面的手機終端的研發開始,然后有機站的接入,找互聯網的網官,找移動互聯網的路由,還有多數據中心、CDN、API、DB等等,從那兒到這兒的所有技術有誰敢說都懂? 我們認為應該用品牌解決這個問題。我們提供的是應用性管理平臺,我提供相關的服務。我的人天天服務的就是那些大的互聯網站,即使我能力再不強,我天天見豬跑我也能聞到豬肉的味道,久而久之這些人就成專家了。在你的系統里面,不可能天天出問題,20%可能出問題,80%能自己解決,頂多20%解決不了,為了20%的20%,您說我要建專家團隊,專門搞運維管理,這事不太靠譜。BAT都是聽云的大客戶,你再考慮一下要不要自己做就可以了。
之后會實現真正的目標。我們重復一遍,我不是運維的專家,我跟之前每位運維大牛,跟大家談的不是同樣的理念,我要提出一個新的想法跟思路,從客戶端開始,把好壞快慢的形容詞做數字化、做量化,到底在這個行業里面,什么叫好?什么叫壞?做比對。甚至你可以做競品的比對,你的競爭對手都是誰,人家是多少,你是多少。從外表來討論,這些都是公開的數據,我們幫你做這些分析,到底好跟壞在什么地方。
第二步,既然有了數字化就可以做比對,比對就有高、有低,低的怎么辦?從客戶端的交互、到傳輸、到代碼執行,全過程做時間切片,一清二楚查出來問題出在哪里。
第三件事情,我也知道各位挺累的、挺忙的,也挺貴的,那是一個平臺加上服務,咱就為了20%的20%的問題,沒必要,買個服務就好了,我們提供這個服務給您,實現一個最終極的目標,非常簡單,就一句話,以用戶體驗為視角做應用性能的監控與管理平臺,最目標是提高用戶體驗,提升你的留存率,提升月活,提高客單值,提高你的利潤率,融資上市,出任CEO。
最后給大家提供一個二維碼,掃一下就可以進入我們的群,就可以申請免費的測試。聽云是個服務,我們跟剛才的AWS的理念是一樣的,先服務,有效果再收費,沒效果不收費,只要加入這個群,你就可以免費申請聽云的賬號,可以免費用用好的,有效果了,你再付錢給我。我的內容結束了,謝謝大家!
主持人:感謝吳總的分享。下面有請谷歌工程團隊帶頭人李聰,他將為大家帶來演講《運維理念與實踐》。
以上是51CTO.com記者從一線為您帶來的精彩報道。后續我們還有更加精彩的獨家報道,敬請關注。