未來的監控大屏是給AI智能體看的,你知道嗎?
有很多企業在做數據庫的監控大屏,監控大屏這個東西在中國信息系統發展的二三十年里一直是在不斷的演進的。大屏做得越來越漂亮,上面的數據也越來越有價值,但是我覺得監控大屏的發展已經走到了一個瓶頸點上。因為隨著信息化的發展速度越來越快,信息系統的建設也越來越復雜,無論是信息系統的數量還是指標的復雜程度都已經超出了視覺分析的極限了?,F在的監控大屏在很大程度上來看已經成為一種形式,顯示的內容,顯示的目的,如何通過大屏去做監控,都已經無法真正發揮作用。
前陣子優諾的傲寒總路過南京,因為時間十分有限,只能在石頭城下的咖啡廳做了個小聚。他們是中國做數字孿生最早的一批企業,在早期的時候我也跟他提過那種花花綠綠的動畫似乎對運維不那么直觀。真正的想要讓運維人員理解系統,了解系統的現狀,數字表格可能還是最直觀和有效的。不過那時候客戶喜歡的就是逼真的仿真顯示,他們當時是國內仿真顯示做得最好的產品。
再次聊到這個問題的時候,他給我演示了他們最新的一些動態視覺技術。我發現那些花里胡哨的3D界面消失了,取而代之的是一個一個十分形象的動畫方塊,這些方塊讓我們很方便直觀地了解到業務的執行情況。結合算法與模型,不再強調大屏上面的仿真性,而是更加深度的去模擬業務的真實的內在邏輯,監控人員可以十分直觀地感受到業務運作的狀況,發現業務可能存在的堵點和風險。
另外一點大變化是,依托于系統中采集到的豐富的數據,通過優諾動態視覺引擎提供的業務仿真回放功能,讓這套系統能夠在業務問題分析,業務故障溯源上也能發揮巨大的作用。
我當時的第一感覺是,這才是數字孿生系統該有的模樣。數字孿生系統本身就是為了解決問題而投資去建設的,不僅僅是為了滿足人們的視覺感官。更重要的是系統能夠幫助我們去分析業務,發現和解決問業務中的問題。
回到數據庫運維領域,我們目前建設的大部分數據庫監控系統都是基于傳統的網管思維的,采集的指標主要的目的是為了做展示。采集回來的數據需要做成儀表盤,才能讓人使用。所以現在談到數據庫可觀測性的時候,很多人都會和我討論Grafana。而事實上,這與我所認知的可觀測性完全不是一個東西。
目前基于Grafana的可觀測性面臨三大問題:第一個是隨著數據庫系統越來越多,如果一個企業有幾百套甚至上萬套數據庫,做那么多儀表盤去給誰看?有朋友要說了,Grafana可以設置預警規則,有了告警才需要去看儀表盤。那么第二個問題又來了,Grafana如何才能較為精準的告警?依靠基線閾值嗎?每天誤報幾千次上萬次的告警,是不是會讓你崩潰?假如說你已經解決了第二個問題,那么第三個問題又來了,在數據庫國產化時代里,你的現場有真正深入理解這些數據庫的DBA嗎?恐怕原廠的售后服務人員里也沒幾個是他們自己數據庫產品的真正專家吧。即使是運維Oracle的 時代,一線監控人員也不可能是專家,專家一般都在三線呢。
我覺得傳統的監控已經走進了死胡同,而實際上AI監控才是監控系統的未來。實際上無論是生成式AI還是傳統AI算法,都可以模仿專家的思維方式來解讀和分析數據。采集回來的監控數據不一定要使用儀表盤展示出來,但是必須經過AI算法去進行分析。通過小模型計算后發現的問題再交給基于大語言模型的生成式AI去做匯總分析,最后總結出問題與發現,并產生相關告警,可能是未來監控系統的基本建設思路。
投入大量資金建設的監控系統,最終是要發揮出應有的作用的。1分鐘發現問題,5分鐘定位問題,10分鐘解決問題,這是目前銀行IT運行保障的目標,可能也是絕大多數關鍵業務系統的運維目標吧。要實現這樣的目標,依靠傳統的人肉運維,人肉監控,幾乎是不可能的。只有當坐在監控大屏后面搞監控的變成了一個AI智能體,這個目標才能真正實現。