從Argo AI的倒下談起
?上星期發生了一件汽車圈里比較轟動的事情,那就是著名的獨角獸公司argo AI宣布關閉業務了。這家前些年紅得發紫的自動駕駛獨角獸企業有福特、大眾兩家汽車業巨頭的加持,最高時估值高安73億美金,而且其領頭大佬更是威名赫赫的Bryan Salesky和Peter Rander。從福田公司發布的公告上看,福田公司認為argo主要的業務方向是完全自主的自動駕駛,而從目前的情況來看,要再人流和車流涌動的現實世界實現完全自主的自動駕駛比登月還難。Argo實現營業目標遙遙無期,福田目前更需要的是能夠直接產生商用收益的L2/L3級別的智能輔助技術,而不是完全自主的L4或者更高級別的自動駕駛。
Argo的倒閉有點突然,不過在IT圈里沒有太多人關注。實際上Argo的問題,會給IT圈里的創新領域一些警示。前些年AIOPS概念盛行的時候,IT圈里也有一些類似的狂熱,認為用AI解決運維中的難題的時代到來了。AI必然給運維領域帶來一些新的突破,自動駕駛將會在OPS領域更早的完成對傳統運維的替代。我也是在2017年,被AIOPS概念的沖擊下,決定從傳統運維領域向AIOPS轉型的。因為從2013年那次轟轟烈烈但是不甚成功的優化項目開始,我就對傳統運維產生了一定的懷疑。
當時我負責一個大企業全國二十多個省的一個大型系統優化項目,項目投資高達數千萬元。在此之前,我們在幾個試點省份都取得了不錯的效果。在一個省的核心業務系統優化中,因為優化效果十分明顯,該省在項目驗收會上認為原本計劃3500元升級硬件的項目不再需要了,優化后的系統的原有硬件繼續用5年不成問題。
不過項目推廣開來之后,問題就層出不窮了。雖然我們事先針對前期的時點項目進行了深度的總結,列出了一些最佳實踐,設計了數據采集、巡檢報告、診斷分析報告、優化實施方案等的標準化文檔。但是為了按期完成項目,我們還是不得不在每個省都派出了工作小組。而這些小組中的人員的技術水平參差不齊,有些人甚至從來沒有做過優化項目。雖然我們也將有經驗的專家設置為區域支撐人員,不陷入某個具體項目,用于支持全局,但是效果依然不夠理想。
事后總結的時候,大家都認為項目做的不好的主要原因是專家不夠用,完全依靠人的能力的項目是很難大規模復制的。因此在2017年我們選擇進入AIOPS這個領域,實現未了的愿望。在技術選擇上,我們自然而然的選擇了完全自動駕駛這個技術路線。在2017年的一個活動上,我向來賓展示了我們系統的構想模型。我們選擇了和高校合作的模式來解決在領域技術能力不足的問題,確實很快就找到了大致的發展方向。只不過做了一段時間后我們發現實驗室的理論效果在實際應用環境中總是脫節的。完全自動駕駛在實驗室似乎是行得通的,而實戰的效果往往不如人意。
在一個用戶那邊,領導看了我們的系統和我做了一次溝通。他的話讓我重新認識了我們目前在做的工作。他說我們目前的運維自動化水平還較低,實際上我們是需要自動化駕駛的,不過我覺得自動化駕駛不是一下子就能搞成的,因為任何一次誤判都是災難性的,無法承受的。既然如此,我們為什么不先搞一些半自動化的,輔助性的工具呢?有些判斷做的不準,那么也沒關系,不是有你們這些老專家嗎?大不了我現場生成一份報告,讓你們的專家幫我們分析不就行了,為什么非死磕自動駕駛呢?再說你們公司的優勢是有那么強的專家隊伍,而不是搞算法的人,現在這個搞法,把你們的優勢就完全丟了。
那位領導雖然不是DBA出身,不過他看問題看得很透測。以目前的技術能力,要想絕對準確的預測或者定位一個復雜的問題,技術能力的覆蓋還很不全面。我們目前做的所有的分析,診斷和預測僅僅是利用數學計算發現了一個異常而已。這個異常在ITOM里僅僅算是一個事件,而是不是一個確定的問題。事件上升為問題,要么依靠準確的模型計算,要么就要依靠人工確認。
實際上現在能夠通過模型和算法完全確認的事件還比較少,特別是想要做成一個通用產品,難度還是很大。哪怕是一個IO延時過高的問題,這到底會引發什么樣的問題?會不會引發問題?為什么同一個系統,有時候IO延時高達100ms了,系統啥事沒有,有時候50ms系統就掛了?當模型和算法的能力還沒有達到一定水平的時候,我們還無法向用戶保證,你可以先睡一會,AIOPS來開車,保證不出車禍。那么我們完全可以通過算法和模型來降低人工分析的工作量,用AIOPS來輔助提高運維的生產力。
前陣子我們的系統在一個客戶那里做POC,跑了一段時間后,對接入的近30套系統做了一個自動化巡檢。把巡檢報告下載下來后,專家在遠程花了近一天時間幫用戶查看了這些巡檢報告,發現各類問題200多個,其中有二十幾個還是高風險的問題,在分析問題時,完全依靠的就是遠程生成的報告,并沒有再去系統上做任何采集和確認。用戶看到分析報告后也覺得這種模式可以大大提高運維分析的生產效率,讓巡檢工作從一個不得不做的雞肋變成真正的能夠幫助自己實現常態化優化的生產力工具。
遠程巡檢讓我們看到了把巡檢工作實用化的希望,不過通過這次遠程巡檢分析,我們也發現了目前巡檢報告中的一些不足,很多時候,我們看到的是結論,而缺失了數據的羅列和數據的對比分析。這些診斷報告中的結論是否準確,是否合理,還是要打一些問號的。在全面自動化駕駛的技術條件還不具備的時候,輔助駕駛還是需要向使用者提供更多的反饋現實狀態的界面。在開車時,我不太喜歡使用自動輔助停車就是這個原因,雖然每次車停的都比我好,但是停車過程中那種人無法把控車輛的感覺十分的令人不爽。
回到Argo AI的倒下這個事件,我覺得福特做出了一個正確的決定。在未來5年內看不到自動駕駛能獲得實際成功的情況下,把重點放在已經能夠為用戶帶來更好駕駛體驗的輔助駕駛領域,是比較現實的做法。在AIOPS領域是不是也應該做一些思考,當真正實用的全自動化無法實現的時候,先幫助運維人員降低采集、分析、匯總數據的工作量,做好智能輔助,是不是更有價值呢??