云端構建機器學習平臺的幾個優秀實踐
譯文?譯者 | 布加迪
審校 | 孫淑娟
大多數人都熟悉iOS、Windows和AWS等主要的技術平臺。平臺本質上是一組技術,以充當構建、貢獻、試驗和擴展其他應用程序的基礎。它們帶來了當今許多先進的技術能力和尖端的客戶體驗。
為了跟上大數據、人工智能和機器學習帶來的技術能力具有的規模和復雜性,許多公司在自行開發復雜的內部平臺。事實上Gartner預測,到2025年,云原生平臺將成為超過95%的新數字化計劃的基礎,高于2021年的不到40%。
根據我的經驗,企業技術平臺具有變革性:它們使跨職能部門的團隊能夠快速測試、啟動和學習,減少重復、規范能力,并提供一致集成的體驗。簡而言之,它們有助于將技術轉化為競爭優勢。
1.企業平臺的演進
許多組織利用Kubernetes等可以運行人工智能和機器學習繁重任務的云原生平臺,越來越善于提供一流的客戶體驗。第一資本(Capital One)成為美國第一家全力投入到云的金融機構,能夠重新設計數據環境的架構,對于夯實其基于云的平臺能力不可或缺。有了這個堅實的基礎,第一資本更能夠利用大數據在其企業平臺上打造新的機器學習能力,以加速、增強和提供新的、更有意義的客戶體驗。
第一資本在這方面的大部分工作已經為公司和客戶帶來了顯著成效。比如說,其欺詐決策平臺是從頭開始構建的,以便做出復雜的實時決策。通過利用大量數據,并實現在幾天(而不是幾個月)內更新模型,該平臺有助于保護數百萬客戶免受信用卡欺詐,并可供該公司的各個利益相關者使用。
根據我在領導團隊交付企業技術平臺方面的經驗,一路上汲取的重要的經驗教訓和優秀實踐如下:
- 一切都從團隊開始:建立由最優秀的人組成的跨部門團隊,即使一開始這會減慢你的工作。更大的團隊并不總是更好!團隊起碼要有產品經理、工程師和設計師。為這些職能部門配備真正了解平臺用戶的人。比如說,如果您正構建一個主要由數據科學家使用的平臺,應聘請曾經是數據科學家的產品經理,或者為領導團隊添加數據科學家。如果團隊由來自多個部門的人員組成,應確保你們有共同的目標。
- 先明確定義最終狀態:在開始構建之前,花時間明確最終狀態的架構和計劃,以迭代方式實現目標。確保架構一開始就是為自助服務和貢獻設計的。更好的是,設計平臺時假設您將把平臺擴展到本組織或業務部門之外的用戶。還要假設一段時間后,隨著技術的變化,您希望可以更換組件。
- 估計認為需要多長時間,然后加倍:重要的是花時間集思廣益,想好一開始就需要打造的所有能力,然后為每部分投入相應的精力。一旦技術團隊將此與速度相結合,估計構建每個功能需要多長時間,就增加50%的緩沖量。根據我的經驗,這個估計最終非常準確。
- 關注業務成果:構建出色的平臺可能需要很長時間。確定工作的次序很重要,這樣才能不斷實現業務價值。這可以激勵團隊,樹立信譽,并形成良性循環。
- 力求透明,加強溝通:與利益相關者自由地交流決策、進展和路線圖。除了闡明手頭的工作外,還要闡明目前沒有優先考慮的事情。編寫好文檔,以便鼓勵他人貢獻、輕松加入平臺。
- 從小處著手:就連最好的測試和質量保證(QA)環境也可能遺漏一些部署到生產環境后才顯露的問題。對于對客戶會有明顯影響的重大變化而言,總是從一個小群體入手,看到小規模生產環境中切實有效后,再擴大應用范圍。
- 徹底透明并過度溝通:與利益相關者自由分享決策、進展和路線圖。除了闡明您正在做的事情之外,還要闡明您目前沒有優先考慮的事情。投資于有助于貢獻和輕松加入平臺的文檔。
- 從小處著手:即使是最好的測試和QA 環境也可能會遺漏一些直到投入生產時才發現的問題。對于將產生有意義的客戶影響的重大變化,總是從一小部分人開始,然后在你看到小規模生產中的事情發生后逐漸增加。如果可能,當變更影響外部客戶時,僅將員工用于初始人群。
- 重視妥善管理:平臺所有者應關注平臺性能。所有問題都應通過控制機制和自動警報顯露出來。應迅速處理異常情況。應優先考慮問題的根本原因分析和變化,防止問題一再發生。如果沒有問題,應適當地慶祝,好讓團隊知道它受到贊賞。
- 如果看起來好得難以置信……異常監控是確保執行符合意圖的好方法。目標常常是零異常。比如說,延遲不應超過200毫秒。如果異常報告從不顯示任何異常,監控很可能有問題。始終強制執行異常,以確保它正確觸發。這一點我可是深有體會。
- 開心的團隊是富有成效的團隊。慶賀取得的成績,在團隊成員表現出色時給予表揚,并創造內心充盈的環境。定期衡量團隊的幸福感,讓團隊有機會來討論什么會讓他們更快樂,并自行嘗試,以解決不滿意的地方。
當一個團隊擁有合適平臺技術大力支持的強大文化時,機會無限。通過將云原生平臺與大規模數據相結合,公司可以更好地推進,并嘗試更新穎、更具創新的產品和體驗。當這些體驗使最終用戶和客戶能夠在需要時獲得所需的產品或服務,這無疑具有重大意義。
原文鏈接:https://venturebeat.com/ai/best-practices-for-building-machine-learning-platforms-on-the-cloud/