跨職能合作,優秀的數據產品如何三步煉成
大數據文摘出品
編譯:韋夢夙、張秋玥、蔣寶尚
結合了數據與機器學習的產品可成為解決用戶需求的利器。它們能夠創造一條可以幫你避免激烈競爭的“數據護城河”。
當前已經有了一些非常經典的案例,例如谷歌搜索引擎以及亞馬遜產品推薦系統,兩者利用數據與機器學習做出的改進都吸引了更多用戶使用它們的產品。
但是機會并不會只青睞技術巨頭:各個領域各種規模的公司都在投資它們自己的數據產品。在Coursera,我們使用機器學習幫助學習者尋找最佳的內容去達成他們的學習目標,保證他們獲得成功所需要的支持——無論是機器支持,亦或人工支持。
所謂“數據產品”的生命周期反映了當前基本的產品開發現狀:找到解決用戶核心需求的機會,建立一個初始版本,然后評估其影響并進行迭代。
但是數據的引入增加了一層額外的復雜度。為了應對此挑戰,公司應該加強跨職能合作,用長期眼光去評估并優先考慮數據產品機會,然后從簡單之處開始做起。
階段1:辨識機會
1. 數據產品是一項團體運動
找到最佳的數據產品機會需要把產品業務的洞察和技術數據的洞察結合起來。產品經理、用戶研究員以及商務領袖們通常有很強的直覺和領域專長去辨識關鍵且尚未解決的用戶與業務需求。與此同時,數據科學家和工程師們擁有敏銳的眼光去辨識可行的數據驅動解決方法;他們還在什么能夠拓展和如何拓展等問題上有很強的直覺。
為了辨識并優先考慮正確的數據產品機會,我們需要讓討論桌上的各方聚到一起。如下的幾條規范就能夠很有幫助:
讓數據科學家認識用戶和業務需求。保持數據科學家與產品經理、用戶研究員、商業領袖的緊密聯系,以保證他們能夠直接深入挖掘數據來理解用戶以及他們的需求。
讓數據科學家承擔數據傳播者的角色,與整個公司交流數據能夠帶來的機會。這包括從為公司提供更易于使用的原始數據、在早期構想階段即提供模型輸出樣本,到在后期搭建全功能產品樣本。
培養具有良好數據意識的產品與業務小組。不同職能與行業的人們都在提高自己的數據相關能力,而雇主們則能夠通過投資培訓項目來加速這個趨勢。產品與業務部門的數據相關能力越強,他們就能夠更好地和數據科學以及技術小組合作。
討論桌上為數據科學保留一席之地。數據科學能在組織不同的地方存在(無論是集中或去中心化的管理模式),但是無論是什么樣的組織形式,參與產品與商業策略討論的數據科學領袖們都能夠幫助加速數據產品的開發。
2. 優先考慮未來
最好的數據產品像美酒一樣,隨著時間流逝會變得越來越好。有如下兩個原因:
- 首先,數據產品應用通常能夠加速數據的收集,反之又有助于提高應用本身。設想一個基于用戶自反饋資料數據的推薦系統產品吧:目前使用有限的個人資料數據,初始推薦系統可能效果并不明顯。但如果用戶在個性化自己的偏好時擁有有非常強的意愿去補充資料,這將推動推薦系統去加速收集資料數據,逐漸提高推薦系統的效果。
- 其次,許多數據產品能夠支持多種應用。這不僅是為了在各件應用上均攤昂貴的研發成本,還是通過共享數據加強網絡效應。各種應用產生的數據反饋給底層數據架構,有助于提升應用的利用率和數據收集——這樣的良性循環將持續進行。Coursera的技能圖就是其中一個例子。一系列算法給課程內容、職業生涯以及學習者本身匹配了一個強大的技能庫。該技能圖加強了一系列幫助發現相關課程的應用表現,而其中許多應用產生了增強技能圖的訓練數據,反過來提高應用的效果。
過度關注近期表現會錯失中長期的機會。普遍來說,高質量數據的關鍵性不容小覷。每一個步驟都應該在收集和儲存數據上優先投資。
階段2:建設產品
通過分布執行來降低風險
數據產品通常需要驗證算法是否有效和用戶是否喜歡。因此,數據產品的建設者面臨著一個固有的矛盾——在前期研發上投資多少,以及盡快發布應用以驗證它是否能夠解決某一核心需求的速度。
在驗證產品與市場是否匹配之前過度投資于技術驗證,會加大研發力量浪費在錯誤的問題或者解決方案上的風險。反過來,缺乏有效研發、僅僅過度投資于用戶需求驗證會導致呈現給用戶一個無力的樣品,會有被錯誤否定的風險。偏向于后者的團隊也許會產生一個由并不有力的模型驅動的MVP(Minimum Viable Product,最小可行產品)。如果用戶反饋差強人意,那當我們投入更高研發力度去改善產品時結果其實有可能將有所不同。
當沒有合適手段同時驗證技術并測評產品與市場是否匹配時,分布執行就能夠幫得上忙了。從簡單部分入手將能夠加速測試以及收集高價值數據。在建立技能圖的過程中,我們起初推出基于技能的搜索——一項只需要技能圖一個小子集的應用。它隨后產生了豐富的訓練數據。如下一系列MVP方法同樣能夠減少測試時間:
- 輕量級模型通常搭建并投入市場更快,而且更容易解釋、調試并逐漸升級。雖然深度學習在大部分案例中非常有用(確實是一個趨勢),但它并不適合被用于數據產品啟動階段。
- 外部數據資源——無論是公開資源、購買資源或合作伙伴的解決方案——都能夠加速數據產品的開發。如果產品產生的數據中可以明顯看出(某個特性)很受歡迎或很有效果,該產品就可以向該有競爭力的方向進行改進,或直接將其作為賣點。
- 在起步的時候縮小適用領域能使算法不那么具有挑戰性。例如,一些應用在初始搭建階段時可以先著眼于一小部分用戶群體或適用范圍。
- 手工處理——要么人工完成你希望最終機器模型能做的事情,要么至少是人工評估調整初始模型的輸出——都能更進一步加速開發。著眼于讓手工綜合處理的步驟能隨時間推移實現自動化以提高產品的效果,將會十分理想。
階段3 評估和迭代
1. 當評估數據產品表現時,思考其未來的潛力
在發布產品后評估結果就對數據產品做出有用或者無用的定論不像簡單的UI調整那么直接。這是因為,當你收集到更多數據的時候,數據產品的效果基本都會提高,而且基礎數據產品會隨著時間推移實現更多功能。在封裝一個沒有明顯優于競爭對手的數據產品前,請你的數據科學家準備好一些重要問題的回答。例如,產品和原先比數據收集效率提升了多少?提高算法效果上有多少成果?未來將會解鎖什么樣的應用?基于這些問題的回答,一件當前指標并不耀眼的產品也許其實值得保存下來。
2. 迭代速度很重要
數據產品經常需要在算法和UI上進行迭代。挑戰在于決定在哪里進行迭代的價值最高。數據和用戶反饋將幫助團隊知道什么功能需要改進。算法迭代成為核心時(通常在復雜的推薦系統或者通信系統中算法迭代會無比重要,比如Coursera的個人學習干預項目算一個),我們將需要考慮到系統設計是否方便數據科學家在開發中獨立地部署并測試新模型。
在產品與商業領袖和數據科學家之間培養合作的默契,優先考慮用未來的眼光投資,然后從簡單之處開始起步,任何類型和規模的公司都能加速開發出能有效解決用戶核心需求的數據產品,以給為企業添加能量,創造持續性的競爭力。
相關報道:https://hbr.org/2018/10/how-to-build-great-data-products
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】