制定機器學習訓練數據策略的6個技巧
人工智能(AI)和機器學習(ML)如今已經十分常見。AI指的是機器模仿人類進行認知的概念,ML是一種用于構建AI的方法。如果AI是指計算機可以根據指令執行一組任務,那么ML就是機器從數據中攝取、解析和學習的能力,以便更精確地完成任務。
汽車、金融、政府、醫療、零售和科技等行業的大部分管理者都已經對ML和AI有了基本的了解。不過,并非每個人都是一個制定訓練數據策略的專家——而這往往是實現ML高投資回報的必要的第一步。
AI系統通過實例來學習,它們擁有的高質量實例數據越多,就會學得越好。缺乏,或只有低質量的訓練數據可能會生成不可靠的系統,得出錯誤的結論,做出糟糕的決策,無法處理現實世界的變化,并引入或延續一些如偏見等問題。
如果沒有一個良好定義的策略來收集和組織你需要訓練、測試和優化AI系統的數據,你將面臨項目延遲、無法適當擴展以及被競爭對手超過的風險。下面是構建一個成功的訓練數據策略的6個技巧。
1、制定訓練數據預算
當啟動一個新的ML項目時,首先要定義的是要實現的目標。這會讓你知道,你的系統中需要哪種類型的數據,以及需要多少“訓練項”(已分類的數據點)。
例如,計算機視覺或圖像識別項目的訓練項目,使用人工注釋標記的圖像數據,用于識別圖像的內容(樹、停車標志、人、車等)。此外,根據你正在構建的解決方案的類型,你的模型可能需要不斷地重新培訓或刷新。你的解決方案可能需要每季度、每月甚至每周進行更新。
一旦確定了訓練項目和更新頻率,你就可以評估關于采購數據的一些選項,并計算預算。
重要的是要清楚地了解啟動該計劃所需的時間和資金成本,隨著時間的推移對其進行維護,并隨著業務的發展對特性和功能進行改進,從而使解決方案對你的客戶保持相關性和價值性。啟動ML計劃是一項長期投資。獲得高回報需要一個長期的策略。
2、收集適當的數據
你需要的數據類型取決于你正在構建的解決方案的類型。一些數據來源包括實際使用數據、調查數據、公共數據集和合成數據。例如,一個能夠理解人類語音命令的語音識別解決方案必須針對已翻譯成文本的高質量語音數據(實際數據)進行培訓。搜索解決方案需要由人工注釋的文本數據來告訴它哪些結果是最相關的。
ML中最常用的數據類型是圖像、視頻、語音、音頻和文本。在用于ML之前,必須對訓練數據進行注釋或標記,以確定它們是什么。注釋可以告訴模型如何處理每段數據。例如,如果一個虛擬助理的一條訓練數據是某個人的錄音“多訂購一點AA電池”,注釋可能會告訴系統在聽到“訂購”時,與某個在線零售商處下個訂單,在聽到“AA電池”時搜索“AA電池”。
3、保證數據質量
根據任務的不同,數據注釋可能是一項相對簡單的活動,但是它也是重復的、耗時的,并且很難始終正確地執行。它需要人的介入。
低數據質量帶來的風險很高,因為如果你根據不準確的數據訓練模型,那么模型將會做錯誤的事情。例如,如果你訓練一個自動駕駛汽車的計算機視覺系統,將人行道的圖像錯誤地標記為街道,結果可能是災難性的。事實上,糟糕的數據質量,是阻止ML廣泛且有效使用的頭號敵人。
當我們討論數據質量時,我們談論的是標簽的準確性和一致性。準確是一個標簽距離事實有多近;一致性是不同訓練項目上的多個注釋彼此一致的程度。
4 .注意并減少數據偏差
強調數據質量有助于公司減輕其AI項目中的偏見,這些偏見可能會隱藏起來,直到基于人工智能的解決方案進入市場。在這一點上,偏見可能很難糾正。
偏見通常來自項目開始時項目團隊或培訓數據中的盲點或無意識偏好。AI中的偏見可以表現為不同性別、口音或種族的語音或面部識別表現不均勻。隨著AI在我們的文化中變得越來越普遍,現在是時候解決內在的偏見了。
為了避免項目級別的偏見,在建設定義目標、路線圖、度量和算法團隊時需要積極保證多樣性。建設一個多樣化的數據人才團隊說起來容易做起來難,但風險很高。如果你團隊的內部構成不代表潛在客戶的外部構成,那么最終產品的風險只是為一小部分人工作,或者對他們有吸引力,而錯過了一個面向大眾市場的機會,或者更糟——偏見可能讓AI具備現實世界中的歧視。
5、必要時,實施數據安全保障
并非每個數據項目都使用個人身份信息(PII)或敏感數據。對于利用這類信息的解決方案,數據安全性比以往任何時候都更重要,特別是在處理客戶的PII、財務或政府記錄或用戶生成的內容時。越來越多的政府法規規定企業必須怎樣處理客戶信息。
保護這些機密數據可以保護你和你的客戶的信息。對實踐保持透明和道德準則,并堅持你的服務條款,這將給你帶來競爭優勢。不這樣做會讓你面臨丑聞和品牌負面影響的風險。
6、選擇合適的技術
你的訓練數據越復雜或微妙,結果就越好。大多數組織都需要大量高質量、快速且大規模的訓練數據。為了實現這一點,他們必須構建一個數據渠道,以更新模型所需的速度交付足夠的數據量。這就是為什么,采用正確的數據注釋技術是至關重要的。
你選擇的工具必須能夠為你的項目處理適當的數據類型,允許靈活的標記工作流設計,可管理單個注釋器的質量和吞吐量,并提供ML輔助的數據標記來增強人工注釋器的性能。
制定策略保障AI項目成功
IHS Markit最近的一項研究顯示,87%的組織正在采用至少一種形式的變革性技術,比如人工智能,但只有26%的組織認為已經具備了適當的商業模式,可以從這些技術中獲取全部價值。
創建一個可靠的訓練數據策略是獲取AI價值的第一步。包括設置預算、確定數據源、確保質量和保證安全性。清晰的數據策略還有助于提供大多數ML模型定期更新所需的穩定的數據渠道。單獨的訓練數據策略并不能保證AI的成功,但它可以幫助企業更好地利用AI帶來的紅利。