確保數據的質量將優化算法的性能的6個技巧
如今,企業開始意識到分析算法只與其所針對的數據一樣好。以下是一些改進數據質量的方法來獲得***的洞察力。
在凱西奧尼爾的著作《數學毀滅的武器》中,解釋了如果大數據算法的運行質量不高,那么大數據算法會產生不正確的結果。
奧尼爾以一個學區為列,這個學區運行了一種算法來識別其200名表現最差的教師,。其中一位被選出的教師實際上是表現最出色的,但是她的班級中有許多學生都是來自表現不佳的學校。結果,老師所教的學生在測試中表現不佳,因此對這位老師評價不高。
奧尼爾認為,其他形式的輸入,例如來自管理員、學生和同伴的老師的精彩評論,應該被納入與算法相關的數據運算中,也許可以防止這種事件的發生。這是對每一位大數據從業者的給了一個提醒,即分析算法只與其運行的數據一樣好。
企業如何確保數據的質量將優化算法的性能,并最終確保從中獲得見解?
關鍵在于數據準備和匹配企業想要應用算法的業務用例。
以下是開發質量數據和算法的六個***實踐:
1.“真實”的算法
企業必須認真構建算法適合自己的商業案例。如果是醫療保健提供者,并且想要確定服務區域中存在心臟問題高風險人群,則可能需要構建一個算法,詢問“65歲以上的人是否已經有心臟手術?”而不僅僅是“誰超過了65歲?
2.使數據實現標準化
為避免獲取重復數據并可能會影響分析結果,重復的記錄應該標準化為單一數據事件。
3.修復損壞的數據
在某些情況下,人們需要參與人工糾正損壞的數據,然后才能通過算法檢查數據。破碎的數據可能包含拼寫錯誤(例如,緬因州居民的MN代替ME),或者可能是某人的姓氏拼寫錯誤,從而產生不應包含在數據集中的額外記錄。數據準確性越好,分析結果就越準確。
4.消除無關的數據
企業可以越多地將數據范圍縮小到其正在檢查的特定用例的邊界,其算法能夠更快地處理數據,算法將提供企業所尋求的見解的可能性越大。
5.獲得用戶的一致意見
不要在沒有首先與用戶核對的情況下就將企業要排除的數據做出單方面決定,因為他們可能知道企業不知道的內容。
6.檢查結果
大數據算法和查詢的趨勢是根據需要修改并重新運行它們,但不一定要記錄結果。相反,應該始終設置結果基準并對其進行測量。例如,如果企業的***個數據算法只會使產品的潛在購買者獲得3%的響應率(最終購買1%的產品),那么需要知道是否修改后的查詢是否優于這個。