用機器學習解決非結構化數(shù)據(jù)問題
譯文?譯者 | 布加迪
審校 | 孫淑娟
數(shù)據(jù)革命如火如荼。未來五年內創(chuàng)建的數(shù)字數(shù)據(jù)總量將是迄今生成的數(shù)據(jù)總量的兩倍,非結構化數(shù)據(jù)將定義這個倡導數(shù)字體驗的新時代。
非結構化數(shù)據(jù)指不遵循傳統(tǒng)模型或不適合結構化數(shù)據(jù)庫格式的信息,占所有企業(yè)新數(shù)據(jù)的80%以上。為了準備迎接這個轉變,許多公司在尋找創(chuàng)新的方法,管理、分析和盡量利用業(yè)務分析和人工智能等各種工具中的所有數(shù)據(jù)。但決策者也遇到了一個老問題:如何維護和改善龐大笨拙的數(shù)據(jù)集的質量?
機器學習是解決之道。現(xiàn)在,機器學習技術方面的進步使組織能夠有效處理非結構化數(shù)據(jù),并改進質量保證工作。隨著數(shù)據(jù)革命方興未艾,貴公司在哪里遇到了難題?是面臨一大堆寶貴但難以管理的數(shù)據(jù)集,還是使用數(shù)據(jù)推動業(yè)務向前發(fā)展?
非結構化數(shù)據(jù)需要的不僅僅是復制粘貼
準確、及時、一致的數(shù)據(jù)對于現(xiàn)代企業(yè)的價值無可爭議,它與云計算和數(shù)字應用程序一樣重要。盡管如此,糟糕的數(shù)據(jù)質量仍然使公司/企業(yè)每年平均損失1300萬美元。
為了解決數(shù)據(jù)問題,您要運用統(tǒng)計方法來測量數(shù)據(jù)形狀,這使數(shù)據(jù)團隊能夠跟蹤變化、剔除異常數(shù)據(jù),并消除數(shù)據(jù)漂移。基于統(tǒng)計方法的控制對于在做出關鍵決策之前判斷數(shù)據(jù)質量,確定應該如何以及何時使用數(shù)據(jù)集仍很有價值。雖然這種統(tǒng)計方法有效,但通常保留用于結構化數(shù)據(jù)集,這類數(shù)據(jù)集適合客觀定量的測量。
但是那些不完全適合Microsoft Excel或Google Sheets的數(shù)據(jù)該如何是好?包括:
- 物聯(lián)網:傳感器數(shù)據(jù)、股票數(shù)據(jù)和日志數(shù)據(jù)
- 多媒體:照片、音頻和視頻
- 富媒體:地理空間數(shù)據(jù)、衛(wèi)星圖像、天氣數(shù)據(jù)和監(jiān)視數(shù)據(jù)
- 文檔:文字處理文檔、電子表格、演示文稿、電子郵件和通訊數(shù)據(jù)
當這些類型的非結構化數(shù)據(jù)發(fā)揮作用時,不完整或不準確的信息很容易進入到模型。如果錯誤無人注意,數(shù)據(jù)問題就會越積越多,對季度報告和預測預估等各項工作造成嚴重破壞。從結構化數(shù)據(jù)到非結構化數(shù)據(jù)的簡單復制粘貼方法不夠,實際上可能會使業(yè)務變得更糟。
常說的“垃圾進垃圾出”非常適用于非結構化數(shù)據(jù)集。也許是時候拋棄當前的數(shù)據(jù)方法了。
機器學習用于保證數(shù)據(jù)質量時要注意的事項
考慮非結構化數(shù)據(jù)的解決方案時,機器學習應該是首選。這是由于機器學習可以分析海量數(shù)據(jù)集,并在雜亂數(shù)據(jù)中快速找到模式。如果借助正確的訓練,機器學習模型可以學習解釋、組織和分類任何形式的非結構化數(shù)據(jù)類型。
比如說,機器學習模型可以學習為數(shù)據(jù)分析、清理和規(guī)模推薦規(guī)則,從而使醫(yī)療保健和保險等行業(yè)的工作更高效更精確。同樣,機器學習程序可以按非結構化數(shù)據(jù)源(比如社交媒體上或電子郵件記錄中的數(shù)據(jù)源)中的主題或情緒,識別和分類文本數(shù)據(jù)。
當您通過機器學習改進數(shù)據(jù)質量工作時,記住幾個關鍵的注意事項:
- 實現(xiàn)自動化:數(shù)據(jù)解耦和校正等手動數(shù)據(jù)操作乏味又耗時。鑒于當今的自動化功能,它們也是日益過時的操作,自動化功能可以處理乏味的日常操作,使數(shù)據(jù)團隊能夠專注于更重要、更高效的工作。將自動化納入到數(shù)據(jù)管道中,只需確保已落實了標準化的操作程序和治理模型,以鼓勵圍繞任何自動化活動進行簡化、可預測的流程。
- 不要忽視人的監(jiān)督:數(shù)據(jù)的復雜性總是需要一定程度的專業(yè)知識和只有人類才能提供的上下文,無論是結構化數(shù)據(jù)還是非結構化數(shù)據(jù)。雖然機器學習及其他數(shù)字解決方案會幫助數(shù)據(jù)團隊,但不要光依賴技術。相反,讓團隊能夠利用技術,同時對單個數(shù)據(jù)流程定期監(jiān)管。這種兼顧可以糾正任何現(xiàn)有技術措施無法處理的數(shù)據(jù)錯誤。之后,可以根據(jù)這些差異來重新訓練模型。
- 檢測根本原因:出現(xiàn)異常或其他數(shù)據(jù)錯誤時,這常常不是單一事件。如果收集和分析數(shù)據(jù)時忽略更深層次的問題,貴企業(yè)會面臨整個數(shù)據(jù)管道出現(xiàn)普遍性的質量問題這一風險。即使是最好的機器學習計劃也無法解決上游產生的錯誤,選擇性的人工干預再次可以夯實整體數(shù)據(jù)流程,并防止重大錯誤。
- 質量方面不要做假設:要長期分析數(shù)據(jù)質量,應想方設法來定性測量非結構化數(shù)據(jù),而不是對數(shù)據(jù)形狀做出假設。您可以創(chuàng)建和測試“假設分析”場景,以開發(fā)自己的獨特的測量方法、預期輸出和參數(shù)。使用您的數(shù)據(jù)運行實驗提供了一種確定的方法來計算數(shù)據(jù)質量和性能,您可以自動測量數(shù)據(jù)質量本身。這個步驟確保始終進行質量控制,并且作為數(shù)據(jù)攝取管道的基本功能,而不是事后添加上去的。
非結構化數(shù)據(jù)是帶來新機遇和新見解的寶庫。然而,目前只有18%的組織利用其非結構化數(shù)據(jù),而數(shù)據(jù)質量正是阻礙更多企業(yè)的主要因素之一。
隨著非結構化數(shù)據(jù)變得越來越流行,并與日常業(yè)務決策和運營更緊密相關,基于機器學習的質量控制提供了亟需的保證:您的數(shù)據(jù)是相關、準確、有用的。如果您沒有在數(shù)據(jù)質量方面卡殼,就可以致力于使用數(shù)據(jù)推動貴公司向前發(fā)展。
想想當您有效控制數(shù)據(jù)或者更好的是讓機器學習為您處理工作時帶來的種種機會。
原文標題:??Solve the problem of unstructured data with machine learning???,作者:Edgar Honing?