釋放非結構化數(shù)據力量的八個技巧
充分利用企業(yè)數(shù)據是當今IT領導者最關心的問題。隨著企業(yè)尋求在業(yè)務決策中更多地以數(shù)據為導向,IT領導者必須制定數(shù)據戰(zhàn)略,以便從數(shù)據中創(chuàng)造價值,無論數(shù)據位于何處或以何種形式存在。
對于許多企業(yè)來說,文本、視頻、音頻、社交媒體、圖像、傳感器和其他格式的非結構化數(shù)據仍然是難以捉摸和未開發(fā)的。根據Foundry的研究,雖然行業(yè)研究估計高達90%的企業(yè)數(shù)據是非結構化的,但61%的IT領導者表示,管理非結構化數(shù)據對其企業(yè)來說是一個問題,另有24%的人甚至不將非結構化數(shù)據包括在他們的數(shù)據和分析候選列表中。
非結構化數(shù)據資源對于獲得業(yè)務洞察和解決問題非常有價值,關鍵是弄清楚如何創(chuàng)造這種價值。熟練利用這些海量信息資源的企業(yè)可以在向關鍵業(yè)務流程提供可操作的洞察方面獲得顯著優(yōu)勢。
以下是當今創(chuàng)造性企業(yè)如何將非結構化數(shù)據轉化為業(yè)務價值,以及如何將非結構化數(shù)據應用于你的企業(yè)的一些提示。
加強創(chuàng)意過程
移動游戲開發(fā)公司RetroStyle Games的數(shù)據分析師伊萬·科諾瓦爾表示,在該公司,非結構化數(shù)據已被證明是一座“金礦”,直接為業(yè)務增長和游戲改進做出了貢獻。
在RetroSyle Games使用非結構化數(shù)據的眾多方式中,可能影響最大的是概念藝術收集和音頻數(shù)據。
“我們的游戲開發(fā)者的創(chuàng)作過程往往始于素描、意境板或概念藝術,”科諾瓦爾說“這些作品雖然不是結構化的,但抓住了我們想要在游戲中表達的精髓。為了確保這些作品不會在其他作品中丟失,并在未來制作游戲續(xù)集時很容易找到,我們使用了先進的圖像識別工具。”
這些工具對藝術品的各種元素進行分類和標記,無論是角色、風景還是其他元素。科諾瓦爾說:“這使我們的藝術家和開發(fā)人員能夠快速找到相關的藝術品,從而提供設計一致性,并加快開發(fā)進程。此外,這個系統(tǒng)還允許我們存儲有關公司藝術品發(fā)展的信息,這在培訓新員工時非常有用。”
關于音頻數(shù)據,語音表演在玩家在游戲世界中的體驗中扮演著關鍵角色,科諾瓦爾說。“我們從游戲中的對話、背景聲音和玩家語音聊天中收集了大量數(shù)據,”他說,“使用語音識別和聲音分析,我們可以提取情緒和情緒等細微差別。”
例如,如果某個對話框導致玩家始終興奮地輸入語音聊天,開發(fā)人員會注意到這一點,類似地,識別并處理與環(huán)境不匹配的異常情況,例如背景噪音。
科諾瓦爾說:“從這些音頻數(shù)據中得出的見解直接有助于改善游戲的音頻體驗,確保玩家不斷地在游戲中投入情感,并與環(huán)境互動。”
科諾瓦爾說,游戲是動態(tài)的,它們產生的數(shù)據也是動態(tài)的。游戲中聊天情緒分析等功能需要實時處理,以過濾玩家的不當行為。“我們已經通過利用像阿帕奇·卡夫卡這樣的流處理框架解決了這個問題,”他說,“這使得我們的游戲主持人可以對任何新出現(xiàn)的模式和問題做出實時回應。”
科諾瓦爾說,隨著游戲的每一次發(fā)布和更新,處理的非結構化數(shù)據量都會呈指數(shù)級增長。“海量的數(shù)據在存儲和高效處理方面構成了嚴峻的挑戰(zhàn)。”他說。
為了解決這個問題,RetroStyle Games投資了數(shù)據湖。科諾瓦爾說:“這不僅使我們能夠存儲大量的非結構化數(shù)據,還能高效地對其進行查詢和分析,為我們的數(shù)據科學家和開發(fā)人員提供對所需信息的即時訪問。”
為GenAI提供動力
分析和執(zhí)行總監(jiān)杰西·哈里奧特表示,員工識別和體驗軟件提供商WorkHuman正在其基于云的平臺上以多種方式利用非結構化數(shù)據。
哈里奧特說:“非結構化數(shù)據是最普遍的數(shù)據形式,但也是最難有效使用的。”
工作人員云包含來自世界各地員工的數(shù)百萬條認可信息,分享對同事的積極反饋。
哈里奧特說:“他們用自己的話做這件事,所以每個識別時刻都是獨一無二的。我們使用這些數(shù)據來支持人工智能模型,幫助公司更好地定義員工如何在他們的企業(yè)中協(xié)作,哪些話題在消息中出現(xiàn)得最頻繁,以及整個企業(yè)的表彰獎勵是否公平。”
該公司還使用大型語言模型來總結隨著時間的推移的識別趨勢,并為有效的識別消息建議語言。
哈里奧特說:“我特別自豪的一項倡議是我們的工具包含顧問,這是一個基于即時人工智能的指導工具,它在將獎項語言發(fā)送給獲獎者之前,識別并建議對無意識偏見的糾正。”
從非結構化數(shù)據中獲取價值的最大挑戰(zhàn)之一是,對于企業(yè)關注的業(yè)務用例,對可靠有效的培訓數(shù)據的訪問受到限制。
“你可以擁有大量的非結構化數(shù)據,但如果沒有有效的訓練數(shù)據來創(chuàng)建和驗證模型,進度和質量將受到影響,”哈里奧特說,“利用LLM當然可以在這方面有所幫助,但現(xiàn)有LLM無法有效地捕獲許多業(yè)務用例。”
此外,哈里奧特說:“在LLM中,培訓數(shù)據中仍然可能存在偏見的問題。”WorkHuman有一個語言團隊,負責數(shù)據注釋、增強和驗證,以處理其中的一些問題。“我們還與我們的大型跨國客戶合作,以確保模型產生有意義和有用的結果。”哈里奧特說。
將非結構化數(shù)據轉化為價值的一些提示
Harriott、Konoval和其他數(shù)據專家就如何在處理非結構化數(shù)據時確保成功提供了建議。
將計劃與業(yè)務成果聯(lián)系起來。Harriott說,IT領導者應該確保利用非結構化數(shù)據的計劃與業(yè)務需求緊密結合,并得到高管的支持。
哈里奧特說:“通常情況下,一個團隊可能對非結構化數(shù)據有一個創(chuàng)造性的用例,但與關鍵業(yè)務結果的聯(lián)系對其他人來說并不明顯,可能會失去支持。領導者有責任讓企業(yè)了解為什么用例很重要,以及它如何直接或間接地推動業(yè)務利益。”
認清這段旅程。此外,數(shù)據領導者應該在達到計劃里程碑時設置并慶祝它們,特別是考慮到使用非結構化數(shù)據創(chuàng)造價值的挑戰(zhàn)是多么困難。
哈里奧特說:“讓非結構化數(shù)據具有可操作性可能需要比企業(yè)預期更多的時間和精力。通過承認里程碑,領導者讓其他利益相關者了解正在取得的進展,并確保他們的團隊成員對他們?yōu)槭狗墙Y構化數(shù)據可操作所做的努力感到贊賞。”
質量是第一要務,成功的另一個關鍵是確定數(shù)據質量的優(yōu)先順序。
科諾瓦爾說:“諺語‘垃圾進來,垃圾出來’再合適不過了。 “在沒有確保數(shù)據質量的情況下進行分析可能會適得其反,我們一直采取這樣的做法:清理數(shù)據,刪除不必要的數(shù)據,并確保其符合質量標準。”
科諾瓦爾說,在游戲行業(yè),“錯誤的決策可能會導致昂貴的功能開發(fā),玩家可能不會與之產生共鳴,更糟糕的是,錯誤可能會玷污我們的聲譽。我們嚴格的數(shù)據治理框架確保了我們的分析基礎堅如磐石。”
將可行動的與信息性的分開。確定業(yè)務用戶可以對其采取行動的數(shù)據的優(yōu)先順序也至關重要。主機托管和數(shù)據服務提供商數(shù)據庫的首席運營官喬·米納里克表示:“重要的是數(shù)據量,并能夠分析哪些是可操作的,哪些是有用的。”
為了強調這一點的重要性,米納里克舉了一個使用非結構化數(shù)據進行系統(tǒng)監(jiān)控的例子。他說:“必須優(yōu)先考慮和迅速解決可行的方面。由于系統(tǒng)的許多方面都受到監(jiān)視,因此單個問題可能會從下游設備生成警報和信息,從而導致需要篩選過多的警報、警報和信息,以確定真正需要解決的單個方面。”
充分利用人工智能。繼續(xù)他的例子,米納里克指出了人工智能和機器學習在分析隨時間推移的非結構化數(shù)據流方面所發(fā)揮的寶貴作用。“它可以幫助你建立系統(tǒng)關聯(lián),”他說,“這讓你可以放下雜音,立即解決問題的根源。”
例如,企業(yè)可以部署命名實體識別(NER),這是自然語言處理(NLP)的一個組件,它側重于識別非結構化文本中的命名實體并對其進行分類,并使用諸如“Person”、“Organization”或“Location”等標簽。
米納里克說:“實際上,實體識別在眾多應用中扮演著至關重要的角色。”其中包括索引和企業(yè)內容的信息檢索系統(tǒng)、在文本中定位答案的問答系統(tǒng),以及根據識別的實體對內容進行個性化的內容推薦引擎。
“通過識別和分類命名實體,NER使數(shù)據分析師和系統(tǒng)工程師能夠從收集的海量數(shù)據中獲得有價值的見解。”米納里克說。
通過可視化確保價值。米納里克說,使非結構化數(shù)據可用的過程不會隨著分析而結束,它的最終結果是報告和傳達調查結果。
米納里克說:“報告通常包括對關鍵發(fā)現(xiàn)、方法和分析的影響的結構化陳述。可視化,如圖表、圖形和儀表板,有助于以可理解的格式傳達復雜的數(shù)據。可視化表示不僅有助于理解,還使利益相關者更容易識別趨勢、離群值和關鍵洞察力,確保及時做出數(shù)據驅動的決策。”
邊走邊監(jiān)控。米納里克說,另一個有時被忽視的關鍵做法是需要持續(xù)監(jiān)測和維護。他說:“現(xiàn)實生活中的數(shù)據是動態(tài)的、不斷演變的。持續(xù)監(jiān)控和維護對于確保數(shù)據在一段時間內保持可用至關重要。”
米納里克說,關鍵是定期清理和進行質量檢查,以保持數(shù)據的準確性和可靠性。必須及時識別和糾正數(shù)據異常、不一致和重復,以防止歪曲或錯誤的分析。
保持團隊技能的敏銳性。最后,投資于正確技能的開發(fā)是一個很好的實踐——考慮到底層工具的不斷發(fā)展,這一努力必須持續(xù)下去。
“數(shù)據分析的世界是動態(tài)的,尤其是圍繞非結構化數(shù)據,”科諾瓦爾說,“最小的優(yōu)勢,比如一支精通最新圖像識別技術和分析概念藝術的團隊,可能是一款游戲成功或失敗的區(qū)別。我們已經看到了先進技術的結果如何影響了我們游戲的故事講述和設計,從而產生了積極的反饋,增加了玩家的參與度。”