GenAI可以照亮數(shù)十年的暗數(shù)據(jù)
? GenAI正在改變組織管理和利用非結(jié)構(gòu)化數(shù)據(jù)的方式。
? 非結(jié)構(gòu)化數(shù)據(jù)包括文檔、照片和視頻,雖然數(shù)量巨大,但難以駕馭。
? 盡管GenAI提供了強(qiáng)大的工具來提取和利用這些數(shù)據(jù),但專家強(qiáng)調(diào)需要強(qiáng)有力的數(shù)據(jù)治理。
GenAI正在革新組織管理和使用非結(jié)構(gòu)化數(shù)據(jù)的方式,這是一種長期以來數(shù)量龐大卻難以駕馭的資源,但如果沒有明確的策略,它可能會打開“潘多拉的盒子”。
結(jié)構(gòu)化數(shù)據(jù)包括常見的表格、Excel表和數(shù)據(jù)庫,而非結(jié)構(gòu)化數(shù)據(jù)則涵蓋從舊郵件、PDF、采購訂單和發(fā)票到培訓(xùn)手冊和維修指南的所有內(nèi)容。IDC數(shù)據(jù)智能與集成軟件副總裁Steward Bond指出,由于管理不當(dāng),這些數(shù)據(jù)通常被忽視,閑置在硬盤或云存儲中未被使用。
“我認(rèn)為,使用GenAI來揭示‘黑暗數(shù)據(jù)’中隱藏的機(jī)會是巨大的,”Bond在接受Fierce Network采訪時表示,“GenAI可以用于讀取未標(biāo)記或未標(biāo)簽的內(nèi)容,識別內(nèi)容中的信息(包括任何敏感信息),并添加適當(dāng)?shù)脑獢?shù)據(jù),使其變得可見并可用于使用。”
組織生成了海量的非結(jié)構(gòu)化數(shù)據(jù),根據(jù)IDC全球數(shù)據(jù)球體(Global DataSphere)的估計(jì),僅在2023年就創(chuàng)造了132澤字節(jié)的數(shù)據(jù),其中64%來自企業(yè)。Bond表示,這其中很多是“黑暗數(shù)據(jù)”,即沒有被適當(dāng)?shù)夭蹲健?biāo)記或管理,因此難以訪問和使用。
然而,大型語言模型非常適合理解和處理非結(jié)構(gòu)化數(shù)據(jù),因?yàn)樗鼈兺ㄟ^大量此類內(nèi)容進(jìn)行訓(xùn)練。Bond解釋說,大型語言模型可以基于非結(jié)構(gòu)化數(shù)據(jù)輸入回答各種問題并生成內(nèi)容。
事實(shí)上,像檢索增強(qiáng)生成(RAG)這樣的技術(shù)提供了一種將額外數(shù)據(jù)融入模型提示中的方法,從而提高生成內(nèi)容的準(zhǔn)確性和相關(guān)性。
非結(jié)構(gòu)化數(shù)據(jù)能告訴我們什么?
企業(yè)和服務(wù)提供商都認(rèn)識到GenAI在從長篇文檔、研究論文和電子郵件等非結(jié)構(gòu)化來源中提取并結(jié)構(gòu)化數(shù)據(jù)方面的潛力。
這種能力對于需要將非結(jié)構(gòu)化數(shù)據(jù)與下游流程連接的組織至關(guān)重要,例如將采購訂單集成到ERP系統(tǒng)中,IDC企業(yè)內(nèi)容與知識管理戰(zhàn)略研究經(jīng)理Amy Machado表示。除了簡單的提取,GenAI還可以幫助組織搜索、發(fā)現(xiàn)、總結(jié),甚至基于現(xiàn)有的非結(jié)構(gòu)化數(shù)據(jù)生成新內(nèi)容。
Machado在接受Fierce采訪時表示,這將以往難以訪問的知識轉(zhuǎn)化為可執(zhí)行的洞察,從而推動業(yè)務(wù)流程和決策。“很多非結(jié)構(gòu)化數(shù)據(jù)中存儲了知識。”她補(bǔ)充道。
例如,AWS現(xiàn)在使用GenAI來增強(qiáng)其銷售團(tuán)隊(duì)的能力,通過將CRM系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)與銷售資料等非結(jié)構(gòu)化數(shù)據(jù)結(jié)合,模型能夠生成全面的客戶賬戶摘要,為銷售團(tuán)隊(duì)提供更多上下文相關(guān)的見解。
結(jié)構(gòu)化數(shù)據(jù)提供了定量基礎(chǔ)(例如,消費(fèi)、管道)以及歷史趨勢,而非結(jié)構(gòu)化數(shù)據(jù)則增加了定性的深度。像銷售資料和外部網(wǎng)頁數(shù)據(jù)這樣的非結(jié)構(gòu)化內(nèi)容提供了結(jié)構(gòu)化數(shù)據(jù)可能遺漏的背景和細(xì)節(jié)。
“GenAI和大型語言模型徹底改變了我們對非結(jié)構(gòu)化內(nèi)容的處理方式,過去大規(guī)模分析這些內(nèi)容一直具有挑戰(zhàn)性。”AWS GenAI首席技術(shù)產(chǎn)品經(jīng)理Rupa Boddu在接受Fierce Network采訪時表示。
清理不良數(shù)據(jù)
盡管利用GenAI處理非結(jié)構(gòu)化數(shù)據(jù)的好處顯而易見,但同樣重要的是確保這些模型所使用的數(shù)據(jù)是準(zhǔn)確的、公正的,并且不包含敏感信息。
非結(jié)構(gòu)化數(shù)據(jù)就像一個數(shù)字垃圾場,信息被拋棄并遺忘了很多年。現(xiàn)在,許多公司對其中隱藏的信息幾乎沒有了解,打開這個“垃圾場”可能會帶來不可預(yù)見的后果。
Gartner副總裁分析師Bart Willemsen表示,使用非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行GenAI應(yīng)用引發(fā)了有關(guān)隱私和數(shù)據(jù)治理的關(guān)鍵問題,“這是大多數(shù)企業(yè)似乎還未解決的問題。”
Willemsen指出,大多數(shù)公司實(shí)際上并不了解他們所積累的數(shù)據(jù)——在某些情況下,這些數(shù)據(jù)可能有幾十年的歷史——他們不清楚最初為什么會擁有這些數(shù)據(jù),或這些數(shù)據(jù)服務(wù)于什么目的。
如果沒有適當(dāng)?shù)臄?shù)據(jù)治理,GenAI可能會傳播錯誤信息或偏見,導(dǎo)致錯誤的輸出和潛在的有害決策。因此,企業(yè)必須實(shí)施強(qiáng)有力的數(shù)據(jù)治理框架,以管理用于訓(xùn)練和部署GenAI模型的非結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量和安全性。
Willemsen總結(jié)道,企業(yè)應(yīng)該在使用任何AI之前,具備“絕對的、細(xì)致的”數(shù)據(jù)治理控制。“我不在乎AI技術(shù)本身有多好,如果你有糟糕的數(shù)據(jù),那么你的AI也會很糟糕。”