人工智能將如何挖掘暗數據?
人工智能有可能通過分析和解釋大量非結構化數據來揭示暗數據,這些數據以前很難或不可能用傳統方法進行分析。但Fluree公司首席執行官兼聯合創始人BrianPlatz警告說,買家要小心,并非所有數據都是平等產生的。
ChatGPT引起了人們對生成式人工智能將互聯網語境化和排序為簡單摘要和答案的能力的新關注。它還強調了過度依賴人們看不見的數據的一些危險。像Reddit這樣的論壇很快就有反對人工智能生成的容易出錯的回復。其根本的問題是,像ChatGPT這樣的現有工具是在可能不可信的數據上訓練的,這些數據從未經過準確性、偏見、質量或意義的審查。人們需要開始思考人工智能如何幫助將這些暗數據轉化為可信的關聯數據的自動化過程。
轉換暗數據
如今,由于遺留數據管理流程,需要大量的專業知識來審查數據。企業必須開發新的工作流程和工具來理解、清理、處理和鏈接數據。這就是新的人工智能工具可以幫助企業自動化將鎖定在不同應用程序和部門孤島中的暗數據轉換為可信關聯數據的過程。人們仍然處于這些新的人工智能工作流程的早期階段。
如今,企業在創建新的應用程序、報告或決策引擎時,要花費大量時間來查找和排序數據。領先的企業供應商提供ERP、CRM或事務處理系統,這些系統為一個狹義定義的目的組織數據。然而,這些工具需要在集成、元數據管理和數據清理方面做更多的改進,以支持創新的新用例或業務模型。而且很多企業數據的質量和完整性仍然受到質疑。HFSResearch公司最近的一項調查發現,75%的企業高管不相信他們的數據。
在過去的幾十年,隨著企業探索如何理解不斷增長的數據存儲,大數據的概念開始流行起來。當企業事先知道如何將數據倉庫構建成格式時,它們就會構建數據倉庫。數據湖是作為一種聚合數據的方式而出現的,它可以在事后重新利用。但企業很快發現,這也需要大量的工作來組織、清理和理解數據。數據科學家和其他需要訪問數據的人也不需要大量的數據。在大多數情況下,他們只需要訪問很少的特定數據。
如今,企業數據行業與萬維網早期的情況相同,當時人們必須手動管理到其他頁面的鏈接。谷歌很快超越了雅虎等巨頭,用一種更好的方式來自動化信息的索引和優先排序。那些找到新方法,利用人工智能更有效地將暗數據轉化為可信關聯數據的公司,可能會在下一波互聯網浪潮中看到類似的收益。
從鏈接頁面到鏈接數據
眾所周知,網絡在20世紀90年代初引入,為在線查找信息提供了基礎設施。值得注意的是,網絡的成功是建立在之前鏈接知識的努力之上的。在線系統(NLS在20世紀60年代早期創建。但它需要一個困難的學習曲線,限制了少數專家的使用。實際上,在20世紀80年代初在歐洲核子研究中心擔任臨時承包商時,首次嘗試將文件與一款名為ENQUIRE的應用程序聯系起來。
1984年,當他回到歐洲核子研究中心工作時,他意識到要保持鏈接的更新需要大量的人工工作。HTML的引入允許發布者以一種減輕其他人負擔的方式構建信息。這種改進的結構為因特網成長為當今的樣子提供了適當的基礎。
然而,他也設想互聯網是一個連接的語義網,用戶可以在其中寫入和讀取數據。他早期的瀏覽器在功能強大的NeXT電腦上運行。最終被廣泛采用的馬賽克瀏覽器是為性能較差的計算機設計的,不支持鏈接數據或身份,因此它們只能用于讀取數據而不能寫入數據。關聯數據可以更容易地理解數據是如何連接的,而身份則需要遵循數據跟蹤回到其來源。
從那時起,行業專家一直在推動新的標準和工具來連接數據,使其作為語義網的一部分更有價值和可訪問性。早期的例子包括,在谷歌搜索一部電影時,如何將相關信息組織成卡片,顯示附近的影院、評分、片長、演員和快速摘要。谷歌搜索報告了許多公司在向其網站添加結構化數據后看到流量或時間增加的案例。例如,雀巢(公司在添加結構化數據標記后打開新窗口的點擊率提高了82%,而樂天(Rakuten)發現,用戶在包含結構化數據的頁面上花費的時間增加了1.5倍。
關聯數據自動化
關聯數據工具非常適合定義良好的實體,如電影、食譜和餐館。不過,對于其他領域來說,它們要復雜得多,比如跟蹤不同渠道的客戶旅程,或者將供應鏈數據和物聯網數據流與第三方來源鏈接起來。這就是下一代人工智能增強將有助于照亮黑暗數據的地方。這其中有幾個因素。
在現有數據集上運行人工智能算法可以幫助組織來自許多來源的數據。一種方法可能是探索自動化公平指導原則的方法。為科學數據在2016年引入的科學數據管理和管理最佳實踐打開了新的窗口。這個術語指的是使數據可查找、可訪問、可互操作和可重用。
但追蹤與數據相關的身份也很重要。例如,更有可能相信消費者報告上發布的產品評論。同樣,在做出貸款決策時,安全地跟蹤與銀行、信用卡報告和政府機構安全鏈接的數據鏈也會很有幫助。
身份不僅僅適用于人類。相同的身份基礎設施還可以連接直接從供應鏈中的各種傳感器提取的數據,以跟蹤產品在供應鏈中的收獲、生產和運輸的地點和方式。
互聯數據生態系統
尋找自動化這個過程的方法將幫助企業獲得與谷歌看到的自動化頁面排名方法相同的優勢。自動化連接連接到已驗證身份的數據的過程將為有效地為不同用例使用更多數據提供新的機會。需要找到更好的方法來轉換數據,開發標記數據的流程,并優先考慮數據質量工作,供主題專家審查。
從短期來看,這將提供一種自動化數據清理和標簽的方法,將孤立的數據轉移到連接的數據生態系統中。如今,非常昂貴的數據科學家和工程師必須編寫自定義代碼來處理數據。
腳本中斷,必須在每次更新數據時進行修復。人工智能自動化可以幫助企業大規模創建關聯集。隨著時間的推移,它將提供一條引入暗數據的途徑,并使其變得更輕松,使其在企業內部和分散的網絡上都更容易訪問。