大數據世界中的新技術
?大數據世界正在以前所未有的方式發生著變化,特別是企業將數據整合到一起并將其應用到業務的情況下。而企業都面臨的挑戰是能夠發現、識別并帶來構建產品、提供服務和了解客戶所需的數據。數據集成本身幾十年來一直是一種實踐和挑戰。然而,新的工具和流程正在以新的方式使企業達到一種能夠支持人工智能、機器學習和物聯網等復雜應用程序的狀態。問題是,以數據為中心的文化還很遙遠,特別是由于數據仍然存在于孤島中,跨越不同的設備,并以不同的格式存儲,這些可能是很多企業沒有準備好充分利用其潛力的部分原因。
以下是未來一年值得關注的一些發展。
非結構化數據存儲和搜索
首先,企業需要做些什么來處理輸入或生成的不斷增長的數據量。調研機構Constellation Research公司副總裁兼首席分析師Andy Thurai說,“改變游戲規則的是非結構化數據的存儲、管理和搜索方式。人工智能需要采用大量非結構化數據,這很重要,因為收集到的近80%的數據都是非結構化的。”
他補充說,“許多企業擁有的非結構化數據遠遠多于他們真正知道該如何處理的數據。非結構化數據被轉儲到像Amazon S3這樣的存儲設施中,沒有人會費心從中獲取見解,除非有迫切的需求。視頻、圖像和音頻文件以及其他類型的非結構化數據會占用大量空間。鑒于存儲需求的巨大規模,存儲成本成為許多企業的一個主要因素。這種存儲需要比傳統系統便宜得多。”
他表示,Data Lakehouse就是為了解決這些問題而發明的。數據湖直接從原始來源存儲數據,而不需要更傳統的數據倉庫所需要的格式化、清理和轉換。Thurai指出:“Data Lakehouse還支持大規模的機器學習工作負載。”
Thurai表示,現在越來越多的工具和平臺以對非結構化數據進行多語言搜索,搜索未標記、未分類的圖像為特色。以前很難在掃描文檔中搜索圖像。視頻、圖像和音頻自動分類功能是另一個非常重要的領域。數據科學家需要花更少的時間來處理這些數據,而花更多的時間來建立模型。
這樣的能力使系統能夠發現相似之處,這有效地保護了音樂、圖像、音樂視頻等的版權。Thurai說。“現在可以比較兩個非結構化數據片段,例如音樂或視頻,看看其中一個是否復制自另一個。此外,這種能力對情感分析也很有用。例如,如果有人在新聞片段中提到某一公司或個人,人工智能可以自動分析未標記的數據,并預防性地提出緩解措施。”
數據網格
云計算已經出現在商業領域很多年了。然而,大數據領域剛剛開始感受到它的影響。OvalEdge公司首席執行官Sharad Varshney說,“云計算技術現在已經很成熟,但非主流的分布式技術仍在推動數據管理領域最令人興奮的發展。也許其中最重要的是數據網格架構。該技術支持去中心化的數據管理,而不是將數據傳輸到湖泊或倉庫,它是在域中工作的。”
許多有遠見的企業已經開始把它納入他們的數據治理和管理戰略。Varshney說。“主要的云計算和數據組織已經采用了數據網格技術,這是一個積極的跡象,表明這一關鍵戰略正變得更容易實現。與此同時,與數據管理領域內或外的任何新技術一樣,發起文化變革是最重要的障礙之一。”
他警告說。“數據網格技術要求改變用戶和上層管理人員訪問和查詢數據的方式。有些人很難接受將責任從中央權力機構轉移到個人身上。首先也是最重要的是信任的問題。然而,一旦克服了這些最初的障礙,那么該技術的有效性應該可以消除內部擔憂。”
隨著數字產品的興起,大數據分析出現了一種新的方法——產品分析。Heap公司數據科學主管David Robinson說,“每一個使用數字產品的人都在提供制造商如何使其更成功的信息,像SaaS?、電子商務和移動應用程序這樣的數字產品能夠跟蹤行為數據——瀏覽量、點擊量和用戶在使用產品時進行的其他交互。”
他繼續說,“產品分析將數據轉化為改進產品的可操作的見解,就像上一代分析師和數據庫工程師學會了將倉庫轉化為商業智能一樣,我們正在看到從收集的大量行為數據中獲取價值的能力發生轉變。產品經理和設計師不再需要一次采訪幾個用戶,他們可以看到現實世界中成千上萬的用戶如何使用他們的產品。企業的董事不必猜測將戰略投資應用到產品的何處,他們可以衡量和比較每項投資的影響。”
然而,Robinson警告說,一個需要解決的潛在問題是因果推理。他說,“尋找可操作的產品洞察力的科學是對原因的推理,需要回答‘如果改變這個產品,會對業務結果產生什么影響?’這個問題,行為數據尤其充滿了令人混淆的陷阱,粗心的人可能會把相關性當成因果關系。這個問題出現在產品開發過程的每個階段。產品經理可以使用行為數據來衡量受錯誤影響的用戶數量,但對他們來說更重要的是衡量錯誤對業務結果的影響。如果產品經理對行為數據不小心,他們可能會得出一個荒謬的結論——比如‘在所有訪問者中,在結帳頁面遇到錯誤的用戶購買的可能性是其他用戶的10倍’,而只是因為這些用戶是最先到達結帳頁面的用戶。”
機器學習數據集
人工智能的背后是機器學習,它將數據用于訓練算法和模型。然而,這些任務和所需的數據量是巨大的。Camunda公司高級產品經理Eric Lundberg表示:“數據科學家仍將45%的時間花在數據準備上,而訓練有素的數據科學家在全球都存在短缺。能夠提供干凈的、機器學習準備好的數據的數據系統可以減少數據科學家的時間,并將項目的投資回報率提高到足夠高的水平,從而值得投資。如今的軟件供應商越來越多地提供機器學習準備好的數據集,并使任何人都能更容易地創建高質量、有意義的機器學習模型。”
提供機器學習就緒的數據集可以完全消除對基本用例的數據管道的需求。Lundberg說,“這也將人工智能的觸角伸向了公民數據科學家。任何團隊都可以創建自己的機器學習模型,而不是通過對寶貴的數據工程或數據科學資源的激烈競爭來運行項目。”
他警告說,“與此同時,如果企業不是收集數據的人,就不可能保證數據的質量。數據缺失、數據收集不一致或人為錯誤需要時間來糾正,而這些都與數據收集方法有關。但事情正在朝著正確的方向發展。”
Verta公司創始人兼首席執行官Manasi Vartak表示,為機器學習操作數據對數據的管理和交付方式有很大影響。他說,“一個例子是特征存儲的出現,數據科學家使用它來確保跨模型開發和模型生產環境的機器學習模型特征之間的連續性。隨著企業進行數字化轉型的創新,第一個合乎邏輯的步驟是獲取數據,以便對業務問題的潛在人工智能或機器學習解決方案進行研究和試驗。既然模型構建能力已經成熟和穩定,操作模型就有了完全獨特的需求。特征庫是彌合模型構建和模型操作之間鴻溝的一個方面,但對于企業來說,為機器學習操作數據還有很多其他的考慮。”
道德的數據解決方案
塑造該市場的另一個趨勢是,旨在確保更合乎道德地部署人工智能的工具和方法的興起。Diveplane公司銷售工程總監Jack Shu表示,“合乎道德地使用人工智能的核心是合乎道德地使用數據。遵守跨司法管轄的治理往往會妨礙數據的可用性。在某些情況下,需要進一步處理,因為原始數據可能表現出偏見或歧視等潛在屬性。”
Shu繼續說,“數據監控和可觀察性也成為了重要的考慮因素,因為大多數數據源不斷更新,可能會隨著時間推移而漂移。從道德上管理數據所面臨的問題是有多種技術可以解決這些挑戰,盡管每種解決方案往往只關注問題的一個子部分。例如,合成數據的應用允許遵守GDPR法規,從而允許跨司法管轄區傳輸數據。也有各種各樣的解決方案來減輕偏見和歧視,還有另一套數據監測工具。這就產生了針對每個子問題的專門軟件的需求,這可能很快導致成本和復雜性的增加,因為業務用戶需要學習和維護多個軟件和模型。”
Shu推薦了基于實例的機器學習的應用,它能夠使用單一平臺來合成數據,監控數據,并在必要時修復數據不需要的屬性。Shu警告說,“雖然這樣的解決方案現在已經可用,與現有的企業基礎設施和機器學習投資的兼容性可能會減緩新技術的采用,如果能夠克服在企業范圍內采用基于實例的機器學習的障礙,這將為使用單一平臺生成合成數據、減少偏見或歧視以及實時數據監控提供可能性。”
數字集成中心
GigaSpaces公司首席執行官Adi Paz表示,“如今IT基礎設施錯綜復雜,構建新的數字服務是一項艱苦的工作,開發周期很長,遠遠落后于市場需求。數字集成中心有助于通過將記錄系統與數字應用程序分離來克服這些障礙。”他表示,企業能夠在現有遺留系統之上快速推出原生云數字服務,將開發工作重點放在交付穩定的高性能數字服務流上,而不是將時間花在系統記錄集成上。
這樣的中心是“中間件”的一種形式,它需要集成到企業IT架構上,并將其連接到組織的不同記錄系統上。Paz警告說,“有些企業在開放他們的IT基礎設施和在現有架構上添加外部集成層方面猶豫不決。”
不過他表示,這些中心通過大幅縮短新數字服務的上市時間,促進了業務加速,通過使開發人員能夠專注于新的業務邏輯,而不是將時間花在重復的數據集成任務上,有助于推動創新。
交換/數據融合
數據交換和數據融合正在作為預先配置的集成環境出現,它省去了許多減慢數據分析應用程序和功能的前期工作。Smart Sense公司首席產品官Sammy Kolt表示:“數據交換允許企業將其技術合作伙伴平臺生成的數據導入到自己的系統中,以便在自己的商業智能或分析工具中使用。當多個數據流被整合到一個數據庫中進行額外分析時,就會發生數據融合。像天氣和交通這樣的外部數據流可以幫助通知和影響需要做出的關鍵業務決策。例如,當電力、溫度、能源、庫存和財務數據集組合在一起時,內部數據流會帶來復合效應。當供應商和平臺超越專有報告,開放他們的系統,并提供對底層結構化數據的訪問時,這一切都成為可能。”
Kolt解釋說,數據交換和數據融合有助于減輕數據科學團隊的工作量。他說,“企業不再只指望使用供應商提供的開箱即用的報告。他們希望能夠訪問這些數據,這樣他們的團隊就可以對這些數據進行額外的分析。數據科學團隊需要為這種方法做好準備。當企業的數據科學團隊沒有明確定義或設計良好時,障礙就會出現。創建一個數據科學團隊,既關注技術方面,也關注業務分析。”
Kolt說:“那些將自己定位為平臺的企業已經發現,他們通過數據交換為客戶增加了價值。在某些垂直領域的數據科學成熟度與它們與這一概念的距離之間存在明顯的相關性。”
數字資產管理
數字資產管理平臺正在崛起,Hyland公司主要內容架構師Alan Porter表示:“在一個存儲庫中,在正確的時間快速訪問正確的資產的需求從未如此之大,而這些資產的數量也從未如此之大。數字資產管理將數據、圖像、文件和相關材料集合在一起,消除了這些資產周圍的孤島,并通過適當的元數據輸入和標記,使這些資產更容易通過平臺檢索。”
在早期,數字資產管理主要是由營銷部門用于管理內容和資產。他補充說,“快進到今天,技術已經發展到包括產品資產管理,并適用于企業,還包括產品團隊和更多的人,以連接內容、數據和其他資產。在龐大的、迅速發展的資產存儲庫中,員工經常會浪費大量的人力時間來查找和檢索所需的文件——或者由于很難找到合適的內容,只能采用擁有的任何資源,從而產生低質量的輸出。”
人工智能現在在這些平臺的性能中也扮演著關鍵角色。Porter說:“在該框架之上,一個能夠學習不同數據集之間聯系的人工智能引擎使這些資產更加有用和實用。”
Porter警告說,DAM平臺的有效性依賴于前端準確、完整和詳細的元數據輸入。為了為搜索特定資產的用戶提供最佳結果,平臺需要基于最佳數據進行工作。?