經得起未來考驗的大數據戰略
?數據對技術領域內外的企業都至關重要。特別是當大數據遇到第二方和第三方數據的世界,承諾提供寶貴的見解,以推動業務的各個方面發展。到目前為止,大多數企業已經開始了他們的數據之旅。盡管企業在繁瑣但關鍵的數據成熟度追求中變得更加自如,但2023年將顛覆這一新發現。
發現或使用過生成式人工智能模型(如ChatGPT)的用戶,已經有效地見證了成熟的數據和人工智能用例是如何從過度炒作轉變為必不可少的工具。然而,人們在大數據之旅中遇到的同樣的障礙仍然存在,因此首先要了解如何管理大量數據,并利用它們更好地做出決策。
大數據為企業提供了許多優勢,例如提高業務效率和預測未來的業務結果。但要想走在創新的前沿,科技領導者必須消除普遍存在的誤解,擁抱新興趨勢。
消除對大數據誤解
關于大數據的許多常見誤解依然存在。那么,需要消除的最主要的誤解是什么?利用大數據可以保證更好的決策。雖然大數據項目旨在從給定的數據點中發現一些關系和模式,但最終,成功的大數據項目取決于利益相關者如何解釋這些關系和模式。
人們也很容易忽略輸入決策系統或算法的偏差或錯誤數據。在最好的情況下,這些偏見可能會使決策系統表現不佳;而在最壞的情況下,偏見可能會完全而危險地誤導決策。與突破性發展并行的是,在過去的20年,人們也看到無數的項目成為糟糕規劃和誤解數據、問題或領域的犧牲品。
新的數據計劃伴隨著這些項目將取代數據倉庫工作的假設而出現。大數據平臺不應單獨使用,而應作為傳統數據管理系統的補充。結構化數據和可預測的工作負載將始終彼此協同工作。如果沒有數據、人員和系統來驗證黑盒算法,那么這些算法在使用或濫用時將繼續造成嚴重破壞。這些問題將引發一系列圍繞更負責任的人工智能以及不可避免的監管的對話。
大數據的四大趨勢
隨著大數據變得無處不在,它將繼續以四種主要方式發展:元數據驅動的數據結構和圖表的使用增加,AutoML機器學習的民主化,生成式人工智能的大規模采用和顛覆,以及研發預算的減少。
(1)元數據驅動的數據結構
元數據驅動的數據結構用于連接不同的數據工具集合,這些工具具有極大的靈活性、用于建模的基礎設施和更大的數據集,可以驅動真正的洞察。提高數據管理的敏捷性應該是所有組織的優先事項,尤其是那些使用大數據為決策提供信息的組織。當與元數據或“場景中的數據”交互時,數據結構允許集成不同的數據湖,并從正式結構化的數據架構結構中提取知識圖。數據結構偵聽、學習元數據并對其進行操作,從而創建一個更加自主和用戶友好的數據覆蓋系統。
根據Gartner公司發布的一份報告,數據結構中的主動元數據輔助自動化功能將會減少三分之一的人力,同時將數據利用率提高四倍。部署這種數據結構方法的主要目標是通過增加對場景化信息的訪問和理解,為大數據提供更多價值。
(2)民主化機器學習
對于那些使用大數據的人來說,進行廣泛開發的機會是利用AutoML使機器學習大眾化。AutoML是一類機器學習算法,它有助于自動化機器學習模型的設計和訓練。由于其簡化的方法和流程,AutoML擴大了大數據和機器學習的使用,使其更適合用戶使用。使用AutoML的目標是構建用戶能夠創建自己的機器學習模型的算法,而不是需要人工輸入未來的機器學習模型。
在現實中,觀察到越來越多的企業使用AutoML來授權具有缺乏數據科學專業知識的員工來構建健壯的模型。與生成式人工智能一樣,自動人工智能在應用于正確的問題時是一個令人難以置信的工具,但如果在公民數據科學的背景下使用,它可能是危險的——這是開箱即用的工具,沒有什么過程或思想。自動人工智能系統可以讓用戶快速構建,但它也可以使算法和分析不像它們看起來的那么好,或者可能產生有偏見的結果。這些陷阱非常普遍,毫無疑問,這些工具功能強大且快速,但它們需要專業知識和大量數據。
(3)生成的人工智能
GPT3和ChatGPT已經展示了大型語言模型(LLM)的強大功能和質量。雖然大型語言模型(LLM)已經存在了一段時間,但ChatGPT提醒了人工智能的潛力和成熟狀態,以及它以復雜和通用的方式處理和創造的能力。其結果將是其用例的激增,這將擴展應用人工智能的方式。
(4)減少研發預算
數據多樣性的增加和分析方法的進步使得商業結果在大數據計劃中變得至關重要。隨著大數據和內部流程的優化越來越成為組織的核心,采用大數據項目減少了研發預算。首席數據官以及企業內部專門的數據實踐和團隊的出現進一步加劇了這一趨勢。
大數據不是一個設置即忘的過程
在考慮數據策略時,需要勤奮地工作以確保正在構建的決策系統獲得良好的結果。使用生成式人工智能或公民人工智能工具實現目標變得越來越容易。然而,組織必須有意識地處理如何收集、存儲、組織和清理數據。否則,很容易得出錯誤的結果。
定義大數據成功的一些核心因素包括創建備份決策系統來證實結果,并為該計劃分配足夠的資金和。此外,始終確保將盡可能多的行業知識注入到決策系統的構建和部署中。?