2025年大數據重回焦點，決定AI成敗

作者：Joe McKendrick 2024-12-23 15:48:38

隨著GenAI的興起，人們一度忽視了數據的重要性，然而，現在人們意識到，AI的基礎建立在數據之上，數據的質量和可信度至關重要。2025年，大數據將重新成為焦點，因為AI的成功與否取決于用于訓練和測試的數據。

又到了每年人們發布對未來一年預期的前十或前二十大榜單的時候了。與往常一樣，我沒有隨波逐流再列一個榜單，而是將我對未來一年的預測限定在一個引人注目的趨勢上。

未來一年，大數據將重回人們的視野。數據正在變得比“新石油”更重要，它正在成為新的貨幣。大約十年前，隨著分析成為商業成功的關鍵路徑，大數據開始受到廣泛關注，但后來由于大數據無處不在，這一術語也變得不再重要。

在過去兩年中，在GenAI引發的所有興奮中，數據——或對數據質量和可信度的關注——似乎都被GenAI所帶來的華麗圖示和極具洞察力的見解所掩蓋。現在，隨著GenAI對商業至關重要，人們意識到他們的AI基礎是建立在一堆松散的沙子上的。

當AI出現“幻覺”時，并不是因為它的“心思”在游走，因為它根本沒有心思可言，它只是根據概率運行，抓取下一個可用的相關數據來完成敘述。

現在，甚至有人擔心我們開始缺乏足夠的數據來喂養這些機器。“世界上大多數公開可用的數據——無論是合法獲得的還是非法獲得的——都已經被耗盡了。”Constellation Research的高級分析師Andy Thurai表示，這種瘋狂何時才能結束，對吧?

因此，沒錯，2025年數據將再次成為焦點，因為我們需要大量的數據，而且這些數據必須非常好、非常及時。

“在2010年代，所謂的大數據時代，數據風靡一時，”dbInsight的負責人Tony Baer表示，“隨著云計算規模使大數據成為常態，我們開始理所當然地獲取和管理大量數據，然后去年GenAI橫空出世，風險基金開始瘋狂追逐AI。”

Qlik的一份報告指出，大數據和AI“具有協同效應”。“大數據分析利用AI進行更好的數據分析。反過來，AI需要大規模的數據來學習和改進決策過程。”

大數據將決定AI的成敗。“雖然AI一直依賴于用于訓練和測試的數據，但越來越明顯的是，數據才是AI獲勝的關鍵因素。”Thurai表示。

Presidio對1000名IT高管的調查顯示，至少有86%的高管報告了與數據相關的AI障礙，如難以獲得有意義的見解和實時數據訪問問題，其中一半人認為他們在完全準備好之前就匆匆投入了GenAI。

風險投資界仍然對AI充滿熱情，“但你猜怎么著?這需要高質量、經過驗證的數據，而且不能侵犯隱私或數據主權。”Baer表示。

因此，人們越來越強調檢索增強生成(RAG)解決方案，這是標準數據庫和大型語言模型之間的橋梁，Baer說。

Baer提到了AI Alliance(一個由領先科技公司組成的聯盟)的最新公告，該公告強調了建立可信數據基礎的重要性。

AI Alliance在宣布其開放可信數據倡議的一份聲明中表示：“數據是AI模型和系統最重要的組成部分，然而如今AI所用的數據往往來源不明、授權不清，并且在語言、模態和專家領域的質量和多樣性方面存在巨大差距。”

該倡議的目標是發布“大規模開放、許可寬松的數據集，這些數據集在所有對AI至關重要的領域和模態中都具有清晰的來源和血統”。該倡議匯集了來自Pleias、BrightQuery、Common Crawl、ServiceNow、Hugging Face、IBM、Allen Institute for AI、Cornell、Aitomatic、Tokyo Electron和EPF等20多個組織的150多名參與者。

該倡議的成員“正致力于開發更好的要求、流程和工具來管理數據集，使其更加透明、可信、準確，并得到廣泛應用”。

除了完善開放可信數據的規范外，聯盟成員還計劃構建可信數據處理的工具和發布管道，包括端到端的血統跟蹤功能。聯盟還打算“顯著擴展數據目錄，旨在包含世界上大多數語言的數據、高質量多模態數據的大型存儲庫(包括圖像、音頻和視頻)，以及時間序列和科學模態”。

隨著全球數據變得越來越寶貴，Thurai預見領先的大型語言模型之間的差異將越來越小。因此，企業將轉向更狹窄或更專注的模型，這些模型利用特定行業的數據。例如，針對金融行業的BloombergGPT、Google專為醫療保健行業開發的Med-PaLM2，以及基于大量法律案件、法規和監管來源訓練的Paxton AI法律語言模型。

Thurai表示，BloombergGPT“是一個擁有500億個參數的LLM(大型語言模型)，專門在廣泛的金融數據上進行訓練。因此，在金融自然語言處理任務方面，它比其他AI模型表現更好，甚至超過了同樣規模的開放模型。”

Thurai介紹稱，Med-PaLM2“在大量醫療數據集上進行訓練，包括教科書、研究論文、患者記錄等，這種密集訓練幫助該模型獲得了深厚的醫學知識，使其能夠理解醫療保健領域使用的復雜語言和概念。”

Thurai表示，Paxton AI法律語言模型“提供了對美國所有50個州和聯邦司法管轄區的數百萬個法律來源(包括法律、法院裁決和法規)的實時訪問”。

隨著來自各種來源的大數據不斷增加，合成數據的使用也將增加，但Thurai建議謹慎采用。“利用合成數據來訓練AI模型現在已經成為一個更大的家庭手工業，”他表示，“雖然其中很多都用于填補數據盲點，但有時這可能適得其反。通過使用AI來生成數據，可能會產生僅基于預期場景訓練的模型，這些模型在現實世界中遇到意外問題時可能會束手無策。”

責任編輯：龐桂玉來源：企業網D1Net

大數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2025年大數據重回焦點，決定AI成敗