新報告稱數據依然是用好GenAI的障礙
像GPT-4和Gemini這樣的預訓練大型語言模型(LLM)非常棒,但真正的競爭優勢來自于將LLM與私有數據相結合。不幸的是,根據麻省理工科技評論(MIT Technology Review)的一份新報告,企業為GenAI準備數據資產的情況存在問題。
毫無疑問,生成式人工智能(GenAI)已經引起了企業組織的注意,他們渴望使用LLM來構建聊天機器人、數字助理和其他類型的應用程序。在接受麻省理工科技評論調查的高管中,82%的人認為擴展人工智能或GenAI是“首要任務”。這份報告的標題是“高管級領導者的人工智能準備情況”,是由ETL供應商Fivetran委托進行的。
根據調查,企業組織對與GenAI一起使用的數據有很好的了解,調查發現83%的組織已經確定了用于人工智能或GenAI的數據源。
但是,在需要的時候、需要的地方、充分的清理和準備以及以適當的格式將數據交付給GenAI應用程序時,組織準備得如何呢?在不危及隱私和安全的情況下做到這一切?
當然,這才是真正的核心,并不是很多組織都做得很好,至少目前還不是。
將所有數據工具和技術放在同一頁面上的困難是巨大的。正如IDC分析師斯Stewart Bond在接受麻省理工科技評論采訪時稱,IDC最近的一項研究得出的結論是,一般企業“有十幾種不同的技術來收集有關其數據的所有情報,同時也有同樣多的技術來整合、轉換和復制這些情報。”“技術‘債務’是非常真實的。”
麻省理工科技評論在其報告中表示,為集中式數據倉庫計劃開發的舊數據集成和ETL工具可能不適合新的GenAI用例。這就是為什么調查發現82%的受訪技術高管表示他們“正在優先考慮獲取數據集成和數據移動解決方案,這些解決方案將在未來繼續發揮作用,無論數據戰略和合作伙伴發生了其他變化。”
報告發現,獲得更好的數據集成和ETL/數據管道工具顯然是一個優先事項,但還有其他重要的投資需要進行。64%的受訪者表示,數據集成和ETL/管道工具是GenAI投資的兩大優先事項之一,35%的受訪者認為數據湖是優先事項,而31%的受訪者認為數據轉換工具是優先事項。與此同時,數據目錄和LLM投資僅占7%的份額,矢量數據庫和計算層位居中間。
接受調查的技術高管發現,在構建數據基礎方面存在許多挑戰,包括數據集成和構建數據管道;數據治理和安全;還有數據質量等問題。
在數據集成/數據管道方面,組織最頭疼的四大任務包括:管理數據量;將數據從本地遷移到云端;實現實時訪問;管理數據的變化。根據這項研究,整合來自不同地區的數據和整合第三方數據也獲得了顯著的反響。
Fivetran首席執行官George Fraser認為,強大的數據基礎是GenAI成功的必要條件。
Fraser在報告中表示:“在你開始雇傭大量數據科學家和啟動大量生成式人工智能項目之前,你要確保有一個擁有干凈、精心策劃的數據的企業數據倉庫,它應該支持你所有的傳統商業智能和分析工作負載。”“如果組織不從建立強大的數據基礎開始,他們的數據科學家就會把時間浪費在基本的數據整合和清洗上。”
當涉及到數據治理、遵從性和報告方面時,調查數據變得更加微妙。
雖然大部分受訪者表示,他們為人工智能準備數據的最大挑戰是數據治理和安全(44%的受訪者提到)和數據集成或管道(45%的受訪者提到),但對調查更深入研究揭示了一個有意義的分歧。調查顯示,政府和金融服務機構這兩個高度保守的領域高度關注安全和治理,而制造業、零售業和其他行業的技術高管對安全和治理的關注相對較低。