研究表明:數據來源仍然是 AI 的主要瓶頸
數據是機器的命脈。沒有它,你就無法構建任何與 AI 相關的東西。根據 Appen 本周發布的 AI 和機器學習狀況報告,許多組織仍在努力獲取良好、干凈的數據以維持其 AI 和機器學習計劃。
根據Appen對人工智能的調查,在人工智能的四個階段——數據采購、數據準備、模型訓練和部署以及人工指導的模型評估中,數據采購消耗的資源最多、花費的時間最多、最具挑戰性。 504 位商業領袖和技術專家。
根據 Appen 的調查,平均而言,數據采購消耗組織人工智能預算的 34%,而數據準備和模型測試和部署各占 24%,模型評估各占 15%,該調查由 Harris Poll 進行,包括 IT 決策者、來自美國、英國、愛爾蘭和德國的商業領袖和經理以及技術從業者。
就時間而言,數據采購消耗組織大約 26% 的時間,而數據準備和模型測試、部署和模型評估分別占 24% 和 23%。最后,與模型評估 (41%)、模型測試和部署 (38%) 以及數據準備 (34%) 相比,42% 的技術人員認為數據采購是 AI 生命周期中最具挑戰性的階段。
據技術專家稱,數據采購是人工智能面臨的最大挑戰。但商界領袖對事物的看法不同……
盡管存在挑戰,但組織正在使其發揮作用。據 Appen 稱,五分之四 (81%) 的受訪者表示,他們有信心擁有足夠的數據來支持他們的人工智能計劃。這一成功的關鍵可能在于:絕大多數 (88%) 正在通過使用外部 AI 訓練數據提供商(例如 Appen)來擴充他們的數據。
然而,數據的準確性是有問題的。Appen 發現,只有 20% 的調查對象報告數據準確率超過 80%。只有 6%(約十分之一的人)表示他們的數據準確度為 90% 或更高。換句話說,五分之一的數據包含超過 80% 的組織的錯誤。
考慮到這一點,根據 Appen 的調查,近一半 (46%) 的受訪者同意數據準確性很重要,“但我們可以解決它”,這也許并不奇怪。只有 2% 的人表示數據準確性不是一個大需求,而 51% 的人同意這是一個關鍵需求。
看來,Appen 首席技術官 Wilson Pang 對數據質量重要性的看法與 48% 的客戶認為數據質量不重要。
“數據準確性對于 AI 和 ML 模型的成功至關重要,因為質量豐富的數據會產生更好的模型輸出以及一致的處理和決策制定,”Pang 在報告中說。“為了獲得良好的結果,數據集必須準確、全面且可擴展。”
超過 90% 的 Appen 受訪者表示他們使用預先標記的數據
Pang在最近的一次采訪中告訴表示,深度學習和以數據為中心的 AI 的興起已將 AI 成功的動力從良好的數據科學和機器學習建模轉變為良好的數據收集、管理和標記。對于當今的遷移學習技術來說尤其如此,人工智能從業者從一個大型預訓練語言或計算機視覺模型的頂部跳出來,用他們自己的數據重新訓練一小部分層。
更好的數據還可以幫助防止不必要的偏見滲入 AI 模型,并通常防止 AI 出現不良結果。澳鵬人工智能專家高級主管 Ilia Shifrin 表示,對于大型語言模型尤其如此。
“隨著基于多語言網絡爬蟲數據訓練的大型語言模型 (LLM) 的興起,公司面臨著另一個挑戰,”Shifrin 在報告中說。“由于大量有毒的語言,以及訓練語料庫中的種族、性別和宗教偏見,這些模型經常表現出不良行為。”
Web 數據中的偏見引發了一些棘手的問題,雖然有一些變通方法(改變訓練方案、過濾訓練數據和模型輸出,以及從人類反饋和測試中學習),但需要更多的研究來為“以人為中心”建立一個良好的標準Shifrin 說,LLM 基準和模型評估方法。
據 Appen 稱,數據管理仍然是 AI 面臨的最大障礙。調查發現,人工智能循環中 41% 的人認為數據管理是最大的瓶頸。缺乏數據排在第四位,30% 的人認為這是 AI 成功的最大障礙。
但也有一些好消息:組織花在管理和準備數據上的時間呈下降趨勢。Appen 說,今年這一比例剛剛超過 47%,而去年的報告中為 53%。
數據準確性水平可能沒有某些組織希望的那么高
“大多數受訪者使用外部數據提供商,可以推斷,通過外包數據采購和準備,數據科學家正在節省正確管理、清理和標記數據所需的時間,”數據標簽公司表示。
然而,從數據中相對較高的錯誤率來看,也許組織不應該縮減他們的數據采購和準備流程(無論是內部的還是外部的)。在建立和維護 AI 流程方面存在許多相互競爭的需求——聘用合格的數據專業人員是澳鵬確定的另一個首要需求。但是,在數據管理方面取得重大進展之前,組織應繼續對其團隊施加壓力,以繼續推動數據質量的重要性。
調查還發現,93% 的組織強烈或在某種程度上同意道德 AI 應該是 AI 項目的“基礎”。Appen 首席執行官 Mark Brayan 表示,這是一個良好的開端,但還有很多工作要做。“問題是,許多人都面臨著試圖用糟糕的數據集構建偉大的人工智能的挑戰,這為實現他們的目標創造了一個重要的障礙,” Brayan 在一份新聞稿中說。
根據 Appen 的報告,內部、自定義收集的數據仍然是用于 AI 的組織的大部分數據集,占數據的 38% 到 42%。合成數據的表現出乎意料地強勁,占組織數據的 24% 到 38%,而預先標記的數據(通常來自數據服務提供商)占數據的 23% 到 31%。
特別是合成數據有可能減少敏感人工智能項目中的偏見發生率,97% 的澳鵬受訪者表示他們“在開發包容性訓練數據集時”使用合成數據。
該報告的其他有趣發現包括:
- 77% 的組織每月或每季度重新訓練他們的模型;
- 55% 的美國組織聲稱他們領先于競爭對手,而歐洲為 44%;
- 42% 的組織報告“廣泛”推出人工智能,而 2021 年人工智能現狀報告中這一比例為 51%;
- 7% 的組織報告其 AI 預算超過 500 萬美元,而去年這一比例為 9%。