你對AI未來的數據戰略是什么?
不良數據的代價
Gartner估計,企業因使用質量不佳的數據而平均每年損失1290萬美元。IBM計算出,糟糕的數據每年給美國經濟造成的損失超過3萬億美元,其中大部分費用涉及企業內部在數據通過和跨部門傳遞時檢查和更正數據的工作。IBM認為,知識工作者有一半的時間被浪費在這些活動上。
除了這些內部成本外,客戶、監管機構和供應商之間的聲譽損害也是一個更大的問題,這些問題來自基于不良或誤導性數據而行為不當的組織。《體育畫報》及其CEO最近發現了這一點,當時該雜志被披露發表了由虛假作者撰寫的文章,并使用AI生成的圖像。雖然CEO丟掉了工作,但母公司Arena Group的市值損失了20%。也有幾起備受矚目的律師事務所通過提交虛假的AI生成的案件作為法律糾紛中優先地位的證據而陷入困境。
AI黑匣子
盡管成本高昂,但檢查和更正企業決策和業務運營中使用的數據已成為大多數企業的既定做法,然而,考慮到幻覺的發生率越來越高,了解一些大型語言模型(LLM)是如何訓練的,以及關于哪些數據和輸出是否可信,則是另一回事。例如,在澳大利亞,一位當選的地區市長威脅要起訴OpenAI,因為該公司的ChatGPT虛假地聲稱,他曾因賄賂而入獄,而事實上,他一直是犯罪活動的舉報人。
對LLM進行可信數據培訓,并采用迭代查詢、檢索增強生成或推理等方法,是顯著減少幻覺危險的好方法,但不能保證它們不會發生。
關于合成數據的培訓
隨著企業通過部署AI系統尋求競爭優勢,回報可能會流向那些能夠獲得足夠和相關的專有數據來訓練他們的模型的人,但是,無法獲得這些數據的大多數企業怎么辦?研究人員預測,如果目前的趨勢繼續下去,用于訓練LLM模型的高質量文本數據將在2026年前耗盡。
解決這個迫在眉睫的問題的一個辦法是增加對合成訓練數據的使用。Gartner估計,到2030年,AI模型中合成數據將超過真實數據的使用,然而,回到GIGO的警告,過度依賴合成數據可能會加速產出不準確和決策失誤的危險。此類數據只能與創建它的模型一樣好。數據混亂可能會帶來更長期的危險,因為AI模型是在不符合標準的合成數據上進行訓練的,這些數據產生的輸出然后被反饋到后來的模型中。
謹慎行事
AI精靈已經從瓶子里出來了,雖然一些過于熱情的技術供應商和咨詢公司承諾的廣泛的數字革命需要更多時間才能發生,但AI將繼續以我們尚無法想象的方式改變商業,然而,訪問企業所需規模的可靠和可信數據已經成為CIO和其他企業領導人必須在為時已晚之前找到補救方法的瓶頸。