合成數據創造商業價值的七種方式
今年,幾乎所有企業都在迅速采用AI,但大多數企業部署的都是與他人相同的平臺,這些平臺來自相同的供應商。
基于公司獨特需求創建定制化的AI解決方案需要數據,不幸的是,公司手頭的數據可能存在重大缺口,在使用時可能涉及隱私或合規性問題,此外,數據量可能也不足。
合成數據可以填補這一缺口,幫助企業從其AI部署中找到真正的商業價值。
4月中旬,數字化轉型咨詢公司EPAM對7300多名大型企業的高管和IT專業人員進行了調查。所有受訪者都在嘗試或部署AI,其中14%剛剛起步,32%正在發展能力但尚未取得一致結果,然而,近一半的受訪者表示已經取得成果,并利用這些成果變得更具有競爭力,但只有5%的人認為自己屬于顛覆者,在AI使用方面處于領先地位。
德勤還發現,30%的高級管理人員表示,高質量數據的短缺是采用GenAI的主要障礙之一,這就是合成數據的用武之地。
“擁有真實數據對任何企業都至關重要,”德勤咨詢的數據云和機器學習首席專家Chida Sadayappan表示,“但用合成數據進行補充是一個很好的商業差異化手段,使用這種合成數據生成的AI模型將使公司具有優勢。”
據Gartner稱,到明年,75%的企業將使用GenAI來創建合成客戶數據,而2023年這一比例還不到5%。
事實上,據Forrester稱,大多數全球企業已經在開展涉及合成數據的項目,更具體地說,報告顯示,14%的企業已經在企業范圍內部署了多個用例,22%在部門范圍內進行了部署,還有22%正在進行初始生產實施,此外,15%的企業處于試點階段,同樣數量的企業處于后期研究和概念驗證階段。
那么,合成數據如何幫助企業創造商業價值呢?以下是主要途徑。
1. 構建真正理解你業務的AI
大型AI公司的AI模型本質上是通用的。
“當主要AI供應商在相同的公開可用數據集上訓練模型時,結果往往是同質化的AI輸出,”數據服務公司Data Axle的CEO Andy Frawley表示,“這限制了差異化。此外,這些數據集可能會延續長期嵌入的錯誤,降低AI驅動決策的可靠性。”他補充道。可靠性還可能受到影響,因為大型商業模型可獲得的信息可能無法涵蓋特定客戶群體的細微差別。
公司可以通過使用自己的數據或購買的數據對現有AI模型進行微調或增強,或構建小型定制模型來解決這一差距。當這些還不夠時,他們可以通過創建新的合成數據來解決。
庫存管理公司Nextuple使用合成數據創建定制的AI和機器學習(ML)模型,以理解庫存管理挑戰。例如,當一大批庫存進入中央倉庫時,“我們需要決定將其發送到哪里,”該公司的聯合創始人兼CEO Darpan Seth表示,“這是一個在那時做出的高價值決策。做出這樣的決策需要考慮許多物流和優化因素,這些因素對每個公司來說都是獨特的,而使用合成數據多年來對構建和測試這一決策至關重要。
“所以這并不新鮮,”Seth表示,“但現在使用合成數據的方式——可能性比以往任何時候都要大。”
Nextuple不僅使用合成數據來幫助訓練ML和AI模型,他還表示,GenAI現在也被用于創建合成數據,使這一過程比以往更快、更容易、更靈活、更智能。
“我們向它輸入了我們在所有客戶中看到的許多要求,”Seth表示,“它擁有所有這些數據,現在你可以要求它生成用戶故事、測試用例、測試數據——以及測試自動化。”
在過去,生成這種合成數據將是一個高度手動的過程。例如,可以創建一個包含三個項目的訂單,然后創建另一個包含10個項目的訂單,以此類推,并進行一些小的變化。“如今,這一切都非常迅速,因為你可以使用GenAI來完成。”Seth表示。
GenAI還使整個過程民主化了。
“去年年底,我們為團隊中的每個人提供了AI工具,”他表示,“這是任何人都可以使用的。”
由于他們的業務客戶使用各種平臺,Nextuple構建的系統是模型無關的。
“我們使用從OpenAI和Claude到Llama和Gemini的一切,”Seth表示,“AWS有Bedrock,還有Azure,所有這些供應商都提供了一系列模型,有超過75到80家公司提供了一系列不同的模型。”
因此,Nextuple構建了其技術,以使后端AI可以互換。“此外,明天你可能會發現一個更好的模型,或者成本更低的模型。”他表示。
由于Nextuple必須與所有主要的云提供商和AI平臺合作,它沒有使用任何特定供應商的AI技術棧,而是使用開源組件構建了自己的技術棧,包括LangChain、LangGraph、LangFlow以及用于RAG嵌入的向量數據庫,如PostgreSQL的Pgvector。
“還有一些新的范式正在出現,比如模型上下文協議,”他表示,“事情變化得非常快。”
2. 填補數據缺口
實際數據很少是完整的,有時,缺口是由于行為變化造成的。例如,歷史購物數據可能顯示黑色星期五的銷售高峰,但如今,每個人都可能在網上購物,一天的銷售高峰可能會延長到一周。有時,缺口出現是因為某些情況非常罕見,因此沒有足夠的例子。對于某些企業來說,這些缺口可能是至關重要的。
“我做了很多交通管理工作,”IEEE院士兼塔夫茨大學研究生工程院長Karen Panetta表示。她表示,從各種攝像機中可以獲得大量數據,但一些最關鍵的數據,比如某些類型的交通事故,也是最罕見的。
“我們沒有足夠的翻車視頻,”她表示,“所以我們使用合成數據來生成這些數據。”然后是面部識別,有許多數據庫包含在良好光線下拍攝的直視照片,僅使用這種數據進行訓練會導致系統在某些情況下無法正常工作,甚至如果用于安全目的還可能很危險。
“你一轉頭、戴上眼鏡、微笑或戴上口罩,它就識別不出來了。”她表示。
圖像生成器可以用于創建模擬不同光照條件或角度的照片變體,但使用當前技術可以做的程度有限。
“我們嘗試為戴口罩的人生成一些合成數據,但它與人體解剖學的匹配度非常差,”Panetta表示,“那些輪廓很重要,所以它失敗了,但如果合成數據確實展現出你想要匹配的行為,那么它是一個很好的工具。”
3. 在最大化數據價值的同時保護隱私
許多公司都有現成模型無法很好覆蓋的特定用例,這不僅僅是專門的庫存管理應用或自動駕駛汽車,它還可能簡單到為潛在客戶生成電子郵件或幻燈片。
“關于如何起草給客戶的電子郵件,沒有客觀答案,”Dynamo AI(一家專注于AI護欄和合規性的公司)的應用AI副總裁Eric Lin表示,“這是因為公司有自己的風格、語言,當然還有獨特的產品信息。產品信息缺口可以通過在推理時將AI指向向量數據庫,通過RAG嵌入來填補,但使用實際客戶電子郵件來訓練AI可能會違反他們的隱私,無論是通過微調還是RAG嵌入。你不希望AI將一個客戶的敏感信息包含到另一個客戶的郵件中。
“由于隱私和安全方面的擔憂,我們一直不敢利用這些數據,”Lin補充道,但合成數據可以剝離所有敏感的私人信息,使其不會進入AI的知識庫,并使企業能夠創建能夠精確撰寫所需電子郵件和幻燈片的模型,而且這不僅僅適用于營銷應用。
“例如,對于醫療保健行業的公司來說,合成數據有助于模擬患者數據和臨床場景,確保在創建多樣化訓練集的同時遵守隱私法。”Kearney的數字和分析實踐合伙人Bharath Thota表示。
通過使用合成數據,醫療保健公司可以獲得更好的準確性或創建創新的新產品,他表示,即使這個領域受到高度監管。
4. 加速產品開發和研發
說到創建產品,如果公司正在開發新產品,問題可能不是隱私,而是可能沒有歷史數據可供使用。當Nextuple想要構建一個新的庫存管理應用時,就發生了這種情況。
“我們想要模擬一家公司在其分銷中心和商店網絡中,基于典型需求因素,庫存是如何被消耗的,”Nextuple的Seth表示,“沒有實際數據,就無法測試它是否在現實場景中有效。”
他們創建的合成數據包括跨商店和倉庫網絡的庫存位置,以及模擬的訂單和它們的到達時間。
“我們使用模擬來理解,例如,在感恩節期間,銷售會有一定的激增,了解這些現實情況后,我們創建了合成數據,”他表示,“然后我們有幸與一位潛在客戶進行了測試,驗證了我們的假設。”
使用合成數據進行產品開發的另一個例子?建造機器人。
“我們如今看到機器人技術有了如此多的改進,”軟件開發公司Globant的數字創新高級副總裁Agustin Huerta表示。有虛擬環境,比如Nvidia Omniverse,模擬的機器人可以在其中與模擬的物體交互,創建大量訓練數據來快速啟動機器人導航空間或處理產品的能力。
“如果你談論的是用于訓練自動駕駛解決方案的計算機視覺數據,我們需要合成數據——沒有其他方法可以做到,”他表示,“否則,我們需要讓汽車發生碰撞。”
5. 在沒有歷史數據的情況下探索新市場
合成數據的另一個用例是當公司有產品,但想要在新市場銷售時。企業可以模擬消費者可能的行為、偏好以及他們可能對新產品或服務的反應,Thota表示,他們還可以使用模擬數據來幫助完善功能和營銷策略。
“想要進入新地區的銀行可以使用合成數據來模擬當地的經濟條件、消費習慣以及人們可能如何采用他們的金融產品。”他補充道。
卡內基梅隆大學的AI教授Anand Rao曾與一家想要擴展到新市場的拼車公司合作過,但使用相同的策略在所有地方都不會非常有效,因為條件因地而異。
“在紐約市,你需要5到10分鐘的響應時間,”Rao表示,“他們對預測不準確不太容忍,比如如果顯示8分鐘但實際上12分鐘車才到,但在密歇根州的安娜堡,如果晚幾分鐘,他們可以接受。”
這意味著優化策略需要不同,而合成數據有助于完善這些策略。
“我們為十個城市準備了超過20萬個進入市場的場景,”他補充道,“這為高管們提供了如何適應新市場的真實見解。”
6. 構建數字孿生
歷史上,數字孿生一直被用于模擬噴氣發動機、幫助公司進行預測性維護或設計和管理工廠等復雜物理設施。如今,數字孿生的定義正在擴展,包括軟件系統、業務流程甚至人員。
公司正在模擬客戶、他們的行為、購物旅程、購買模式以及他們對特定促銷的反應方式,安永美洲消費者AI負責人Tom Edwards表示,他們通過創建合成客戶檔案來實現這一點。“這有助于我們理解不同人口統計群體將如何對不同產品定位做出反應,”他表示,“而我們得到的是更好的需求預測和更好的定位。”
而且他看到公司正在使用合成角色代替焦點小組。
“你可以創建數百個角色并測試不同的信息,”他表示,“合成數據允許你填補心理細節。”
這些模擬的角色還可以用于改進電子商務個性化。
“我可以運行數百萬種不同的組合,當你購物時,我可以立即根據你的一個預配置角色進行匹配,這個角色是基于合成數據構建的,”他補充道,“我比你更了解你,因為我已經推斷了數百萬種可能的未來路徑。”
這里的商業價值可能達到數百萬美元,他表示,因為它解鎖了一種與消費者無縫對齊并提供他們以前未見過的推薦產品的方式,公司還可以創建員工的數字孿生。
“在內部,我們正在關注的是人員配備和技能,”管理咨詢公司SSA & Company的應用解決方案負責人Nick Kramer表示。
“我們有關于顧問的歷史數據,以及關于技能和能力的不可靠數據,”他表示,“但我們有豐富的項目數據,從這些數據中,我們得到了我們的‘素材’,并一直在嘗試不同的方法來合成數據。”
這些合成角色可以是人、項目角色或特定頭銜,他表示,它們被組合成模擬的項目團隊,進而創建對人員配備可能情況以及如何根據技能和工具進行平衡,以及如何優化結果、速度、收入和利潤的看法。
7. 為自主式AI做準備
隨著AI的發展,使用合成數據的機會也在增加。例如,今年,一切都與自主式AI有關。
根據4月Cloudera的一項調查,96%的企業IT領導者表示,他們計劃在未來12個月內擴大對智能體的使用,而且,盡管57%的人表示已經實施了智能體,但最大的單一障礙是數據隱私,53%的人表示這正在減緩采用速度,但在訓練智能體時,這不僅僅是關于保護隱私。
“合成數據是加速這些智能體學習并映射復雜場景的一個很好的方法,”安永的Edwards表示,它還可以用于確保智能體能夠處理任何被拋給它們的情況。
“如果你能夠基于復雜交互運行數百萬種不同的場景,那么這將成為一個非常有價值的工具,”他表示,“它將成為你在企業內部署智能體的一個基礎方面。”
現實檢查:過度依賴合成數據的風險
過度使用合成數據也存在危險。正如Panetta在嘗試創建戴口罩的人的合成圖像時發現的那樣,它有其局限性。
“如果濫用,你可能會面臨類似于過度擬合的問題,即輸出變得高度重復,”Mendix(一家AI平臺公司)的戰略高級副總裁Gordon Van Huizen表示,“然后,如果輸入一個超出訓練數據的提示,可能會導致隨機或奇怪的結果,因為系統難以解釋新的模式。”
不過,有方法可以解決這個問題,公司可以創建更多樣化的數據集、將合成數據與真實數據混合,或向數據中添加噪聲以創建異常值。
“但利用合成數據的關鍵是盡可能始終包含人類驗證協議。”他表示。