合成數據定義:重大的機會和陷阱詳解
譯文?譯者 | 布加迪
審校 | 孫淑娟
去年Gartner預測,到2024年,用于開發人工智能(AI)和分析項目的數據中60%將是合成數據。從那時起,合成數據變得越來越受歡迎,這種方案可以解決這個問題:缺少訪問高質量的實際數據以訓練機器學習算法的途徑。但是隨著合成數據日益用于代替不可訪問的分布式數據,有必要問一個問題:合成數據真的是合適的解決方案嗎?
1.何時使用合成數據、何時不使用?
在知道合成數據是不是訓練算法的最佳解決方案之前,重要的是要全面了解合成數據何時有用、何時沒用。
盡管人類每天生成海量數據,但仍然缺乏可用的真實數據。當建模目標只有少量的真實數據或根本沒有數據時,合成數據用作解決方案最好不過了。比如說,它是冷啟動問題以及基于文本和圖像的模型訓練的有用資源。此外,合成數據在已經在不同問題之間有標準化數據的數據集中顯示出了價值——比如測試用例中存在單詞和語法以及存在像素,這允許模型將數據的本質抽象出來。
然而,合成數據不適合這種用例:真實數據已經存在,但因隱私法規、集中成本或互操作性障礙而隔離孤立。此外,在大多數這些用例中,數據集并不得益于該輸入單元,因此很難確定用于創建合成數據的合適的抽象級別。因此,挑戰就出現了,因為問題的性質與合成數據適合解決的問題有著根本上的不同。
2.合成數據存在的問題
由于大多數源數據天生就有未知的方面,生成高質量的合成數據總是一個挑戰。合成數據就好比模糊的圖像。目前還不清楚它如何影響訓練和學習模型的結果,這使得將來調試任何問題都很困難。
合成數據還存在大多數機器學習項目都存在的問題:將錯誤的問題與錯誤的工具聯系起來,然后得出模型沒有效果的結論,而實際情況可能是合成數據根本不合標準。
未知偏差也是使用合成數據方面的一個問題,因為用戶無法保證模型學會的表示具有的質量。如果開發人員無法訪問真實數據,只能看到真實數據的局部情況,增加的抽象層可能會為固有的偏見帶來機會。
最后,機器學習訓練模型中使用合成數據的成本很高。若使用合成數據,團隊常常需要運行計算、調整模型數百次(如果不是數千次),以獲得最精確的結果。加上傳輸全面訓練所需的大量數據的額外成本,從時間和投入角度來看,合成數據最終會比利用使用來自數據源的真實數據的其他方法更燒錢,比如隱私增強技術。
3.聯合學習是未來
在真實數據存在但孤立的情況下,解決使用合成數據的數據訪問挑戰與聯合學習解決方案相比稍遜一籌。聯合學習通過將一個或多個模型的版本發送到環境中的數據,而不是要求數據移動到模型中,從而實現對AI模型的出色訓練。因為聯合學習能夠安全訪問真實的高質量數據,同時允許數據托管者對相應數據保留完全控制度和安全性,它在互操作性、隱私法規或集中成本這幾個障礙的用例中不需要生成和使用合成數據。
聯合學習真正大放異彩的地方是在醫療保健和金融等高度監管行業的用例中;在這些行業,開發人員基本上無法訪問機密的、受保護的數據集。想象這一幕:由于現在可以訪問之前因敏感性而無法訪問的數據,現在擁有更好的癌癥診斷、病毒爆發預測和欺詐檢測。突破性的AI進步可以讓這一幕成為現實,但這種現實有賴于訪問大量數據,這些數據目前分布在各個業務部門、組織和國家,每個國家都有不同的隱私法規。現在能夠安全地獲取這些數據的價值,但目前只有大型科技公司這個群體才能訪問這些數據,因為它們有豐富的資源。
雖然合成數據解決了無法訪問數據來訓練模型的問題,但對于大多數其他用例來說,它將不如針對使用聯合學習工具訪問的數據進行模型訓練,后者可以更好地保護隱私;通過能夠處理細粒度的高質量源數據,獲得更準確的結果;并且避免合成數據不可避免的固有的、附加的抽象層。
通過聯合學習,隱私增強技術的普及打破了組織內部和組織之間在協作方面的障礙,加大了對高質量數據的訪問。力求創新的數據科學家和工程師可以用最好的數據無縫地構建最好的AI系統,無論數據在何處,同時為提供相應數據的組織和個人保持最高標準的信任和安全。
原文鏈接:https://solutionsreview.com/data-management/synthetic-data-definition-key-opportunities-and-pitfalls-explained/?utm_source=rss&utm_medium=rss&utm_campaign=synthetic-data-definition-key-opportunities-and-pitfalls-explained