一文讀懂:什么是合成數據?
如今,數據正在大規模地產生,為機器學習提供了絕佳的機會。然而,對于數據科學家和機器學習實踐者來說,這些數據的很大一部分仍然是超界的。嚴格的隱私管理、高昂的成本、長時間的處理都阻礙了數據的分析。
因此,Gartner預估85%的AI項目都將失敗,這就是合成數據的好處所在。
合成數據是在詳細的算法和仿真的幫助下系統生成的人工數據。它是完全匿名的數據,是真實數據的絕佳替代品,因為它允許組織創建按需培訓數據,無論他們想要多大的規模。
什么是合成數據?
人工智能算法人工創建合成數據,但它是在真實數據集上訓練的,具有與原始數據相同的屬性。由于合成數據與實際數據沒有一對一的關聯,因此重新識別的機會更少。
因此,數據科學家可以自信地復制和使用數據進行測試和建模,而不會有暴露個人身份信息的風險,也不會與監管機構發生沖突。
如何生成合成數據?
有幾種方法可以生成合成數據。更簡單的選擇包括蒙特卡洛模擬和從分布集中繪制數字,但如果數據集很復雜,通常首選生成模型。
生成模型是基于神經網絡的,它可以自動從現實數據中找到的模式中學習,并產生與現實數據精確匹配的信息。生成對抗網絡(GANs)和變分自編碼器(VAEs)是兩種常見的生成模型架構。
在GAN模型中,兩個神經網絡模型(稱為生成器和鑒別器)在一個零和游戲中競爭,其中一個網絡的收益就是另一個網絡的損失。另一方面,變分自編碼器是工作在編碼器-解碼器概念上的無監督模型。
什么工具有助于合成數據的生成?
下面是可以用來創建合成數據的工具示例:
- Datagen是一個合成數據集解決方案,提供逼真的數據集,可用于物聯網(IoT)、機器人和增強現實(AR)。
- Scikit-learn構建于Matplotlib、NumPy和SciPy之上,是一個開源的Python庫,提供了生成合成數據集的工具。
- Pydgben是一個Python庫,它可以創建常見的條目,如姓名、工作、信用卡號碼、電子郵件地址等。
- 并行域是一個合成數據平臺,產生高質量的傳感器數據,以改善ML模型和計算機視覺工作流程。
使用合成數據的好處
在構建機器學習模型時,合成數據比其他類型的數據更具可擴展性、更容易使用、更具有成本效益。
- 可伸縮性。ML模型消耗大量數據。為了訓練和測試的目的,根本不可能獲得如此大量的有關數據。借助合成數據工具,數據科學家可以創建任意數量的數據副本,以構建高質量的AI/ML模型。
- 易用性。在處理真實數據時,保護個人信息、消除不準確信息和有效地處理不同格式的數據至關重要。合成數據處理起來要容易得多,因為它掩蓋了私人信息、消除了錯誤,并標準化了格式,以更直觀地進行標記。
- 具有成本效益。獲取真實的培訓數據可能會讓企業花費大量資金。此外,手動標記它們是耗時的。有了合成數據生成工具,這一過程被簡化,并證明是一個更經濟和更快的過程。
使用合成數據的挑戰
合成數據提供了一些好處,但它也有一定的局限性。例如,一個顯著的缺點是,有效地使用合成數據需要高技能的分析師,他們知道如何使用復雜的數據生成器工具。這通常是困難的,因為在就業市場上缺乏合格的人工智能工人。
此外,合成數據只與原始數據一樣好,而真實數據往往充滿偏見。因此,當神經網絡在有偏差的歷史數據上訓練時,它們反映了相同的偏差。這通常會導致機器學習模型的輸出不準確。
合成數據的用例
合成數據最突出的兩個應用案例是自動駕駛汽車和醫療保健。
- 自動駕駛。到目前為止,自動駕駛汽車是合成數據的最佳用例。汽車制造商必須考慮數以百萬計的場景,并收集相應的數據,以制造安全的汽車。這在現實中是不可能實現的,但通過合成數據,組織可以生成任何可以想象的駕駛場景的數百萬甚至數十億種排列,從而達成安全駕駛解決方案。
- 醫療保健。醫療保健是一個高度監管的行業,有嚴格的法律管理患者數據的使用。由于合成數據是完全匿名的,不存在重新識別的風險,醫療機構可以輕松地使用它進行科學研究、臨床試驗和訓練醫療行業的ML模型。
合成數據的未來
合成數據生成是創建具有成本效益和高度可伸縮數據的革命性方法。隨著人們對合成數據及其各種好處的認識越來越多,越來越多的企業將挖掘其潛力以獲得好處。
此外,隨著隱私法的收緊,企業將別無選擇,只能求助于合成數據。因此,它將繼續受到歡迎,直到它完全成為主流。