如今,數據正在大規模生成,為機器學習 (ML) 計劃提供了絕佳的機會。然而,這些數據中很大一部分仍超出數據科學家和 ML 從業者的權限范圍。嚴格的隱私法規、高昂的成本和漫長的處理時間阻礙了數據處理。
因此,Gartner 估計85% 的 AI 項目都以失敗告終。這時,合成數據 就大有裨益。
合成數據是系統借助詳細算法和模擬生成的人工數據。它是完全匿名的數據,是真實數據的絕佳替代品,因為它允許組織按需創建任意大小的訓練數據。
什么是合成數據?
人工智能算法人工創建合成數據,但它是在真實數據集上訓練的,具有 與原始數據相同的屬性。 由于合成數據與實際數據沒有 一一對應的關系,因此重新識別的機會較少。
因此, 數據科學家 可以放心地復制和使用數據進行測試和建模,而不會面臨泄露個人身份信息 (PII)和違反監管機構的 風險。
合成數據是如何生成的?
生成合成數據的方法有很多種。較簡單的方法包括蒙特卡洛模擬和從分布集中抽取數字,但如果數據集比較復雜,則通常首選生成模型。
生成模型基于神經網絡,可自動從現實世界數據中發現的模式中學習并生成與其準確匹配的信息。生成對抗網絡 (GAN) 和變分自動編碼器 (VAE) 是兩種常見的生成模型架構。
在 GAN 模型中,兩個神經網絡模型(稱為生成器和鑒別器)在零和游戲中競爭,其中一個網絡的收益就是另一個網絡的損失。另一方面,VAE 是采用編碼器-解碼器概念的無監督模型。
哪些工具有助于生成合成數據?
以下是可用于創建合成數據的工具示例。
- Datagen是一種合成數據集解決方案,可提供可用于物聯網 (IoT)、機器人和增強現實 (AR) 的逼真的數據集。
- Scikit-learn基于 Matplotlib、NumPy 和 SciPy 構建,是一個提供生成合成數據集的工具的開源Python 庫。
- Pydgben是一個 Python 庫,可以創建常見條目,如姓名、工作、信用卡號、電子郵件地址等。
- Parallel Domain是一個合成數據平臺,可生成高質量的傳感器數據以改進 ML 模型和計算機視覺工作流程。
使用合成數據的好處
在構建機器學習模型時,合成數據比其他類型的數據更具可擴展性、更易于使用且更具成本效益。
可擴展性
ML 模型會消耗 大量數據。獲取如此大量的相關數據用于訓練和測試 幾乎是不可能的。借助合成數據工具,數據科學家可以根據需要創建任意數量的數據副本,以構建高質量的 AI/ML 模型。
易于使用
處理真實數據時,保護個人信息、 消除不準確信息和 高效處理各種格式的數據至關重要。 合成數據更容易處理,因為它可以屏蔽私人信息、消除錯誤并標準化格式,以便更直接地標記。
經濟高效
獲取真實的訓練數據可能會花費企業很多錢。此外,手動標記數據非常耗時。使用 合成數據生成工具,可以簡化該過程,使其成為更具成本效益和更快捷的過程。
使用合成數據的挑戰
合成數據具有多種優勢, 但也存在一定的局限性。例如,其中一個顯著的缺點 是,要有效使用合成數據,需要技術嫻熟的分析師,他們知道如何使用復雜的數據生成器工具。這通常很困難,因為就業市場上 缺乏合格的人工智能工作者。
此外,合成數據的質量只與原始數據一樣好,而真實數據往往 充滿偏見。因此,當神經網絡在有偏見的歷史數據上進行訓練時,它們會反映出相同的偏見。這通常會導致機器學習模型的輸出不準確。
合成數據的用例
合成數據最突出的兩個用例是自動駕駛汽車和醫療保健。
自動駕駛汽車
自動駕駛汽車是迄今為止合成數據的最佳用例。 汽車制造商必須考慮數百萬種場景并據此收集數據,以打造安全的汽車。
在現實中這是不可能做到的,但利用合成數據,組織可以對任何可以想象的駕駛場景產生數百萬甚至數十億種排列組合,以得出安全的駕駛解決方案。
衛生保健
醫療保健是一個受到嚴格監管的行業,對患者數據的使用有嚴格的法律規定。由于合成數據完全匿名且不存在重新識別的風險,因此醫療機構可??以輕松地將其用于在醫療保健行業進行科學研究、臨床試驗和訓練 ML 模型。
合成數據的未來
合成數據生成是一種革命性的方法,可以創建 具有成本效益且高度可擴展的數據。隨著人們對合成數據及其各種好處的認識不斷提高,越來越多的企業將利用其潛力來獲取利益。
此外,隨著隱私法的收緊,組織將別無選擇,只能使用合成數據。因此,合成數據將繼續受到歡迎,直到完全成為主流。