3月初,谷歌推出了TensorFlow Privacy,并將其開源。這款強大的機器學習模型不僅可以使開發者更容易地用隱私來訓練機器學習模型,而且能使研究人員以強大的隱私保障來提高機器學習的發展水平。
現代機器學習越來越多地被應用于創造驚人的新技術和用戶體驗,其中許多都需要訓練機器,使其能夠負責任地從個人照片或電子郵件等敏感數據中進行學習。理想情況下,經過訓練的機器學習模型的參數應該能夠編碼一般模式,而不是僅針對特定訓練示例。
為了確保這一點,在訓練數據敏感時提供強有力的隱私保障,可以使用基于差異隱私理論的技術。在用戶數據上進行訓練時,這些技術提供了強大的數學保障,即模型不會學習或記住任何特定用戶的詳細信息。特別是對于深度學習而言,額外的保障可以有效地加強其他隱私技術提供的保護,無論是已建立的技術(如閾值和數據刪除),還是TensorFlow Federated的新技術。
多年來,谷歌一直在差異隱私的基礎研究和實用差異隱私機制的發展上處于領先的地位。去年,谷歌發布了 Responsible AI Practices ,詳細介紹了有辨別地開發機器學習系統和產品的推薦實踐。
為了協助外部開發人員將這些實踐應用到自己的產品之中,Google發布了TensorFlow Privacy,并更新了技術白皮書,在白皮書中更詳細地描述了其隱私機制。
要使用TensorFlow Privacy,無需在隱私或其基礎數學方面的專業知識,使用標準TensorFlow機制的開發者不必更改其模型架構、訓練程序或過程。相反,為了訓練保護訓練數據隱私的模型,通常只需進行一些簡單的代碼更改并調整與隱私相關的超參數即可。
一個例子:學習一種有隱私的語言
作為差異隱私訓練的具體例子,讓我們來看看文本序列上字符級、循環語言模型的訓練。使用神經網絡進行語言建模是一項基本的深度學習任務,被應用于無數的應用程序中,其中許多都是基于敏感數據的訓練。我們根據TensorFlow Privacy GitHub 中的示例代碼,對兩個模型(一個使用標準方法,另一個使用差異隱私)使用相同的模型結構進行訓練。
這兩個模型都很好地建模了標準Penn Treebank 訓練數據集 中金融新聞文章中的英語。然而,如果這兩個模型之間的細微差別是由于未能捕捉到語言分布的一些基本、核心方面,這將使人們對差異隱私模型的實用性產生懷疑。另一方面,directadmin安裝,即使隱私模型未能在訓練數據中捕捉到一些深奧、獨特的細節,它的實用性可能仍然很好。
為了確認隱私模型的實用性,可以查看兩個模型在訓練和測試數據的語料庫上的表現,并檢查它們同意和不同意的句子集。為了觀察它們的共性,可以測量它們在模型化句子上的相似性,看看兩個模型是否接受相同的核心語言。在這種情況下,兩個模型接受并獲得超過98%的訓練數據序列的高分(即低復雜度)。例如,這兩個模型在以下金融新聞句子中得分都很高:
there was little turnover and nothing to stimulate the market
south korea and japan continue to be profitable
merchant banks were stronger across the board
為了觀察它們的差異,我們可以檢查兩個模型分數相差很大的訓練數據句子。例如,以下三個訓練數據句子在標準訓練中都被有效地記憶,因此都得到了很高的分數,并被常規語言模型所接受。然而,差異隱私模型對這些句子的得分很低,并且沒有接受它們:
aer banknote berlitz calloway … ssangyong swapo wachter
the naczelnik stands too
my god and i know i am correct and innocent
上述所有句子在金融新聞中似乎都不常見,它們似乎是隱私保護的明智選擇。例如,因為如此罕見的、奇怪的句子可能識別或揭露敏感數據訓練出的模型中的個人信息。這三句話中的第一句是出于技術原因在訓練數據中出現的一長串隨機單詞;第二句是部分波蘭語;第三句盡管看起來是自然的英語,但其并非來自正在建模的金融新聞語言。
這些例子都是手工選擇的,但全面的檢查證實,不被差異隱私模型接受的訓練數據語句一般不在金融新聞文章的正常語言分布范圍之內。此外,通過評估測試數據,我們可以驗證這些難解的句子是隱私和非隱私模型之間質量損失的基礎(1.13:1.19的困惑度)。因此,亞洲服務器租用 歐洲服務器,雖然名義上的困惑損失在6%左右,但對于我們所關心的語句,隱私模型的性能可能根本不會降低。