3月初,谷歌推出了TensorFlow Privacy,并將其開源。這款強(qiáng)大的機(jī)器學(xué)習(xí)模型不僅可以使開發(fā)者更容易地用隱私來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,而且能使研究人員以強(qiáng)大的隱私保障來(lái)提高機(jī)器學(xué)習(xí)的發(fā)展水平。
現(xiàn)代機(jī)器學(xué)習(xí)越來(lái)越多地被應(yīng)用于創(chuàng)造驚人的新技術(shù)和用戶體驗(yàn),其中許多都需要訓(xùn)練機(jī)器,使其能夠負(fù)責(zé)任地從個(gè)人照片或電子郵件等敏感數(shù)據(jù)中進(jìn)行學(xué)習(xí)。理想情況下,經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型的參數(shù)應(yīng)該能夠編碼一般模式,而不是僅針對(duì)特定訓(xùn)練示例。
為了確保這一點(diǎn),在訓(xùn)練數(shù)據(jù)敏感時(shí)提供強(qiáng)有力的隱私保障,可以使用基于差異隱私理論的技術(shù)。在用戶數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),這些技術(shù)提供了強(qiáng)大的數(shù)學(xué)保障,即模型不會(huì)學(xué)習(xí)或記住任何特定用戶的詳細(xì)信息。特別是對(duì)于深度學(xué)習(xí)而言,額外的保障可以有效地加強(qiáng)其他隱私技術(shù)提供的保護(hù),無(wú)論是已建立的技術(shù)(如閾值和數(shù)據(jù)刪除),還是TensorFlow Federated的新技術(shù)。
多年來(lái),谷歌一直在差異隱私的基礎(chǔ)研究和實(shí)用差異隱私機(jī)制的發(fā)展上處于領(lǐng)先的地位。去年,谷歌發(fā)布了 Responsible AI Practices ,詳細(xì)介紹了有辨別地開發(fā)機(jī)器學(xué)習(xí)系統(tǒng)和產(chǎn)品的推薦實(shí)踐。
為了協(xié)助外部開發(fā)人員將這些實(shí)踐應(yīng)用到自己的產(chǎn)品之中,Google發(fā)布了TensorFlow Privacy,并更新了技術(shù)白皮書,在白皮書中更詳細(xì)地描述了其隱私機(jī)制。
要使用TensorFlow Privacy,無(wú)需在隱私或其基礎(chǔ)數(shù)學(xué)方面的專業(yè)知識(shí),使用標(biāo)準(zhǔn)TensorFlow機(jī)制的開發(fā)者不必更改其模型架構(gòu)、訓(xùn)練程序或過(guò)程。相反,為了訓(xùn)練保護(hù)訓(xùn)練數(shù)據(jù)隱私的模型,通常只需進(jìn)行一些簡(jiǎn)單的代碼更改并調(diào)整與隱私相關(guān)的超參數(shù)即可。
一個(gè)例子:學(xué)習(xí)一種有隱私的語(yǔ)言
作為差異隱私訓(xùn)練的具體例子,讓我們來(lái)看看文本序列上字符級(jí)、循環(huán)語(yǔ)言模型的訓(xùn)練。使用神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)言建模是一項(xiàng)基本的深度學(xué)習(xí)任務(wù),被應(yīng)用于無(wú)數(shù)的應(yīng)用程序中,其中許多都是基于敏感數(shù)據(jù)的訓(xùn)練。我們根據(jù)TensorFlow Privacy GitHub 中的示例代碼,對(duì)兩個(gè)模型(一個(gè)使用標(biāo)準(zhǔn)方法,另一個(gè)使用差異隱私)使用相同的模型結(jié)構(gòu)進(jìn)行訓(xùn)練。
這兩個(gè)模型都很好地建模了標(biāo)準(zhǔn)Penn Treebank 訓(xùn)練數(shù)據(jù)集 中金融新聞文章中的英語(yǔ)。然而,如果這兩個(gè)模型之間的細(xì)微差別是由于未能捕捉到語(yǔ)言分布的一些基本、核心方面,這將使人們對(duì)差異隱私模型的實(shí)用性產(chǎn)生懷疑。另一方面,directadmin安裝,即使隱私模型未能在訓(xùn)練數(shù)據(jù)中捕捉到一些深?yuàn)W、獨(dú)特的細(xì)節(jié),它的實(shí)用性可能仍然很好。
為了確認(rèn)隱私模型的實(shí)用性,可以查看兩個(gè)模型在訓(xùn)練和測(cè)試數(shù)據(jù)的語(yǔ)料庫(kù)上的表現(xiàn),并檢查它們同意和不同意的句子集。為了觀察它們的共性,可以測(cè)量它們?cè)谀P突渥由系南嗨菩裕纯磧蓚€(gè)模型是否接受相同的核心語(yǔ)言。在這種情況下,兩個(gè)模型接受并獲得超過(guò)98%的訓(xùn)練數(shù)據(jù)序列的高分(即低復(fù)雜度)。例如,這兩個(gè)模型在以下金融新聞句子中得分都很高:
there was little turnover and nothing to stimulate the market
south korea and japan continue to be profitable
merchant banks were stronger across the board
為了觀察它們的差異,我們可以檢查兩個(gè)模型分?jǐn)?shù)相差很大的訓(xùn)練數(shù)據(jù)句子。例如,以下三個(gè)訓(xùn)練數(shù)據(jù)句子在標(biāo)準(zhǔn)訓(xùn)練中都被有效地記憶,因此都得到了很高的分?jǐn)?shù),并被常規(guī)語(yǔ)言模型所接受。然而,差異隱私模型對(duì)這些句子的得分很低,并且沒有接受它們:
aer banknote berlitz calloway … ssangyong swapo wachter
the naczelnik stands too
my god and i know i am correct and innocent
上述所有句子在金融新聞中似乎都不常見,它們似乎是隱私保護(hù)的明智選擇。例如,因?yàn)槿绱撕币姷摹⑵婀值木渥涌赡茏R(shí)別或揭露敏感數(shù)據(jù)訓(xùn)練出的模型中的個(gè)人信息。這三句話中的第一句是出于技術(shù)原因在訓(xùn)練數(shù)據(jù)中出現(xiàn)的一長(zhǎng)串隨機(jī)單詞;第二句是部分波蘭語(yǔ);第三句盡管看起來(lái)是自然的英語(yǔ),但其并非來(lái)自正在建模的金融新聞?wù)Z言。
這些例子都是手工選擇的,但全面的檢查證實(shí),不被差異隱私模型接受的訓(xùn)練數(shù)據(jù)語(yǔ)句一般不在金融新聞文章的正常語(yǔ)言分布范圍之內(nèi)。此外,通過(guò)評(píng)估測(cè)試數(shù)據(jù),我們可以驗(yàn)證這些難解的句子是隱私和非隱私模型之間質(zhì)量損失的基礎(chǔ)(1.13:1.19的困惑度)。因此,亞洲服務(wù)器租用 歐洲服務(wù)器,雖然名義上的困惑損失在6%左右,但對(duì)于我們所關(guān)心的語(yǔ)句,隱私模型的性能可能根本不會(huì)降低。