亞馬遜成為第一個將人工智能引入云存儲的公共云服務提供商,以幫助用戶保護數據安全。被稱為亞馬遜Macie的新服務依靠機器學習,自動發現,分類和保護存儲在AWS中的敏感數據。該服務報告與存儲數據,及其權限和訪問模式有關的潛在風險。
亞馬遜S3是非常流行的云存儲服務,受到眾多客戶的信賴。從大型企業到初創企業,各個規模的企業在S3內存儲企業內容,文件以及其他數字資產。在將文檔上傳到AmazonS3之前,客戶預計會創建存儲桶,這是保存文檔和數據的邏輯容器。每一個存儲桶都有不同級別的權限,以啟用或禁用文件訪問。互聯網上的任何人都可以讀取存儲在具有公共訪問權的存儲桶中的數據。
雖然有多種技術和好的做法可以保護S3存儲桶和文件,但是許多用戶并不認真對待它們。2017年5月,Gizmodo報告說,在擁有公開訪問權限的亞馬遜S3上發現6萬多個美國政府的敏感文件。約28GB的數據包含未加密密碼,這些密碼由最高機密清關設施的政府承包商所有。今年年初,美國國家地理空間情報局(NGA)聘請BoozAllen收集,分析由間諜衛星和空中無人機采集的地理空間數據。UpGuard的網絡風險安全分析師ChrisVickery發現,許多密碼和密鑰都屬于BoozAllen的員工,他們在可公開訪問的亞馬遜S3存儲桶中進行NGA項目的工作。這只是敏感數據被公開至何處的一個例子。
亞馬遜Macie的主要目標是查找和報告存儲在未完全受保護的云平臺上的敏感數據。通過分析用法和訪問模式,這已經不是微不足道的建議了。當Macie發現來自異常不同的IP地址的新用戶正在訪問文檔時,它會提醒客戶。
AWS正利用有監督和無監督的機器學習算法使Macie智能化。它使用自然語言處理(NLP)來解析存儲在文檔中的數據,以識別信用卡號,社會安全號碼,電子郵件,密碼,API密鑰,SSH密鑰和其他敏感信息等模式。根據已知數據的敏感性和關鍵性,Macie將文檔歸類為事先定義風險級別。完成分類后,Macie將開始監控高風險數據的訪問方式。Macie運用人工智能來了解歷史數據訪問模式,并自動評估用戶,應用程序和服務帳戶的活動。這可以幫助客戶檢測未經授權的訪問,并避免數據泄露。
亞馬遜Macie是如何獲得分類和推薦的數據安全機制,這備受關注。該服務依賴于三個獨立的輸入:
數據——Macie從存儲在MicrosoftWord,Excel和文本文件等的實際數據中提取關鍵詞。Macie還考慮文件擴展名(MIME類型)來評估數據的敏感度。例如,香港服務器 香港服務器租用,PEM文件會影響Macie將文件移到比TXT文件更高的風險級別。
元數據——Macie還會考慮在文件,S3文件和存儲桶中可得的元數據。許多時候,在分類文檔時,元數據比數據更有幫助。
訪問信息和憑證——Macie接入AmazonCloudTrail,這是AWS中的一個審查跟蹤服務,幾乎存錄了對AWS資源做出的所有API請求。該服務利用CloudTrail的能力采集在S3文件上的目標級API活動。除了CloudTrail之外,Macie還從身份及訪問管理(IAM)中提取與用戶和角色相關的信息。
上述三個數據源作為Macie發現,香港站群服務器 美國服務器,分類和保護數據的關鍵輸入。雖然AmazonS3是Macie唯一支持的數據源,但AWS預計會引入AmazonRedShift,AmazonRDS,AmazonElasticFileSystem(AmazonEFS)等其他服務。在Macie開始與AWS的數據服務結合之前,這只是時間問題。像大多數基于機器學習的算法一樣,利用額外數據,Macie只會變得更加優秀。這會臨時提供該服務的分類和風險分析能力。
亞馬遜Macie并不是AWS的自產技術,其實該服務是來自Harvest.ai公司,今年年初,AWS以2000萬美元收購了這一初創公司。Harvest.ai打造了一個名為MacieAnalytics的產品,可以報告和防止企業的數據泄露。該產品現與AmazonS3結合成為AmazonMacie。
亞馬遜Macie只是啟用人工智能的基礎架構服務的開始。隨著對機器學習和人工智能的大量投資,預計AWS,谷歌和微軟會將智能化引入云操作,DevOps和安全域。