前言
Google Cloud 宣布了 BigQuery 差分隱私的預覽版本,分析師和數據科學家可以用來匿名化像是SQL資料數據,在當今數據驅動的世界中,保護個人隱私比以往任何時候都更加重要。隨著越來越多的數據被收集和存儲,企業越來越容易追踪我們的行踪、監控我們的活動,甚至預測我們未來的行為,但保護用戶隱私是極為重要的,使用差分隱私(Differential privacy)是其中一種方式。
原理
差分隱私(Differential privacy)是一種數學框架,它以一種保留數據整體統計特性的方式向數據添加noise而無法識別單一記錄。如圖一,顯示了某個特定晚上一家小餐館的繁忙程度。晚上7點很多客人來了,凌晨1點有只有1位 客人用餐,這透露了一些用戶隱私

圖二,透過Differential privacy方法(藍色)向長條圖添加隨機noise,與沒有使用方法的(橘色)相比之下增加了更多隱私性

使用情境
而差分隱私應用可以像是,例如
- 醫療保健研究:某研究可能會檢查某些遺傳標記與特定疾病風險之間的關係,使用差分隱私來分析醫療記錄,而不會危及患者的健康隱私
- 目標行銷: 行銷人員可以在不洩露敏感信息的情況下,利用差分隱私對客戶行為和偏好進行數據分析
- 人口普查數據分析:政府可以在尊重公民隱私的同時,利用差分隱私準確分析人口普查數據。通過匿名化數據貢獻,政府可以在不損害個人身份的情況下提取有價值的人口統計信息。
操作步驟
1, 建立 SQL Database 輸出一份CSV,可當測試資料集測試差分隱私(Differential privacy)


2.在GCP BigQuery中透過查詢,使用差分隱私查詢添加Funtion來對數據做 noise,更小的 epsilons 和更多的noise將提供更好的隱私保護,但也會失去資料的可利用率。需要依據分析目的取到最好的平衡。




相關文章
- 使用差分隱私不會產生額外費用,但適用於分析的標準 BigQuery 定價Pricing | BigQuery: Cloud Data Warehouse | Google Cloud
- 更多關於Re-identification risk analysis文章Re-identification risk analysis | Data Loss Prevention Documentation | Google Cloud