Provable Privacy with Non-Private Pre-Processing

简介

本文针对差分隐私（DP）机器学习流程的分析，指出隐私成本通常会忽略与数据相关的预处理。我们提出了一个通用框架，评估非隐私数据相关预处理算法所产生的额外隐私成本。我们的框架利用了两个新技术概念：一种称为Smooth DP的DP变体和预处理算法的有界灵敏度，从而建立了总体隐私保证的上限。除了通用框架外，我们还提供了多个数据相关预处理算法的明确总体隐私保证，例如数据插值、量化、去重和PCA，当它们与多个DP算法结合使用时。值得注意的是，这个框架也很容易实现，可以直接集成到现有的DP流程中。
图表
解决问题

论文旨在解决在隐私计算中经常被忽视的数据依赖性预处理的潜在隐私成本问题。论文提出了一个通用框架来评估非私有数据依赖性预处理算法所产生的额外隐私成本。
关键思路

论文提出了两个新的技术概念：Smooth DP和预处理算法的有界灵敏度，以建立上限隐私保证。同时，论文还提供了多个数据依赖性预处理算法的明确隐私保证，如数据插补、量化、去重和PCA。
其它亮点

论文的框架简单易用，可以直接集成到现有的隐私计算管道中。论文还提供了实验结果和多个数据集的评估，以及开源代码。值得进一步研究的是如何将该框架应用于其他领域的隐私计算。
相关研究

与本文相关的研究包括：《Differentially Private Data Preprocessing: An Experimental Evaluation》、《Differentially Private Data Preprocessing via Matrix Mechanism》等。

Provable Privacy with Non-Private Pre-Processing

评论