差分隐私算法主要参考论文：Deep Learning with Differential Privacy (https://arxiv.org/abs/1607.00133)
差分隐私数学原理主要参考书籍：《The Algorithm Foundations of Differential Privacy》
训练框架中的差分隐私模块以 tensorflow-privacy (https://github.com/tensorflow/privacy)为基础，针对该框架中的训练模块做了适配。tensorflow-privacy 使用雷尼差分隐私衡量隐私保护效果，论文详见：
Renyi Differential Privacy(https://arxiv.org/abs/1702.07476)
The Discrete Gaussian for Differential Privacy(https://arxiv.org/abs/2004.00010)
在差分隐私中，样本被称为records，mini-batch被称为samples，梯度被称为queries，具体请阅读论文：
A General Approach to Adding Differential Privacy to Iterative Training Procedures (https://arxiv.org/pdf/1812.06210.pdf)

差分隐私算法简介

目前框架只提供了采用高斯噪声的差分隐私机制，因此以下算法以高斯噪声为例。

差分隐私随机梯度下降算法
输入：训练样本${x_1,\dots,x_n}$，micro-batch大小$L$，mini-batch大小$M$，学习率$\eta$，训练步数$T$ ，高斯噪声标准差因子，梯度剪切阈值$C$，损失函数$\mathcal L$
输出：模型参数
算法流程： 1. 初始化模型参数为$\theta_0$ 2. $for\ \ \ t\in[T]\ \ \ do$ a) 随机抽取$M$个样本，称为一个mini-batch b) 将一个mini-batch分成若干个micro-batch，每个micro-batch包含$L$个样本 c) 计算每个micro-batch的梯度$\pmb g_t(X_i)=\nabla_{\pmb\theta_t}\mathcal L(\pmb\theta_t,X_i)$ d) 梯度剪切$\bar{\pmb g}_t(X_i)=\pmb g_t(X_i)/\max(1,\frac{\|g_t(X_i)\|_2}C)$ e) 梯度加噪$\hat{\pmb g}_t(X_i)=\bar{\pmb g}_t(X_i)+\mathcal N(0, \sigma^2C^2)$ f) 梯度求均值$\tilde{\pmb g}_t=\sum_i\hat{\pmb g}_t(X_i)$ g) 更新模型参数

差分隐私优化器

我们为用户提供了optimizer的装饰器，装饰器用于将非差分隐私optimizer转换为差分隐私的optimizer，并提供了一些已经装饰好的优化器：
DPAdagradOptimizer、DPAdamOptimizer、DPGradientDescentOptimizer、
DPAdagradGaussianOptimizer、DPAdamGaussianOptimizer、
DPGradientDescentGaussianOptimizer
这些优化器通过两个装饰器生成：DPOptimizerClass与DPGaussianOptimizerClass。

DPOptimizerClass

efl.make_optimizer_class(
    cls
)

调用该接口将会把一个非差分隐私的optimizer转换为差分隐私的optimizer，cls为希望转换的tf.train.Optimizer。该接口使用DPOptimizerClass装饰原生的optimizer。

DPOptimizerClass(
    dp_sum_query,
    num_microbatches=None,
    unroll_microbatches=False,
    *args,
    **kwargs
)

参数

参数列表
dp_sum_query	`DPQuery`	实现梯度加噪并衡量隐私保护效果的类成员。
num_microbatches	`int`	差分隐私算法中micro-batch的数量。
unroll_microbatches	`bool`	该参数为`True`时内部的循环代码使用原生的for，否则使用`tf.while_loop`。默认为`False`，当`tf.while_loop`抛异常时可以考虑将该参数改为`True`。

DPOptimizerClass是装饰器的基类，差分隐私机制不同，dp_sum_query也不同，不同的子类装饰器传入了不同的dp_sum_query。当然，用户也可以通过该接口自定义dp_sum_query来实现不同的差分隐私机制。关于dp_sum_query的详情请参考tensorflow-privacy的源码： https://github.com/tensorflow/privacy/tree/master/tensorflow_privacy/privacy/dp_query。在当前框架中我们只提供了高斯机制的差分隐私，对应的装饰器为DPGaussianOptimizerClass。

方法

compute_gradients

compute_gradients(
    loss,
    var_list,
    gate_gradients=GATE_OP,
    aggregation_method=None,
    colocate_gradients_with_ops=False,
    grad_loss=None,
    gradient_tape=None,
    opt_config=_DEFAULT_OPT_CONFIG
)

各参数含义与tf原生optimizer含义一致。与原生optimizer相比多了两个参数gradient_tape与opt_config，gradient_tape用于控制Eager模式与Graph模式，但当前框架只支持Graph模式，因此该参数无需关心。 opt_config从Model.compile接口中传入，用于控制optimizer的行为，详情可见：efl.Model.compile。注意：与普通的随机梯度下降算法相比，差分隐私将batch又拆分成了一个个小batch，对每个小batch求loss，因此这就需要我们在传入loss的时候，需要传入每个样本的loss，而不是传入所有样本loss的均值。optimizer内部会自行将这些样本分组并计算loss均值。

DPGaussianOptimizerClass

efl.make_gaussian_optimizer_class(
   cls
)

调用该接口将会把一个非差分隐私的optimizer转换为使用了高斯机制的差分隐私optimizer，cls为希望转换的tf.train.Optimizer。该接口使用DPGaussianOptimizerClass装饰原生的optimizer。

DPGaussianOptimizerClass(
    l2_norm_clip,
    noise_multiplier,
    num_microbatches=None,
    ledger=None,
    unroll_microbatches=False,
    *args,
    **kwargs
)

参数

参数列表
l2_norm_clip	`float`	差分隐私算法中的梯度剪切阈值。
noise_multiplier	`float`	差分隐私算法中的高斯噪声标准差因子。
num_microbatches	`int`	差分隐私算法中micro-batch的数量。
ledger	`PrivacyLedger`	用于记录隐私保护效果。
unroll_microbatches	`bool`	该参数为`True`时内部的循环代码使用原生的for，否则使用`tf.while_loop`。默认为`False`，当`tf.while_loop`抛异常时可以考虑将该参数改为`True`。

DPGaussianOptimizerClass继承自DPOptimizerClass，它根据参数l2_norm_clip和noise_multiplier构造了一个用于高斯机制的dp_sum_query，并传入了DPOptimizerClass的构造函数中，无需用户自行定义。 ledger是用于在训练时记录隐私保护效果的类成员，由于雷尼差分隐私可以在训练前就计算出隐私保护效果，所以该参数一般情况下并不需要使用，因此在新版的tensorflow-privacy中该参数及有关的类已被移除，但由于我们的框架为了兼容tf1.15，采用的并不是最新版的tensorflow-privacy。

差分隐私训练

本节介绍差分隐私机制如何配合联邦学习训练框架进行训练。

我们的训练框架支持多样化的训练方式：

follower只提供tensor，但不需要返回梯度。比如模型的测试阶段。
follower发送tensor，也需要梯度。比如模型的训练阶段。
follower除了接收到对方的梯度外，自己还计算了梯度。这种情况一般代表双方有不同的下游模型。
follower将模型直接发送给了对方。如follower向leader发送了预训练模型BERT的参数。

以上四种情况可以整合为如下机制： follower: 将自身计算的梯度（若存在）与接收到的梯度相加，更新模型。 leader:除计算自身模型的梯度外，还要计算接收到的且follower希望回传的参数梯度。且根据差分隐私的数学原理，若follower发送的是模型参数，leader需要对回传梯度加噪，若follower发送的是模型某一层的输出，则leader无需对回传梯度加噪。以上就是框架中的训练逻辑。

差分隐私超参数测试

测试代码：python/efl/example/dp_mnist/mnist_dp_cnn.py
我们用MNIST数据集训练CNN作为测试，网络结构如下：

Conv2D (滤波器数量:16, 卷积核大小:8x8, 步长:2, 激活函数:ReLU, 填充策略:same)
MaxPooling2D (池化窗口大小:2x2, 步长:1)
Conv2D (滤波器数量:32, 卷积核大小:4x4, 步长:2, 激活函数:ReLU, 填充策略:valid)
MaxPooling2D (池化窗口大小:2x2, 步长:1)
Flatten
Dense (神经元个数:32, 激活函数:ReLU)
Dense (神经元个数:10)

loss: softmax交叉熵（tf.nn.sparse_softmax_cross_entropy_with_logits）

效果测试

clip: 梯度剪切的阈值，
stddev_ratio: 高斯噪声标准差的因子，
microbatch: 一个batch被差分隐私框架切分成若干个microbatch，microbatch的数量必须能整除batch_size，
每个microbatch单独训练，所有microbatch的梯度聚合加噪。
eposilon: 差分隐私的衡量指标，越小隐私保护程度越高
delta: 差分隐私的衡量指标，越小隐私保护程度越高

1. stddev_ratio对效果的影响

学习率	stddev_ratio	clip	batch大小	microbatch数量	epoch数量	epsilon	准确率	delta
0.25	-	-	256	-	20	无保护	100%	-
0.25	1.3	1.5	256	256	20	1.11	97%	1e-5
0.25	0.7	1.5	256	256	20	4.55	98%	1e-5
0.25	0.5	1.5	256	256	20	14.4	99%	1e-5

结论：噪声的降低会提高准确率但会损失隐私保护效果。

2. clip对效果的影响

学习率	stddev_ratio	clip	batch大小	microbatch数量	epoch数量	epsilon	准确率	delta
0.25	-	-	256	-	20	无保护	100%	-
0.25	1.0	10	256	256	20	1.77	88%	1e-5
0.25	1.0	2	256	256	20	1.77	99%	1e-5
0.25	1.0	1.5	256	256	20	1.77	99%	1e-5
0.25	1.0	1.0	256	256	20	1.77	97%	1e-5
0.25	1.0	0.1	256	256	20	1.77	87%	1e-5

结论：clip的改变并不会影响隐私保护的效果，对于不同的模型，梯度2范数的大小不同，clip的选取应该因地制宜，适模型的情况而定。例如在当前的MNIST数据集与CNN下，当clip=0.1时，虽然最终的准确率只有87%，但每个epoch的准确率都在稳步增加；当clip=10时，每个epoch的准确率波动较大，呈螺旋式上升。因此我们要根据当前模型的情况，合理选取clip区间，过大会导致梯度在error surface上跳跃，难以降到最低点；过小会导致下降缓慢，需要训练较长的时间，也可能落入局部极点。clip在一定程度上可以看作另一个学习率。

性能测试

1. 初步测试（microbatch数量对模型的影响）

在stddev_ratio=1.0, clip=1.0, batch_size=256, epoch=20, learning_rate=0.25的参数设置下，调整microbatch的数量，利用MNIST数据集训练CNN：

microbatch数量	0（不使用差分隐私）	1	2	4	8	16	32	64	128	256
执行时间（秒）	59	63	69	82	113	170	284	520	981	1901
准确率	100%	2%	8%	15%	15%	45%	85%	97%	99%	97%

结论：差分隐私中影响性能的超参数为microbatch的数量。根据测试结果可知，microbatch的数量与训练时间呈正线性关系，与准确率呈正相关。这是因为训练步数=microbatch数量*minibatch数量，因此microbatch与训练时间成正比，而minibatch是差分隐私框架的更新单元，microbatch是加噪单元，一个minibatch中microbatch数量越多，噪声之间就越容易“中和”，梯度越不容易偏离正确方向，因此准确率与microbatch的数量成正相关。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

differential_privacy.md

differential_privacy.md

差分隐私算法简介

差分隐私优化器

DPOptimizerClass

参数

方法

compute_gradients

DPGaussianOptimizerClass

参数

差分隐私训练

差分隐私超参数测试

效果测试

1. stddev_ratio对效果的影响

2. clip对效果的影响

性能测试

1. 初步测试（microbatch数量对模型的影响）

Files

differential_privacy.md

Latest commit

History

differential_privacy.md

File metadata and controls

差分隐私算法简介

差分隐私优化器

DPOptimizerClass

参数

方法

compute_gradients

DPGaussianOptimizerClass

参数

差分隐私训练

差分隐私超参数测试

效果测试

1. stddev_ratio对效果的影响

2. clip对效果的影响

性能测试

1. 初步测试（microbatch数量对模型的影响）