2017-03-18

神经网络权重初始化

在神经网络模型训练过程中需要对参数 weight 进行更新，在更新前需要进行初始化操作，当模型足够复杂时，一个好的初始化对模型优化至关重要。

为什么不能全部初始化为0？

如果所有参数都是0，那么所有神经元的输出都是相同的，在 forward 和 back 时每一层的神经元的值和梯度都是一样的，使模型过于简单。

pre-training

pre-training一般分两个阶段：① pre-training 阶段，对神经网络的每一层取出构造一个 auto-encoder 做训练，使得输出层能够复现输出层，在这个过程中得到初始参数 ② fine-tuning 阶段，将上一步得到的参数作为初始化参数对模型进行整体调整。

感觉现在不太流行这种做法，个人对此不太熟悉。

高斯分布初始化

直接对参数进行高斯分布初始化，通常均值为0，标准差为0.01。

1	W = tf.Variable(np.random.randn(node_in, node_out)) * 0.01

Xavier 初始化

Xavier 初始化方法来自论文[1]，文章假设激活函数为线性且满足0点处导数为1.

如果
$$
y = w_1x_1 + \cdots + w_nx_n + b
$$
根据概率统计知识有下面的方差公式：
$$
Var(w_ix_i) = E[w_i]^2Var(x_i) + Var(w_i)E(x_i)^2 + Var(w_i)Var(x_i) \ \ \ \ \ \ \ \ \ (1)
$$
特别的，当我们假设输入和权重都是零均值时（可以通过Batch Normalization），上式可以简化为：
$$
Var(w_ix_i) = Var(w_i)Var(x_i)
$$
进一步假设输入x和权重w独立同分布，则有：
$$
Var(y) = nVar(w_i)Var(x_i)
$$
于是，为了保证输入输出方差一致，则应该有：
$$
Var(w_i) = \frac{1}{n}
$$
考虑前向和后向传播时每一层的方差一致，应该满足上式，最终我们的权重方差应该满足：
$$
Var(W) = \frac{2}{node_{in}+node_{out}}
$$
因为[a,b]区间均匀分布的方差为：
$$
Var = \frac{(b-a)^2}{12}, E = \frac{a+b}{2}
$$
因此，Xavier 初始化就是下面的均匀分布：
$$
W \sim U[-\frac{\sqrt{6}}{\sqrt{(node_{in}+node_{out})}}, \frac{\sqrt{6}}{\sqrt{(node_{in}+node_{out})}}]
$$

1	W = tf.Variable(np.random.uniform(-np.sqrt(6/(in+out))), np.sqrt(6/(in+out))) W = tf.Variable(np.random.randn(in, out)) * np.sqrt(2./(in+out))

MSRA 权重初始化

MASR 权重初始化方法来自论文[2]，因为 Xavier 推导的时候假设激活函数是线性的，显然常用的激活函数 ReLU 并不满足。推导过程与 Xavier 类似，在得到(1)式后，输入的均值不为0，所以：
$$
Var(w_ix_i) = Var(w_i)E(x_i)^2 + Var(w_i)Var(x_i) = Var(w_i) E({x_i}^2)
$$
所以有：
$$
Var(y) = nVar(w_i)E({x_i}^2)
$$
对于 ReLU 函数，
$$
x_l = f(y_{l-1}), \ \ \ \ \ \ \ E(x^2_l) = \frac{1}{2} Var(y_{l-1})
$$
带入上式得，
$$
Var(y_l) = \frac{1}{2}n_l Var(w_l)Var(y_{l-1})
$$
为了使得每一层数据的方差保持一致，则权重应该满足：
$$
\frac{1}{2}n_l Var(w_l) = 1, \forall l
$$
即
$$
Var(W) = \frac{2}{n}
$$

1	W = tf.Variable(np.random.randn(in, out)) * np.sqrt(4./(in+out))

Batch Normalization

BN是在进行非线性激活函数前，对输入值做 normalize，来自论文[3]。
$$
\mu \leftarrow \frac{1}{m}\sum_{i=1}^m{x_i}
$$

$$
\sigma ^2 \leftarrow \frac{1}{m}\sum_{i=1}^m{(x_i-\mu)^2}
$$

$$
x_i \leftarrow \frac{x_i-\mu}{\sqrt{\sigma^2+\epsilon}}
$$

$$
y_i \leftarrow \gamma x_i + \beta
$$

BN 中所有的操作都是平滑可导的，这使得反向传播可以有效运行并学到相应的参数。需要注意的一点是 BN 在训练和测试的时候有所差别。训练的时候由当前 batch 计算得出，在测试的时候应该使用训练时保存的均值或类似的经过处理的值，而不是由当前 batch 计算。

1	layer = tf.contrib.layers.batch_norm(layer, center=True, scale=True, is_training=True)

参考文献

[1] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Aistats. 2010, 9: 249-256.

[2] He K, Zhang X, Ren S, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1026-1034.

[3] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.

[4] http://blog.csdn.net/shuzfan/article/details/51338178

[5] http://blog.csdn.net/shuzfan/article/details/51347572

[6] http://www.leiphone.com/news/201703/3qMp45aQtbxTdzmK.html