0. 熵

在信息论中,熵是对不确定性的测量,定义为概率分布的对数的相反数。香农把随机变量X的熵值H定义如下:
$$
H(X) = E[I(X) ] = E[-ln(P(X))]
$$
其中,P为X的概率质量函数(probability mass function),E为期望函数,而I(X)是X的信息量(又称为自信息)。

Read More

神经网络权重初始化

在神经网络模型训练过程中需要对参数 weight 进行更新,在更新前需要进行初始化操作,当模型足够复杂时,一个好的初始化对模型优化至关重要。

为什么不能全部初始化为0?

如果所有参数都是0,那么所有神经元的输出都是相同的,在 forward 和 back 时每一层的神经元的值和梯度都是一样的,使模型过于简单。

Read More

常用激活函数优劣对比

为什么要引入非线性激活函数(non-linear active function)?

增加神经网络模型的非线性映射。如果不用激活函数,那么每一层的输出与上一层都是线性相关,可以证明无论多少层神经网络,输出都是输入\
的线性组合,只能模拟线性函数。所以通过使用非线性激活函数来使神经网络可以拟合任意函数。

常见的激活函数有 sigmoid、tanh、ReLU 等,下面来分别讨论一下不同激活函数的优劣势。

Read More

BP算法

符号表示:

$ w_{kj}^l:l-1层j节点到l层k节点的权重;z_k^l: l层k节点的输入值;\alpha_k^l: l层k节点的输出 $

$ z^l=w^la^{l-1}+b^l; a^l=\sigma(z^l) $

Read More