2017-03-23 熵 0. 熵在信息论中,熵是对不确定性的测量,定义为概率分布的对数的相反数。香农把随机变量X的熵值H定义如下:$$H(X) = E[I(X) ] = E[-ln(P(X))]$$其中,P为X的概率质量函数(probability mass function),E为期望函数,而I(X)是X的信息量(又称为自信息)。 Read More
2017-03-18 神经网络权重初始化 在神经网络模型训练过程中需要对参数 weight 进行更新,在更新前需要进行初始化操作,当模型足够复杂时,一个好的初始化对模型优化至关重要。 为什么不能全部初始化为0?如果所有参数都是0,那么所有神经元的输出都是相同的,在 forward 和 back 时每一层的神经元的值和梯度都是一样的,使模型过于简单。 Read More
2017-03-08 常用激活函数优劣对比 为什么要引入非线性激活函数(non-linear active function)?增加神经网络模型的非线性映射。如果不用激活函数,那么每一层的输出与上一层都是线性相关,可以证明无论多少层神经网络,输出都是输入\的线性组合,只能模拟线性函数。所以通过使用非线性激活函数来使神经网络可以拟合任意函数。 常见的激活函数有 sigmoid、tanh、ReLU 等,下面来分别讨论一下不同激活函数的优劣势。 Read More
2015-09-23 BP算法 符号表示: $ w_{kj}^l:l-1层j节点到l层k节点的权重;z_k^l: l层k节点的输入值;\alpha_k^l: l层k节点的输出 $ $ z^l=w^la^{l-1}+b^l; a^l=\sigma(z^l) $ Read More