熵

0. 熵

在信息论中，熵是对不确定性的测量，定义为概率分布的对数的相反数。香农把随机变量X的熵值H定义如下：
$$
H(X) = E[I(X) ] = E[-ln(P(X))]
$$
其中，P为X的概率质量函数(probability mass function)，E为期望函数，而I(X)是X的信息量(又称为自信息)。

神经网络权重初始化

在神经网络模型训练过程中需要对参数 weight 进行更新，在更新前需要进行初始化操作，当模型足够复杂时，一个好的初始化对模型优化至关重要。

为什么不能全部初始化为0？

如果所有参数都是0，那么所有神经元的输出都是相同的，在 forward 和 back 时每一层的神经元的值和梯度都是一样的，使模型过于简单。

常用激活函数优劣对比

为什么要引入非线性激活函数(non-linear active function)？

增加神经网络模型的非线性映射。如果不用激活函数，那么每一层的输出与上一层都是线性相关，可以证明无论多少层神经网络，输出都是输入\
的线性组合，只能模拟线性函数。所以通过使用非线性激活函数来使神经网络可以拟合任意函数。

常见的激活函数有 sigmoid、tanh、ReLU 等，下面来分别讨论一下不同激活函数的优劣势。

如何衡量事件的相似性

聚类性能度量

Kleinberg

预备知识

安装配置

Hexo搭建个人博客

BP算法

符号表示：

$ w_{kj}^l：l-1层j节点到l层k节点的权重；z_k^l: l层k节点的输入值；\alpha_k^l: l层k节点的输出 $

$ z^l=w^la^{l-1}+b^l; a^l=\sigma(z^l) $

Django快速搭建一个网站

Django介绍

参考文档：
Django官方文档官方文档中文翻译