Lec-7 backpropagation - Machine learning (台大李宏毅)

发表于 2018-05-23 更新于 2024-06-22 分类于 ML&DL 阅读次数：

本文为台大李宏毅的机器学习入门课程笔记。

第七章：反向传播

重点：

Back-propagation 其实就是针对NN的gradient descent，只是如果直接把gradient descent 用在NN上就会没有效率，因为可能有几百万个参数要优化，那就会卡死。所以就用链式法则来进行优化，也就是这个backpropagation。

Chain rule 链式法则

如果对w计算偏导，就可以只计算对某一个参数的loss 来计算

其中，$C^n$ 看作一个衡量$y^n$与$\hat y^n$之间距离的函数，越小越好

接下来我们只看红框里面的内容

可以看到，$\frac {\partial C}{\partial w}$ 可以被链式法则拆解成 $\frac {\partial z}{\partial w}$ 和$\frac {\partial C}{\partial z}$

其中，前者被称为forward pass, 后者被称为backward pass。

可以很容易地发现，w1对z的偏导就是x1， w2对z的偏导就是x2。也就是说，偏导只取决于输入。举个例子：

这个步骤就叫做forward pass，它很容易就能得出来

尽管我们知道a对z’ 的偏导和a对z‘’的偏导都能算出来（就是它们对应的权重），但我们不知道z’对C和z’’对C的偏导（因为我们不知道z’、z’’对C的关系，因为之后还有经过很多操作）。

但是我们假设我们知道了，就直接把它们带入运算。

让我们反着来看这件事：

其中，z在forward pass中就已经决定好了，所以它是一个常数。

那么现在就是要算出刚刚假设是已知的那两个数就可以了，那么怎么算呢？

有两种情况：

那么就可以直接得出来

这种情况就需要recursive地计算，一直到reach output layer为止

但是这样的话就没有效率。我们可以直接反向运算，即直接先从output layer进行计算，这样就不需要recursion了。也就相当于建立了一个反向的NN，这个反向的NN的输入是原先的输出，输出是原先的输入。

总结来说，其实整个折腾这么两趟，是因为想知道每一个weight对最后的loss函数的偏微分。而这个偏微分根据链式法则来计算的话，中间的每一项偏微分都需要推导来计算。