Lec-8 "hello world" from deep learning - Machine learning (台大李宏毅)

发表于 2018-05-23 更新于 2024-06-22 分类于 ML&DL 阅读次数：

本文为台大李宏毅的机器学习入门课程笔记。

第八章：开始动手搭积木！

重点：

介绍Keras
forward pass
backward pass

其实用Keras就相当于 theano 和tensorFlow的interface，所以可以直接用～

Step 1 Build Model

第二层就不用再强调input了，因为肯定是上一层的输出
Dense 就是fully connected layer

Step 2 Define loss function

这里可以看到，选择cross entropy作为loss function，当然也可以根据需求去用其他的loss function

Step 3 Training

optimizer其实都是在做gradient descent，有些方法不需要给它learning rate，有些要给.

什么是batch 和 epoch

其实在做优化的时候，并不是真的在最小化total loss，而是把整个training set 划分成好多个batch，这些batch 是随机抽取等量的样本而成。比如总共有100个training data，要把它们分成20个batch，那么每个batch 中就包含随机抽取的不重复的5个training data。

在训练的时候，实际上是先用第一个batch，然后计算在这个batch中的loss，并将参数update；再用第二个batch，再优化一次，update 一次参数……一直到所有batch都用过一遍了，这就叫做一个epoch。