深度学习：算法到实战学习笔记03

发表于 2024-05-27 更新于 2024-07-04 分类于学习笔记，深度学习学习笔记

本次的主题为循环神经网络
笔记内容来源：视频

绪论

与卷积网络的不同：

特点：

基本结构：

普通的 RNN 是在横向上延伸，深度 RNN 可以在纵向上延伸。

即：RNN 层下面又是一个 RNN 层

两个传递方向相反的 RNN 网络，然后由一个函数 f，将对应的值整合输出。

BPTT 算法与 BP 算法的过程基本一致，但是，由于在 RNN 中，当前的输入会依赖于上一次的输出，因此，需要对求导公式做进一步的拆分。

以 E=3 为例：

![[Pasted image 20240526140748.png]]

LSTM 有三个门（遗忘门，输入门，输出门），来保护和控制细胞状态
遗忘门：决定丢弃信息
- $f_{t}=\sigma(W_{f}*[f_{t-1},x_{t}]+b_{f})$
- $\sigma$ 为 sigmoid 函数
- sigmoid 层输出 0 到 1 之间的数值，描述每个部分有多少量可以通过，0 代表”不允许任何量通过”，1 指”允许任意量通过”
  - 可以以一定的比例来遗忘存放在 memory 中的信息
输入门：确定需要更新的信息
- $i_{t}=\sigma(W_{i}[h_{t-1},x_{t}])$，$\tilde{C_{t}} = tanh(W_{C}[h_{t-1},x_{t}]+b_{C})$
- 首先经过 sigmoid 层决定什么信息需要更新，然后通过 tanh 层输出备选的需要更新的内容，然后加入新的状态中。
- 0 代表“不更新”，1 代表“完全更新”
- 新的 $C_{t}$：$C_{t}=f_{t}C_{t-1}+i_{t}\tilde{C_{t}}$
- $C_{t-1}$ 到 $C_{t}$ 是线性交互，因此其变化较慢。
输出门：输出信息
- $o_{t}=\sigma(W_{o}[h_{t-1},x_{t}]+b_{o})$，$h_{t}=o_{t}*tanh(C_{t})$
- 首先，通过 sigmoid 来确定细胞状态的哪个部分将输出出去。然后，将细胞状态通过 tanh 进行处理并将它和 sigmoid 门的输出相乘，最终仅仅会输出我们确定输出的那部分。
- 0 代表不输出，1 代表完全输出

RNN 与 LSTM

小结

LSTM 有三个门计算，即遗忘门，输入门，输出门。
LSTM 的一个初始化技巧就是将输出门的 bias 置为正数（比如 1 或 5），这样模型刚开始训练时 forget gate 的值接近于 1，不会发生梯度消失。
可以使用 GRU 解决 LSTM 的复杂的运算。

差异：

clockwise RNN：普通 RNN 都是隐层从前一时间步连接到消瘦时间步。而其把隐层分成很多组，每组有不同的循环周期，有的周期是 1，有的周期更长（例如从前两个时间步连接到当前时间步，不同周期的 cell 之间也有一些连接）这样一来，距离较远的某个依赖关系就可以通过周期较长的 cell 少数几次循环访问到，从而网络层数不太深，更容易学习。

attention：是受到人类注意力机制的启发。人们在进行观察图像的时候，大多是根据需求将注意力集中到图像的特定部分。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置。

处理的过程如下：