跟李沐大佬读论文

方法论

pass 1：标题、摘要、结论、图表、实验

pass 2：通读、总体流程、文献

pass 3：详细、实现

Attention is all you need

位置嵌入：引入位置信息，直接与词嵌入相加

注意力机制：给和自身相似的分配更高的权重。QKV是同样的向量复制三份

多头：学习到多种在不同空间的特征

残差：避免梯度消失 https://www.bilibili.com/video/BV1Di4y1c7Zm?p=4&spm_id_from=pageDriver

Mask：避免对后面的词进行计算

Batch Normal和Layer Normal的区别?

BN优点:解决内部协变量偏移（有疑？）,缓解梯度饱和

缺点：batch_size小时效果差，在RNN中效果差

LN：对同一个样本的所有单词进行缩放

本文由作者按照 CC BY 4.0 进行授权