NLP

1 基础知识

[cs224n学习笔记(2)CBOW与Skip-Gram模型](https://zhuanlan.zhihu.com/p/47585825 )

The Illustrated Transformer https://jalammar.github.io/illustrated-transformer/ 较为优秀的blog，国内大多数博客抄的这篇，但感觉流程逻辑较分散

Bert在NLP各领域的应用进展一个很好的展望，新颖深入理性幽默，是我喜欢的博主风格hh

输入：[CLS] 映射为NSP二分类任务、[SEP] 分句

预训练任务：MLM+NSP

类似于CBOW，预测标签

softmax 归一化处理较耗时 –> 分层的softmax 根据类别的频率构造霍夫曼树

n-gram 字粒度和词粒度