实用机器学习笔记
-李沐 斯坦福
1.2 数据获取
数据发现
数据生成
- GAN
- 数据增强
1.3 网页数据抓取
tools
- curl
- headless、selenium
inspect:确定元素在html中的位置
2 数据预处理
对于文本数据可采用zip等压缩格式
数据清理
异常值(outliers )、基于规则检测、基于模式检测
数据变换
- Tabular:Normalization

- Images: cropping(裁剪), downsampling, whitening
- Videos: clipping, sampling frames
- Text: stemming, lemmatization, tokenization
特征工程
3 机器学习
监督学习:模型、损失、目标、优化
模型分类:决策树、线性模型、核方法、神经网络
随机梯度下降SGD
Mini-batch SGD 超参:batch_size、learn_rate、num_epochs