首页 实用机器学习笔记
文章
取消

实用机器学习笔记

实用机器学习笔记

-李沐 斯坦福

课程主页

b站视频

1.2 数据获取

  1. 数据发现

  2. 数据生成

    • GAN
    • 数据增强

1.3 网页数据抓取

tools

  • curl
  • headless、selenium

inspect:确定元素在html中的位置

2 数据预处理

对于文本数据可采用zip等压缩格式

数据清理

异常值(outliers )、基于规则检测、基于模式检测

数据变换

  • Tabular:Normalization

image-20220125191156358

  • Images: cropping(裁剪), downsampling, whitening
  • Videos: clipping, sampling frames
  • Text: stemming, lemmatization, tokenization

特征工程

3 机器学习

监督学习:模型、损失、目标、优化

模型分类:决策树、线性模型、核方法、神经网络

随机梯度下降SGD

​ Mini-batch SGD 超参:batch_size、learn_rate、num_epochs

本文由作者按照 CC BY 4.0 进行授权