其他的相关方向
网页相似性比对
TF/IDF (term frequency–inverse document frequency)
| 根据词频构建新闻的特征向量 | –> | 余弦距离 |
|---|---|---|
| 手动建立 自动建立,构建子分类 | 计算优化方案(储存长度,只计算非零元素,删除虚词) | |
| 效果优化(加权) |
信息指纹
集合相同判定:
一一比较
排序后比较
推荐系统
推荐系统由早期的协同过滤算法
发展到 MF 模型、
再到之后的 Wide&Deep,以及基于 Network Embedding
爬虫
ScrapeGraphAI、Crawlee、Kspider