Redis扩展与分布式
当爬虫规模变大后,单机单进程抓取往往不够用了。
这时会开始接触 Redis 和分布式抓取。
为什么要引入 Redis
Redis 能帮助你做这些事:
- 保存待抓取任务
- 去重
- 在多个爬虫节点之间共享任务状态
分布式抓取怎么理解
你可以把它想成:
- 一台机器抓不过来
- 多台机器一起抓
- 任务通过 Redis 协调
Redis 在爬虫里的价值
最常见的两个用途:
- 任务队列
- 去重记录
MySQL、MongoDB、Redis 在爬虫里的分工
- MySQL:适合结构稳定的数据
- MongoDB:适合结构灵活的数据
- Redis:适合任务状态和高频缓存
学这一页最重要的目标
- 知道为什么会从单机走向分布式
- 知道 Redis 在爬虫中不只是缓存