Skip to content

Redis扩展与分布式

当爬虫规模变大后,单机单进程抓取往往不够用了。
这时会开始接触 Redis 和分布式抓取。

为什么要引入 Redis

Redis 能帮助你做这些事:

  • 保存待抓取任务
  • 去重
  • 在多个爬虫节点之间共享任务状态

分布式抓取怎么理解

你可以把它想成:

  • 一台机器抓不过来
  • 多台机器一起抓
  • 任务通过 Redis 协调

Redis 在爬虫里的价值

最常见的两个用途:

  • 任务队列
  • 去重记录

MySQL、MongoDB、Redis 在爬虫里的分工

  • MySQL:适合结构稳定的数据
  • MongoDB:适合结构灵活的数据
  • Redis:适合任务状态和高频缓存

学这一页最重要的目标

  • 知道为什么会从单机走向分布式
  • 知道 Redis 在爬虫中不只是缓存

Built with VitePress.