Skip to content

Scrapy settings

settings.py 是 Scrapy 项目的全局配置中心。
很多爬虫行为,最终都要回到这里做调整。

为什么 settings 重要

如果不理解 settings,你会遇到这些问题:

  • 抓取太慢
  • 抓取太快被封
  • 头信息不对
  • Cookies 行为不符合预期

并发配置

并发会直接影响抓取速度:

  • 并发越高,速度可能越快
  • 但目标站压力也越大,被封风险也更高

请求频率配置

适当加请求间隔,能让抓取更稳定、更像正常访问。

随机头部配置

很多站点会根据请求头识别爬虫。
随机或合理设置请求头是很常见的手段。

Cookies 配置

有些项目要保留 Cookie,有些则希望禁用 Cookie。
不同场景下配置方式会不一样。

settings 不是越多越好

初学阶段不需要把所有配置都背下来。
你最应该先掌握的是:

  • 并发
  • 频率
  • 请求头
  • Cookie

Built with VitePress.