Scrapy settings
settings.py 是 Scrapy 项目的全局配置中心。
很多爬虫行为,最终都要回到这里做调整。
为什么 settings 重要
如果不理解 settings,你会遇到这些问题:
- 抓取太慢
- 抓取太快被封
- 头信息不对
- Cookies 行为不符合预期
并发配置
并发会直接影响抓取速度:
- 并发越高,速度可能越快
- 但目标站压力也越大,被封风险也更高
请求频率配置
适当加请求间隔,能让抓取更稳定、更像正常访问。
随机头部配置
很多站点会根据请求头识别爬虫。
随机或合理设置请求头是很常见的手段。
Cookies 配置
有些项目要保留 Cookie,有些则希望禁用 Cookie。
不同场景下配置方式会不一样。
settings 不是越多越好
初学阶段不需要把所有配置都背下来。
你最应该先掌握的是:
- 并发
- 频率
- 请求头
- Cookie