爬虫基础与HTTP
爬虫最核心的事情其实只有一句话:
“程序代替浏览器,去请求网页,再从返回结果里提取数据。”
如果你连 HTTP 请求和响应都没搞清楚,后面很容易变成只会抄框架代码。
爬虫是什么
爬虫不是神秘技术,本质上就是自动化获取网络数据。
例如:
- 获取商品列表
- 获取文章标题
- 获取评论数据
浏览器渲染流程
当你打开一个网页时,大致过程是:
- 浏览器发请求
- 服务器返回响应
- 浏览器解析 HTML、CSS、JS
- 页面被渲染出来
爬虫通常不一定真的把页面完整渲染出来,但它必须理解请求和响应这两个基础动作。
HTTP 请求是什么
HTTP 请求里常见的信息有:
- 请求方法
- 请求地址
- 请求头
- 请求参数
常见请求方法:
GETPOST
HTTP 响应是什么
服务器返回给你的内容就是响应。
常见包括:
- HTML
- JSON
- 图片
- 状态码
状态码怎么理解
最常见的状态码:
200:成功404:资源不存在500:服务器错误
fiddler 的作用
fiddler 是抓包工具。
它可以帮助你看清浏览器到底发了什么请求、收到了什么响应。
HTTPS 和证书
很多站点已经是 HTTPS。
这时抓包时你会发现,有时需要额外配置证书才能看清请求内容。
为什么这一页很重要
因为后面你写 requests、写 Scrapy、处理反爬,本质上都建立在这里的理解上。