Skip to content

爬虫基础与HTTP

爬虫最核心的事情其实只有一句话:

“程序代替浏览器,去请求网页,再从返回结果里提取数据。”

如果你连 HTTP 请求和响应都没搞清楚,后面很容易变成只会抄框架代码。

爬虫是什么

爬虫不是神秘技术,本质上就是自动化获取网络数据。

例如:

  • 获取商品列表
  • 获取文章标题
  • 获取评论数据

浏览器渲染流程

当你打开一个网页时,大致过程是:

  1. 浏览器发请求
  2. 服务器返回响应
  3. 浏览器解析 HTML、CSS、JS
  4. 页面被渲染出来

爬虫通常不一定真的把页面完整渲染出来,但它必须理解请求和响应这两个基础动作。

HTTP 请求是什么

HTTP 请求里常见的信息有:

  • 请求方法
  • 请求地址
  • 请求头
  • 请求参数

常见请求方法:

  • GET
  • POST

HTTP 响应是什么

服务器返回给你的内容就是响应。
常见包括:

  • HTML
  • JSON
  • 图片
  • 状态码

状态码怎么理解

最常见的状态码:

  • 200:成功
  • 404:资源不存在
  • 500:服务器错误

fiddler 的作用

fiddler 是抓包工具。
它可以帮助你看清浏览器到底发了什么请求、收到了什么响应。

HTTPS 和证书

很多站点已经是 HTTPS。
这时抓包时你会发现,有时需要额外配置证书才能看清请求内容。

为什么这一页很重要

因为后面你写 requests、写 Scrapy、处理反爬,本质上都建立在这里的理解上。

Built with VitePress.