Skip to content

概览

爬虫程序可以异步方法写,也可以用同步方法写 可以在同步方法里面执行阻塞的任务,但是不能在异步方法里面执行阻塞的任务,不然会阻塞

数据流如下:

核心是spider,解析,存储都在spider

一个简易的流程图:

  1. 从start_requests初始化入口url,把封装好的request 添加到爬虫队列中。

  2. 爬虫开始后从scheduler获取request,处理爬虫任务。

  3. 当scheduler的队列为空时,爬虫结束。