概览 爬虫程序可以异步方法写,也可以用同步方法写 可以在同步方法里面执行阻塞的任务,但是不能在异步方法里面执行阻塞的任务,不然会阻塞 数据流如下: 核心是spider,解析,存储都在spider 一个简易的流程图: 从start_requests初始化入口url,把封装好的request 添加到爬虫队列中。 爬虫开始后从scheduler获取request,处理爬虫任务。 当scheduler的队列为空时,爬虫结束。