概览
爬虫程序可以异步方法写,也可以用同步方法写 可以在同步方法里面执行阻塞的任务,但是不能在异步方法里面执行阻塞的任务,不然会阻塞
数据流如下:
核心是spider,解析,存储都在spider
一个简易的流程图:
-
从start_requests初始化入口url,把封装好的request 添加到爬虫队列中。
-
爬虫开始后从scheduler获取request,处理爬虫任务。
-
当scheduler的队列为空时,爬虫结束。
爬虫程序可以异步方法写,也可以用同步方法写 可以在同步方法里面执行阻塞的任务,但是不能在异步方法里面执行阻塞的任务,不然会阻塞
数据流如下:
核心是spider,解析,存储都在spider
一个简易的流程图:
从start_requests初始化入口url,把封装好的request 添加到爬虫队列中。
爬虫开始后从scheduler获取request,处理爬虫任务。
当scheduler的队列为空时,爬虫结束。