13-请简述网络爬虫的基本工作流程。
scrapy分布式爬虫
答:网络爬虫的基本工作流程如下:
(1)获取初始的URL,该URL地址是用户自己制定的初始爬取的网页。
(2)爬取对应URL地址的网页时,获取新的URL地址。
(3)将新的URL地址放入URL队列中。
(4)从URL队列中读取新的URL,然后依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程。
(5)设置停止条件,如果没有设置停止条件时,爬虫会一直爬取下去,直到无法获取新的URL地址为止。设置了停止条件后,爬虫将会在满足停止条件时停止爬取。
13-2  Python中提供了哪几种常见的网络请求方式?
答:Python中提供了以下3种常见的实现HTTP网络请求的方式
使用Python自带的urllib模块实现
使用Python自带的urllib3模块实现。
使用第三方模块requests模块实现。
13-3 简述使用BeautifulSoup解析HTML文档的基本步骤?
答:
(1)导入bs4库,然后创建一个模拟HTML代码的字符串。
(2)创建BeautifulSoup对象,并指定解析器为lxml
(3)显示解析后的HTML代码。
13-4  网络爬虫的常用开发框架有哪几个?
答:常用的网络爬虫开发框架有Scrapy爬虫框架、Crawley爬虫框架和PySpider爬虫框架3个。
13-5  在Windows操作系统下,Scrapy爬虫框架至少需要哪几个依赖库?
答:在Windows系统下,Scrapy爬虫框架至少需要依赖的库有Twisted、lxml、pyOpenSSL以及pywin32 共4个。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。