Python 网络爬虫实习报告
目录
选题背景
二、爬虫原理
三、爬虫历史和分类
四、常用爬虫框架比较
Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy 应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。
Crawley 框架: Crawley 也是Python 开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。
Portia 框架: Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。
newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python 爬虫框架。
Python-goose 框架:Python-goose 框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo 视频;<4>元描述;<5>元标签
五、数据爬取实战(豆瓣网爬取电影数据)
1分析网页
scrapy分布式爬虫#获取html源代码
def __getHtml():
data =[]
pageNum = 1
pageSize = 0
try:
while (pageSize <= 125):
注意如果依然不能抓取的话,这里#'Referer':No ne #
可以设置抓取网站的host
#}
# = [headers]
pageNum)
pageSize += 25
pageNum += 1
prin t(pageSize, pageNum)
except Excepti on as e:
raise e return data
2爬取数据def __getData(html):
title = [] #电影标题
#rati ng_num = [] # 评分
range_num = [] # 排名
#rati ng_people_ num = [] # 评价人数
movie_author = [] # 导演
data = {}
# bs4 解析html
soup = BeautifulSoup(html,"")
for li in ("ol", attrs二{'class':
'grid_view'}).fi nd_all("li"):
("spa n", class_="title").text)
#("div", class_='star').fi nd("spa n",
class_='rat ing_nu m').text)
("div", class_='pic').fi nd("em").text)
#spa ns = ("div", class_='star').fi nd_all("spa n") #for x in ran ge(le n( spa ns)):
# if x <= 2:
#pass
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论