05.Python网络爬虫之三种数据解析方式--688IT编程网

05.Python⽹络爬⾍之三种数据解析⽅式

引⼊

回顾requests实现数据爬取的流程

1. 指定url

2. 基于requests模块发起请求

3. 获取响应对象中的数据

4. 进⾏持久化存储

其实，在上述流程中还需要较为重要的⼀步，就是在持久化存储之前需要进⾏指定数据解析。因为⼤多数情况下的需求，我们都会指定去使⽤聚焦爬⾍，也就是爬取页⾯中指定部分的数据值，⽽不是整个页⾯的数据。因此，本次课程中会给⼤家详细介绍讲解三种聚焦爬⾍中的数据解析⽅式。⾄此，我们的数据爬取的流程可以修改为：

1. 指定url

2. 基于requests模块发起请求

3. 获取响应中的数据

4. 数据解析

5. 进⾏持久化存储

今⽇概要

正则解析

xpath解析

bs4解析

知识点回顾

requests模块的使⽤流程

requests模块请求⽅法参数的作⽤

抓包⼯具抓取ajax的数据包

⼀.正解解析

常⽤正则表达式回顾：

单字符：

. : 除换⾏以外所有字符

[] ：[aoe] [a-w] 匹配集合中任意⼀个字符

\d ：数字 [0-9]

\D : ⾮数字

\w ：数字、字母、下划线、中⽂

\W : ⾮\w

\s ：所有的空⽩字符包，括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

\S : ⾮空⽩

数量修饰：

* : 任意多次 >=0

+ : ⾄少1次 >=1

? : 可有可⽆ 0次或者1次

{m} ：固定m次 hello{3,}

{m,} ：⾄少m次

{m,n} ：m-n次

边界：

$ : 以某某结尾

^ : 以某某开头

分组：

(ab)

贪婪模式： .*

⾮贪婪（惰性）模式： .*?

re.I : 忽略⼤⼩写

re.M ：多⾏匹配

re.S ：单⾏匹配

re.sub(正则表达式, 替换内容, 字符串)

回顾练习：

import re

#提取出python

key="javapythonc++php"

re.findall('python',key)[0]

>>>>>>>>>>>>>####

#提取出hello world

key="<html><h1>hello world<h1></html>"

re.findall('<h1>(.*)<h1>',key)[0]

>>>>>>>>>>>>>####

#提取170

string = '我喜欢⾝⾼为170的⼥孩'

re.findall('\d+',string)

>>>>>>>>>>>>>####

#提取出和

key='www.baidu and boob'

re.findall('https?://',key)

>>>>>>>>>>>>>####

#提取出hello

python正则表达式爬虫

key='lalala<hTml>hello</HtMl>hahah' #输出<hTml>hello</HtMl>

re.findall('<[Hh][Tt][mM][lL]>(.*)</[Hh][Tt][mM][lL]>',key)

>>>>>>>>>>>>>####

#提取出hit.

key='bobo@hit.edu'#想要匹配到hit.

re.findall('h.*?\.',key)

>>>>>>>>>>>>>####

#匹配sas和saas

key='saas and sas and saaas'

re.findall('sa{1,2}s',key)

>>>>>>>>>>>>>####

#匹配出i开头的⾏

string = '''fall in love with you

i love you very much

i love she

i love her'''

re.findall('^.*',string,re.M)

>>>>>>>>>>>>>####

#匹配全部⾏

string1 = """<div>静夜思

窗前明⽉光

疑是地上霜

举头望明⽉

低头思故乡

</div>"""

re.findall('.*',string1,re.S)

项⽬需求：爬取糗事百科指定页⾯的糗图，并将其保存到指定⽂件夹中

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

import re

import os

if __name__ == "__main__":

url = 'www.qiushibaike/pic/%s/'

headers={

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', }

#指定起始也结束页码

page_start = int(input('enter start page:'))

page_end = int(input('enter end page:'))

#创建⽂件夹

if not ists('images'):

os.mkdir('images')

#循环解析且下载指定页码中的图⽚数据

for page in range(page_start,page_end+1):

print('正在下载第%d页图⽚'%page)

new_url = format(url % page)

response = (url=new_url,headers=headers)

#解析response中的图⽚链接

e = '<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>'

pa = repile(e,re.S)

image_urls = pa.)

#循环下载该页码下所有的图⽚数据

for image_url in image_urls:

image_url = 'https:' + image_url

image_name = image_url.split('/')[-1]

image_path = 'images/'+image_name

image_data = (url=image_url,headers=headers).content

with open(image_path,'wb') as fp:

fp.write(image_data)

⼆.Xpath解析

测试页⾯数据

<head>

</head>

<body>

<div>

</div>

宋朝是最强⼤的王朝，不是军队的强⼤，⽽是经济很强⼤，国民都很有钱</a>

<a href="" class="du">总为浮云能蔽⽇，长安不见使⼈愁</a>

</div>

<ul>

<li><a href="www.baidu" title="qing">清明时节⾬纷纷，路上⾏⼈欲断魂，借问酒家何处有，牧童遥指杏花村</a></li> <li><a href="www.163" title="qin">秦时明⽉汉时关，万⾥长征⼈未还，但使龙城飞将在，不教胡马度阴⼭</a></li> <li><a href="www.126" alt="qi">岐王宅⾥寻常见，崔九堂前⼏度闻，正是江南好风景，落花时节⼜逢君</a></li>

<li><a href="www.haha" id="feng">凤凰台上凤凰游，凤去台空江⾃流，吴宫花草埋幽径，晋代⾐冠成古丘</a></li> </ul>

</div>

</body>

</html>

常⽤xpath表达式回顾

属性定位：

#到class属性值为song的div标签

//div[@class="song"]

层级&索引定位：

#到class属性值为tang的div的直系⼦标签ul下的第⼆个⼦标签li下的直系⼦标签a

//div[@class="tang"]/ul/li[2]/a

逻辑运算：

#到href属性值为空且class属性值为du的a标签

//a[@href="" and @class="du"]

模糊匹配：

/div[contains(@class, "ng")]

//div[starts-with(@class, "ta")]

取⽂本：

# /表⽰获取某个标签下的⽂本内容

# //表⽰获取某个标签下的⽂本内容和所有⼦标签下的⽂本内容

//div[@class="song"]/p[1]/text()

//div[@class="tang"]//text()

取属性：

//div[@class="tang"]//li[2]/a/@href

代码中使⽤xpath表达式进⾏数据解析：

1.下载：pip install lxml

2.导包：from lxml import etree

3.将html⽂档或者xml⽂档转换成⼀个etree对象，然后调⽤对象中的⽅法查指定的节点

2.1 本地⽂件：tree = etree.parse(⽂件名)

tree.xpath("xpath表达式")

2.2 ⽹络数据：tree = etree.HTML(⽹页内容字符串)

tree.xpath("xpath表达式")

安装xpath插件在浏览器中对xpath表达式进⾏验证：可以在插件中直接执⾏xpath表达式将xpath插件拖动到⾕歌浏览器拓展程序（更多⼯具）中，安装成功

启动和关闭插件 ctrl + shift + x

项⽬需求：获取好段⼦中段⼦的内容和作者 www.haoduanzi

from lxml import etree

import requests

url='www.haoduanzi/category-10_2.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', }

url_(url,headers=headers).text

#使⽤xpath对url_conten进⾏解析

#使⽤xpath解析从⽹络上获取的数据

tree=etree.HTML(url_content)

#解析获取当页所有段⼦的标题

title_list=tree.xpath('//div[@class="log cate10 auth1"]/h3/a/text()')

ele_div_list=tree.xpath('//div[@class="log cate10 auth1"]')

text_list=[] #最终会存储12个段⼦的⽂本内容

for ele in ele_div_list:

#段⼦的⽂本内容（是存放在list列表中）

text_list=ele.xpath('./div[@class="cont"]//text()')

#list列表中的⽂本内容全部提取到⼀个字符串中

text_str=str(text_list)

#字符串形式的⽂本内容防⽌到all_text列表中

text_list.append(text_str)

print(title_list)

print(text_list)

【重点】下载煎蛋⽹中的图⽚数据：

import requests

from lxml import etree

from fake_useragent import UserAgent

import base64

quest

url = 'jandan/ooxx'

ua = UserAgent(verify_ssl=False,use_cache_server=False).random

headers = {

'User-Agent':ua

}

page_text = (url=url,headers=headers).text

#查看页⾯源码：发现所有图⽚的src值都是⼀样的。

#简单观察会发现每张图⽚加载都是通过jandan_load_img(this)这个js函数实现的。

#在该函数后⾯还有⼀个class值为img-hash的标签，⾥⾯存储的是⼀组hash值，该值就是加密后的img地址

#加密就是通过js函数实现的，所以分析js函数，获知加密⽅式，然后进⾏解密。

#通过抓包⼯具抓取起始url的数据包，在数据包中全局搜索js函数名（jandan_load_img），然后分析该函数实现加密的⽅式。

#在该js函数中发现有⼀个⽅法调⽤，该⽅法就是加密⽅式，对该⽅法进⾏搜索

#搜索到的⽅法中会发现base64和md5等字样，md5是不可逆的所以优先考虑使⽤base64解密

#print(page_text)

tree = etree.HTML(page_text)

#在抓包⼯具的数据包响应对象对应的页⾯中进⾏xpath的编写，⽽不是在浏览器页⾯中。

#获取了加密的图⽚url数据

imgCode_list = tree.xpath('//span[@class="img-hash"]/text()')

imgUrl_list = []

for url in imgCode_list:

#base64.b64decode(url)为byte类型，需要转成str

img_url = 'http:'+base64.b64decode(url).decode()

imgUrl_list.append(img_url)

for url in imgUrl_list:

filePath = url.split('/')[-1]

print(filePath+'下载成功')

三.BeautifulSoup解析

环境安装

- 需要将pip源设置为国内源，阿⾥源、⾖瓣源、⽹易源等

- windows

（1）打开⽂件资源管理器(⽂件夹地址栏中)

（2）地址栏上⾯输⼊ %appdata%

（3）在这⾥⾯新建⼀个⽂件夹 pip

（4）在pip⽂件夹⾥⾯新建⼀个⽂件叫做 pip.ini ，内容写如下即可

[global]

timeout = 6000

index-url = mirrors.aliyun/pypi/simple/

trusted-host = mirrors.aliyun

linux

（1）cd ~

（2）mkdir ~/.pip

（3）vi ~/.f

（4）编辑内容，和windows⼀模⼀样

- 需要安装：pip install bs4

bs4在使⽤时候需要⼀个第三⽅库，把这个库也安装⼀下

pip install lxml

基础使⽤

使⽤流程：

- 导包：from bs4 import BeautifulSoup

使⽤⽅式：可以将⼀个html⽂档，转化为BeautifulSoup对象，然后通过对象的⽅法或者属性去查指定的节点内容

（1）转化本地⽂件：

- soup = BeautifulSoup(open('本地⽂件'), 'lxml')

（2）转化⽹络⽂件：

- soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')

（3）打印soup对象显⽰内容为html⽂件中的内容

基础巩固：

（1）根据标签名查

- soup.a 只能到第⼀个符合要求的标签

（2）获取属性

- soup.a.attrs 获取a所有的属性和属性值，返回⼀个字典

- soup.a.attrs['href'] 获取href属性

- soup.a['href'] 也可简写为这种形式

（3）获取内容

- soup.a.string

- _text()

【注意】如果标签还有标签，那么string获取到的结果为None，⽽其它两个，可以获取⽂本内容

（4）find：到第⼀个符合要求的标签

- soup.find('a') 到第⼀个符合要求的

- soup.find('a', title="xxx")

- soup.find('a', alt="xxx")

soup.find('a', class_="xxx")

- soup.find('a', id="xxx")

（5）find_all：到所有符合要求的标签

- soup.find_all('a')

- soup.find_all(['a','b']) 到所有的a和b标签

- soup.find_all('a', limit=2) 限制前两个

（6）根据选择器选择指定的内容

select:soup.select('#feng')

- 常见的选择器：标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器

- 层级选择器：

div .dudu #lala .meme .xixi 下⾯好多级

div > p > a > .lala 只能是下⾯⼀级

【注意】select选择器返回永远是列表，需要通过下标提取指定的对象

需求：使⽤bs4实现将诗词名句⽹站中三国演义⼩说的每⼀章的内容爬去到本地磁盘进⾏存储

www.shicimingju/book/sanguoyanyi.html

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

headers={

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', }

def parse_content(url):

#获取标题正⽂页数据

page_text = (url,headers=headers).text

soup = BeautifulSoup(page_text,'lxml')

#解析获得标签

ele = soup.find('div',class_='chapter_content')

content = #获取标签中的数据值

return content

if __name__ == "__main__":

url = 'www.shicimingju/book/sanguoyanyi.html'

reponse = (url=url,headers=headers)

page_text =

#创建soup对象

soup = BeautifulSoup(page_text,'lxml')

#解析数据

a_eles = soup.select('.book-mulu > ul > li > a')

print(a_eles)

cap = 1

for ele in a_eles:

print('开始下载第%d章节'%cap)

基于SVM的温度预测回归模型

« 上一篇

基于python的招聘信息爬取与分析

688IT编程网

05.Python网络爬虫之三种数据解析方式

发表评论

推荐文章

react useeffect面试题

react fiber常见的面试题

reactnative高级面试题

react高阶面试题

usestate的原理

热门文章

react native中使用iconfont

react native android fragment 的整合实例

ant.design react table行单元格编辑例子 -回复

react-native-rich-editor超链接标题用法

react_antd_table_columns_oncell的用法

react vant 组件swiper用法

2019年nike品牌知识真题精选

react中img引入本地图片的2种方式

react-redux 异步方法

react中image使用

ADX复习-DNA考试卷

月考模拟题库02

变耐克原理

前端运营方案是什么

高中英语构词法(前缀以及后缀)

图灵测试是什么_图灵测试机器人目前仍不能思维

什么是npm以及npm基本命令

跑步去上班

bootstrap与vue的区别是什么?(十七)

什么是移动应用开发

最新文章

usestate的原理

react中使用pivotsheet

react useeventemitter

react antd table详解

Java经典面试题整理及答案详解

滴滴前端面试题

标签列表