python简单使用xpath查网页元素--688IT编程网

python简单使⽤xpath查⽹页元素xPath

⼀种HTML和XML的查询语⾔，他能在XML和HTML的树状结构中寻节点

安装

pip install lxml

HTML

超⽂本标记语⾔，是⼀种规范，⼀种标注，是构成⽹页⽂档的主要语⾔

URL

统⼀资源定位器，互联⽹上的每个⽂件都有⼀个唯⼀的URL，它包含的信息指出⽂件的位置

以及浏览应该怎么处理它。

xPath的使⽤

获取⽂本

/标签1[@属性1="属性值1"]/标签2[@属性2="属性值"]/..../text()

获取属性值

//标签1[@属性1="属性值1"]/标签2[@属性2="属性值"]/..../@属性n

所需要的html⽂档

<!DOCTYPE html>

<html>

<style>

table{

border: 1px solid beige;

}

span{

color: #66CCFF;

}

th{

background-color: gainsboro;

}

tr{

border: 1px solid beige;

}

写网页用什么语言

td{

border: 1px solid aliceblue;

}

.redText{

color: red;

}

.redStar{

color: red;

}

</style>

</head>

<body>

<p>

开始

</p>

<ul>

<li class="important">内容3important</li>

</ul>

<p>

中间

</p>

段落⽂字

<a href="www.baidu" title="超链接">跳转到百度⾸页</a>

</div>

<p>

最后

</p>

<tr>

<th colspan="8" align="left">1.会员登录名和密码</th>

</tr>

<tr>

</tr>

<tr>

<td colspan="5"><span>5-15位，请使⽤英⽂(a-z)、数字(0-9)注意区分⼤⼩写;<br/>密码不能与登录名相同；易记；难猜;</span></td> </tr>

<tr>

<td colspan="5"><span>两次输⼊的密码必须⼀致</span></td>

</tr>

<tr>

<th colspan="8" align="left">2.姓名和联系⽅式</th>

</tr>

<tr>

</tr>

<tr>

<td colspan="5"><span class="redText">⾮常重要！</span><br/><span>这是客户与您联系的⾸选⽅式，请⼀定填写真实。</span></td>

</tr>

<tr>

</tr>

<tr>

<td>公司所在地：</td>

</select>

<option>东城

</option>

</select>

</td>

</tr>

<tr>

</tr>

<tr>

</tr>

<tr>

</tr>

<tr>

</tr>

<tr>

<th colspan="8" align="left">3.公司名称和主营业务</th>

</tr>

<tr>

<td>贵公司名称：</td>

<td colspan="5"><span>请填写在⼯商注册的公司/商号全称;<br/>⽆商号的个体经营者填写执照上的姓名，如：张三(个体经营)</span></td>

</tr>

<tr>

</tr>

<tr>

</select>

</td>

<td colspan="5"><span>请正确选择。您会收到该⾏业、该产品的供求信息</span></td>

</tr>

<tr>

<td colspan="7"><input type="text"/><span class="redStar">* </span><span>3个主要相关品名/服务名，最少要填⼀个。例如：太阳帽，布料，拉链</span> </td>

</tr>

<tr>

</tr>

<tr>

</tr>

</table>

</form>

</body>

</html>

---------------------

作者：郑清

来源：CSDN

原⽂：blog.csdn/qq_38225558/article/details/82700939

所涉及的python代码

from lxml import html

def parse():

""""将html⽂件中的内容，使⽤⼩path进⾏提取"""

#读取⽂件中的内容

f = open('./venv/static_/index.html','r',encodin

g = 'utf-8')

s = f.read()

selector = html.fromstring(s)

#j解析标题

h3 = selector.xpath('/html/body/h3/text()')

print(h3[0])#这⾥取到的是个list，我⽤使⽤列表获取

f.close()

#解析ul⾥⾯的内容

ul = selector.xpath('/html/body/ul/li')

# ul = selector.xpath('//ul/li')也可以使⽤

print(len(ul))

for li in ul:

print(li.xpath('text()')[0])

#解析tr⾥⾯的内容

# tr = selector.xpath('/html/body/form/table/tr/td/text()')

# print(tr)

#解析ul指定的元素值

ul2 = selector.xpath('/html/body/ul/li[@class="important"]/text()')

print(ul2)

#解析ul指定的元素属性

a = selector.xpath('//div[@id="container"]/a/text()')

print(a[0])

#href属性

alink = selector.xpath('//div[@id="container"]/a/@href')

print(alink[0])

#解析p标签

p = selector.xpath('/html/body/p/text()')

# p = selector.xpath('/html/body/p[last()]/text()') #获取最后⼀个

print(len(p))

print(p[0])

#使⽤浏览的xpath⽣成⼯具

test = selector.xpath('/html/body/form/table/tr[1]/th/text()')#只能借鉴/html/body/form/table/tbody/tr[1]/th print(test[0])

if__name__== '__main__':

parse()

688IT编程网

python简单使用xpath查网页元素

发表评论

推荐文章

英语常用俚语

深度阅读

TS Kuhn - 1996 - The structure of

(完整word版)生活大爆炸第一季剧本台词中英文对照1.03

六年级关于夏天的英语作文,四十词

热门文章

大学英语作文电影和生活

纸牌屋经典名句

电影《诺丁山》台词

2023年something是什么意思--相关短语造句

上体育课的好处英语作文

美剧《纸牌屋》经典台词中英对照

纸牌屋剧本第一季第一集

南湖中学八年级下册2024年3月英语月考

新概念英语第三册逐句精讲第12课荒岛生活

department是什么中文意思

从认知语法的“识解”看汉英副词性关联词语

row英文单词的意思

springdatajpaSpecification复杂查询+分页查询

WordPress单页面上一页下一页实现方法

操作系统作业调度实验程序

音乐盒我的英语作文

Alfalaval ThinkTop V70 IO-Link 控制器用户指南说明书

LINK DEVICE

Springer-Link全文数据库及其特服务功能介绍

基于VMware的Link11数据链半实物仿真技术

最新文章

英语常用俚语

TS Kuhn - 1996 - The structure of

六年级关于夏天的英语作文,四十词

10篇英语读书笔记

考点02 名词和主谓一致-备战2019年浙江新高考英语考点一遍过 Word版...

因此用英语怎么说

标签列表

688IT编程网

python简单使用xpath查网页元素

发表评论

推荐文章

英语常用俚语

深度阅读

TS Kuhn - 1996 - The structure of

(完整word版)生活大爆炸第一季剧本台词中英文对照1.03

六年级关于夏天的英语作文,四十词

热门文章

大学英语作文电影和生活

纸牌屋经典名句

电影《诺丁山》台词

2023年something是什么意思--相关短语造句

上体育课的好处英语作文

美剧《纸牌屋》经典台词中英对照

纸牌屋剧本 第一季 第一集

南湖中学八年级下册2024年3月英语月考

新概念英语第三册逐句精讲第12课 荒岛生活

department是什么中文意思

从认知语法的“识解”看汉英副词性关联词语

row英文单词的意思

springdatajpaSpecification复杂查询+分页查询

WordPress单页面上一页下一页实现方法

操作系统作业调度实验程序

音乐盒我的英语作文

Alfalaval ThinkTop V70 IO-Link 控制器用户指南说明书

LINK DEVICE

Springer-Link全文数据库及其特服务功能介绍

基于VMware的Link11数据链半实物仿真技术

最新文章

英语常用俚语

TS Kuhn - 1996 - The structure of

六年级关于夏天的英语作文,四十词

10篇英语读书笔记

考点02 名词和主谓一致-备战2019年浙江新高考英语考点一遍过 Word版...

因此用英语怎么说

标签列表

纸牌屋剧本第一季第一集

新概念英语第三册逐句精讲第12课荒岛生活