python爬虫之爬取笔趣阁小说--688IT编程网

python爬⾍之爬取笔趣阁⼩说

⽬录

前⾔

⼀、⾸先导⼊相关的模块

⼆、向⽹站发送请求并获取⽹站数据

三、拿到页⾯数据之后对数据进⾏提取

四、获取到⼩说详情页链接之后进⾏详情页⼆次访问并获取⽂章数据

五、对⼩说详情页进⾏静态页⾯分析

六、数据下载

前⾔

为了上班摸鱼⽅便，今天⾃⼰写了个爬取笔趣阁⼩说的程序。好吧，其实就是个⽬的学习python，分享⼀下。

⼀、⾸先导⼊相关的模块

import os

import requests

from bs4 import BeautifulSoup

⼆、向⽹站发送请求并获取⽹站数据

⽹站链接最后的⼀位数字为⼀本书的id值，⼀个数字对应⼀本⼩说，我们以id为1的⼩说为⽰例。

进⼊到⽹站之后，我们发现有⼀个章节列表，那么我们⾸先完成对⼩说列表名称的抓取

# 声明请求头

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'

}

# 创建保存⼩说⽂本的⽂件夹

if not ists('./⼩说'):

os.mkdir('./⼩说/')

# 访问⽹站并获取页⾯数据

response = ('www.biquw/book/1/').text

print(response)

写到这个地⽅同学们可能会发现了⼀个问题，当我去正常访问⽹站的时候为什么返回回来的数据是乱码呢？

这是因为页⾯html的编码格式与我们python访问并拿到数据的解码格式不⼀致导致的，python默认的解码⽅式为utf-8，但是页⾯编码可能是GBK或者是GB2312等，所以我们需要让python代码很具页⾯的解码⽅式⾃动变化

#### 重新编写访问代码

```python

response = ('www.biquw/book/1/')

)

'''

这种⽅式返回的中⽂数据才是正确的

'''

三、拿到页⾯数据之后对数据进⾏提取

当⼤家通过正确的解码⽅式拿到页⾯数据之后，接下来需要完成静态页⾯分析了。我们需要从整个⽹页数据中拿到我们想要的数据(章节列表数据)

1.⾸先打开浏览器

2.按F12调出开发者⼯具

3.选中元素选择器

4.在页⾯中选中我们想要的数据并定位元素

5.观察数据所存在的元素标签

'''

根据上图所⽰，数据是保存在a标签当中的。a的⽗标签为li，li的⽗标签为ul标签，ul标签之上为div标签。所以如果想要获取整个页⾯的⼩说章节数据，那么需要先获取div标签。并且div标签中包含了class属性，我们可以通过class属性获取指定的div标签，详情看代码'''

# lxml: html解析库将html代码转成python对象，python可以对html代码进⾏控制

soup = , 'lxml')

book_list = soup.find('div', class_='book_list').find_all('a')

# soup对象获取批量数据后返回的是⼀个列表，我们可以对列表进⾏迭代提取

for book in book_list:

book_name =

# 获取到列表数据之后，需要获取⽂章详情页的链接，链接在a标签的href属性中

book_url = book['href']

四、获取到⼩说详情页链接之后进⾏详情页⼆次访问并获取⽂章数据

book_info_html = ('www.biquw/book/1/' + book_url, headers=headers)

book_ding = book_info_html.apparent_encoding

soup = BeautifulSoup(book_, 'lxml')

五、对⼩说详情页进⾏静态页⾯分析

info = soup.find('div', id='htmlContent')

)

六、数据下载

with open('./⼩说/' + book_name + '.txt', 'a', encoding='utf-8') as f:

python爬虫开发f.)

最后让我们看⼀下代码效果吧~

抓取的数据

到此这篇关于python爬⾍之爬取笔趣阁⼩说的⽂章就介绍到这了，更多相关python爬取⼩说内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持！

688IT编程网

python爬虫之爬取笔趣阁小说

发表评论

推荐文章

广东省广州市八校联考2021-2022学年高二下学期期中考试英语试题(原卷...

初三英语第四轮重难题型集训第3课时语篇补全

译林版八年级英语下册期末综合素质评价试卷附答案

英语七年级下册第3单元关于范文

【Unit 1】2. Text I What Makes Mainstream Media Mainstream

热门文章

论形宾动词——精选推荐

高中英语绝密押题3

从余光中的译论译品谈文学翻译的创作空间(五)

train造句简单一点

emergency造句简单

most of the day 造句

用sothat造句简单

hat造句简单

below造句简单 -回复

灌木的英文造句简单

suchas造句简单一点

not turn造句简单

有关surprise简单造句

cloudy造句简单

changeinto造句简单

actually造句简单

poem造句简单

nomore造句简单

person造句简单

insteadof造句简单一点

最新文章

译林版八年级英语下册期末综合素质评价试卷附答案

英语七年级下册第3单元关于范文

冀教版八年级英语下册UNIT 8 达标测试卷含答案

《老爸老妈罗曼史》第一季

(完整word版)全新版大学英语(第二版)综合教程四_Unit 5 A

1-05-Listening-Script

标签列表

688IT编程网

python爬虫之爬取笔趣阁小说

发表评论

推荐文章

广东省广州市八校联考2021-2022学年高二下学期期中考试英语试题(原卷...

初三英语第四轮重难题型集训第3课时 语篇补全

译林版八年级英语下册期末综合素质评价试卷 附答案

英语七年级下册第3单元关于范文

【Unit 1】2. Text I What Makes Mainstream Media Mainstream

热门文章

论形宾动词——精选推荐

高中英语绝密押题3

从余光中的译论译品谈文学翻译的创作空间(五)

train造句简单一点

emergency造句简单

most of the day 造句

用sothat造句简单

hat造句简单

below造句简单 -回复

灌木的英文造句简单

suchas造句简单一点

not turn造句简单

有关surprise简单造句

cloudy造句简单

changeinto造句简单

actually造句简单

poem造句简单

nomore造句简单

person造句简单

insteadof造句简单一点

最新文章

译林版八年级英语下册期末综合素质评价试卷 附答案

英语七年级下册第3单元关于范文

冀教版八年级英语下册UNIT 8 达标测试卷含答案

《老爸老妈罗曼史》第一季

(完整word版)全新版大学英语(第二版)综合教程四_Unit 5 A

1-05-Listening-Script

标签列表

初三英语第四轮重难题型集训第3课时语篇补全

译林版八年级英语下册期末综合素质评价试卷附答案

译林版八年级英语下册期末综合素质评价试卷附答案