python爬⾍之爬取笔趣阁⼩说
⽬录
前⾔
⼀、⾸先导⼊相关的模块
⼆、向⽹站发送请求并获取⽹站数据
三、拿到页⾯数据之后对数据进⾏提取
四、获取到⼩说详情页链接之后进⾏详情页⼆次访问并获取⽂章数据
五、对⼩说详情页进⾏静态页⾯分析
六、数据下载
前⾔
为了上班摸鱼⽅便,今天⾃⼰写了个爬取笔趣阁⼩说的程序。好吧,其实就是个⽬的学习python,分享⼀下。
⼀、⾸先导⼊相关的模块
import os
import requests
from bs4 import BeautifulSoup
⼆、向⽹站发送请求并获取⽹站数据
⽹站链接最后的⼀位数字为⼀本书的id值,⼀个数字对应⼀本⼩说,我们以id为1的⼩说为⽰例。
进⼊到⽹站之后,我们发现有⼀个章节列表,那么我们⾸先完成对⼩说列表名称的抓取
# 声明请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
}
# 创建保存⼩说⽂本的⽂件夹
if not ists('./⼩说'):
os.mkdir('./⼩说/')
# 访问⽹站并获取页⾯数据
response = ('www.biquw/book/1/').text
print(response)
写到这个地⽅同学们可能会发现了⼀个问题,当我去正常访问⽹站的时候为什么返回回来的数据是乱码呢?
这是因为页⾯html的编码格式与我们python访问并拿到数据的解码格式不⼀致导致的,python默认的解码⽅式为utf-8,但是页⾯编码可能是GBK或者是GB2312等,所以我们需要让python代码很具页⾯的解码⽅式⾃动变化
#### 重新编写访问代码
```python
response = ('www.biquw/book/1/')
)
'''
这种⽅式返回的中⽂数据才是正确的
'''
三、拿到页⾯数据之后对数据进⾏提取
当⼤家通过正确的解码⽅式拿到页⾯数据之后,接下来需要完成静态页⾯分析了。我们需要从整个⽹页数据中拿到我们想要的数据(章节列表数据)
1.⾸先打开浏览器
2.按F12调出开发者⼯具
3.选中元素选择器
4.在页⾯中选中我们想要的数据并定位元素
5.观察数据所存在的元素标签
'''
根据上图所⽰,数据是保存在a标签当中的。a的⽗标签为li,li的⽗标签为ul标签,ul标签之上为div标签。所以如果想要获取整个页⾯的⼩说章节数据,那么需要先获取div标签。并且div标签中包含了class属性,我们可以通过class属性获取指定的div标签,详情看代码'''
# lxml: html解析库将html代码转成python对象,python可以对html代码进⾏控制
soup = , 'lxml')
book_list = soup.find('div', class_='book_list').find_all('a')
# soup对象获取批量数据后返回的是⼀个列表,我们可以对列表进⾏迭代提取
for book in book_list:
book_name =
# 获取到列表数据之后,需要获取⽂章详情页的链接,链接在a标签的href属性中
book_url = book['href']
四、获取到⼩说详情页链接之后进⾏详情页⼆次访问并获取⽂章数据
book_info_html = ('www.biquw/book/1/' + book_url, headers=headers)
book_ding = book_info_html.apparent_encoding
soup = BeautifulSoup(book_, 'lxml')
五、对⼩说详情页进⾏静态页⾯分析
info = soup.find('div', id='htmlContent')
)
六、数据下载
with open('./⼩说/' + book_name + '.txt', 'a', encoding='utf-8') as f:
python爬虫开发f.)
最后让我们看⼀下代码效果吧~
抓取的数据
到此这篇关于python爬⾍之爬取笔趣阁⼩说的⽂章就介绍到这了,更多相关python爬取⼩说内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!