爬⾍如何翻页爬取⾖瓣排名250电影
1、爬⾍翻页问题:
正在做爬⾍练习:爬取⾖瓣电影排名前250的电影,但⼀页只显⽰排名前25的电影,爬取250部电影就遇到了爬⾍翻页的问题。记录下,希望帮助到正在学习的⼩伙伴!
2、爬⾍翻页解决思路:
在⽹上查到有⼏种翻页的解决⽅案:
3、爬⾍翻页解决⽅案:
综合各种解决⽅案后,我选择了第⼀个链接⾥⾯的第⼀种最简单的解决⽅案:
在URL⾥到循环规律,电影每页显⽰排名25部电影
4、翻页爬取前250部电影源码:
电影源代码人物介绍源码(供参考):
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for page in range(0,250,25):
url= 'movie.douban/top250?start=' + str(page) + '&filter='
res = (url,headers = headers)
html =
bs = BeautifulSoup(html,'html.parser')
movies = bs.find_all(class_ = 'item')
for movie in movies:
#提取序号
num = movie.find(class_='pic')
#提取电影名
name = movie.find('span',class_='title')
#提取评分
rating_num = movie.find(class_ = 'rating_num')
#提取推荐语
#quote = movie.find(class_='quote')
#提取链接
link = movie.find('a')['href']
print('排名:' +strip(), '电影:'+,' ','评分:'+ , '\n','电影链接:'+link)