webscraper多页爬取_WebScraper翻页——控制链接批量抓
取数据(WebSc。。。
这是简易数据分析系列的第 5 篇⽂章。
上篇⽂章我们爬取了⾖瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做⼀些⼩改动,让爬⾍把 250条电影数据全部爬取下来。
前⾯我们同时说了,爬⾍的本质就是规律,当初这些程序员设计⽹页时,肯定会依循⼀些规则,当我们到规律时,就可以预测他们的⾏为,达到我们的⽬的。
今天我们就⾖瓣⽹站的规律,想办法抓取全部数据。今天的规律就从常常被⼈忽略的⽹址链接开始。
1.链接分析
scraper我们先看看第⼀页的⾖瓣⽹址链接:
top250 这个⼀看就是⽹页的内容,⾖瓣排名前 250 的电影,也没啥好说的
后⾯有个start=0&filter= ,根据英语提⽰来看,好像是说筛选(filter),从 0 开始(start)
再看看第⼆页的⽹址链接,前⾯都⼀样,只有后⾯的参数变了,变成了 start=25,从 25 开始;
我们再看看第三页的链接,参数变成了 start=50,从 50 开始;
分析 3 个链接我们很容易得出规律:
start=0,表⽰从排名第 1 的电影算起,展⽰ 1-25 的电影
start=25,表⽰从排名第 26 的电影算起,展⽰ 26-50 的电影
start=50,表⽰从排名第 51 的电影算起,展⽰ 51-75 的电影
…...
start=225,表⽰从排名第 226 的电影算起,展⽰ 226-250 的电影
规律到了就好办了,只要技术提供⽀持就⾏。随着深⼊学习,你会发现 Web Scraper 的操作并不是难点,最需要思考的其实还是这个规律。
2.Web Scraper 控制链接参数翻页
Web Scraper 针对这种通过超链接数字分页获取分页数据的⽹页,提供了⾮常便捷的操作,那就是范围指定器。
⽐如说你想抓取的⽹页链接是这样的:
那么像我们之前分析的⾖瓣⽹页呢?它不是从 1 到 100 递增的,⽽是 0 -> 25 -> 50 -> 75 这样每隔 25 跳的,这种怎么办?
其实也很简单,这种情况可以⽤ [0-100:25] 表⽰,每隔 25 是⼀个⽹页,100/25=4,爬取前 4 个⽹页,放在⾖瓣电影的情景下,我们只要把链接改成下⾯的样⼦就⾏了;
这样 Web Scraper 就会抓取 TOP250 的所有⽹页了。
3.抓取数据
解决了链接的问题,接下来就是如何在 Web Scraper ⾥修改链接了,很简单,就点击两下⿏标:
1.点击 Stiemaps,在新的⾯板⾥点击 ID 为 top250 的这列数据:
2.进⼊新的⾯板后,到 Stiemap top250 这个 Tab,点击,再点击下拉菜单⾥的 Edit metadata:
3.修改原来的⽹址,图中的红框是不同之处:
修改好了超链接,我们重新抓取⽹页就好了。操作和上⽂⼀样,我这⾥就简单复述⼀下:
点击 Sitemap top250 下拉菜单⾥的 Scrape 按钮
新的操作⾯板的两个输⼊框都输⼊ 2000
点击 Start scraping 蓝⾊按钮开始抓取数据
抓取结束后点击⾯板上的 refresh 蓝⾊按钮,检测我们抓取的数据
如果你操作到这⾥并抓取成功的话,你会发现数据是全部抓取下来了,但是顺序都是乱的。
我们这⾥先不管顺序问题,因为这个属于数据清洗的内容了,我们现在的专题是数据抓取。先把相关的知识点讲完,再攻克下⼀个知识点,才是更合理的学习⽅式。
这期讲了通过修改超链接的⽅式抓取了 250 个电影的名字。下⼀期我们说⼀些简单轻松的内容换换脑⼦,讲讲 Web Scraper 如何导⼊别⼈写好的爬⾍⽂件,导出⾃⼰写好的爬⾍软件。
4.参考阅读:
5.联系我
因为⽂章发在各⼤平台上,账号较多不能及时回复评论和私信,有问题可关注 ——「卤蛋实验室」,(或 wx 搜索 egglabs)关注上车防失联。