如何用Python爬虫实现百度图片自动下载?--688IT编程网

如何⽤Python爬⾍实现百度图⽚⾃动下载？

Github：

制作爬⾍的步骤

制作⼀个爬⾍⼀般分以下⼏个步骤：

分析需求

分析⽹页源代码，配合开发者⼯具

编写正则表达式或者XPath表达式

正式编写 python 爬⾍代码

效果预览

运⾏效果如下：

存放图⽚的⽂件夹：

需求分析

我们的爬⾍⾄少要实现两个功能：⼀是搜索图⽚，⼆是⾃动下载。

搜索图⽚：最容易想到的是爬百度图⽚的结果，我们就上百度图⽚看看：

随便搜索⼏个关键字，可以看到已经搜索出来很多张图⽚：

分析⽹页

我们点击右键，查看源代码：

打开源代码之后，发现⼀堆源代码⽐较难出我们想要的资源。

这个时候，就要⽤开发者⼯具！我们回到上⼀页⾯，调出开发者⼯具，我们需要⽤的是左上⾓那个东西：(⿏标跟随)。然后选择你想看源代码的地⽅，就可以发现，下⾯的代码区⾃动定位到了相应的位置。如下图：

我们复制这个地址，然后到刚才的⼀堆源代码⾥搜索⼀下，发现了它的位置，但是这⾥我们⼜疑惑了，这个图⽚有这么多地址，到底⽤哪个呢？我们可以看到有thumbURL，middleURL，hoverURL，objURL

通过分析可以知道，前⾯两个是缩⼩的版本，hoverURL 是⿏标移动过后显⽰的版本，objURL 应该是我们需要的，可以分别打开这⼏个⽹址看看，发现 objURL 的那个最⼤最清晰。

到了图⽚地址，接下来我们分析源代码。看看是不是所有的 objURL 都是图⽚。

发现都是以.jpg格式结尾的图⽚。

编写正则表达式

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

编写爬⾍代码

这⾥我们⽤了2个包，⼀个是正则，⼀个是 requests 包

#-*- coding:utf-8 -*-

import re

import requests

复制百度图⽚搜索的链接，传⼊ requests ，然后把正则表达式写好

python爬虫开发因为有很多张图⽚，所以要循环，我们打印出结果来看看，然后⽤ requests 获取⽹址，由于有些图⽚可能存在⽹址打不开的情况，所以加了10秒超时控制。

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

i = 1

for each in pic_url:

print each

try:

pic= (each, timeout=10)

ptions.ConnectionError:

print('【错误】当前图⽚⽆法下载')

continue

接着就是把图⽚保存下来，我们事先建⽴好⼀个 images ⽬录，把图⽚都放进去，命名的时候，以数字命名。

dir = '../images/' + keyword + '_' + str(i) + '.jpg'

fp = open(dir, 'wb')

fp.t)

fp.close()

i += 1

完整的代码

# -*- coding:utf-8 -*-

import re

import requests

def dowmloadPic(html, keyword):

pic_url = re.findall('"objURL":"(.*?)",', html, re.S)

i = 1

print('到关键词:' + keyword + '的图⽚，现在开始下载图⽚...')

for each in pic_url:

print('正在下载第' + str(i) + '张图⽚，图⽚地址:' + str(each))

try:

pic = (each, timeout=10)

ptions.ConnectionError:

print('【错误】当前图⽚⽆法下载')

continue

dir = '../images/' + keyword + '_' + str(i) + '.jpg'

fp = open(dir, 'wb')

fp.t)

fp.close()

i += 1

if __name__ == '__main__':

word = input("Input key word: ")

url = 'image.baidu/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&ct=201326592&v=flip'

result = (url)

, word)

我们看到有的图⽚没显⽰出来，打开⽹址看，发现确实没了。

因为百度有些图⽚它缓存到百度的服务器上，所以我们在百度上还能看见它，但它的实际链接已经失效了。

总结

enjoy 我们的第⼀个图⽚下载爬⾍吧！当然它不仅能下载百度的图⽚，依葫芦画瓢，你现在应该能做很多事情了，⽐如爬取头像，爬淘宝展⽰图等等。

完整代码已经放到Githut上

688IT编程网

如何用Python爬虫实现百度图片自动下载?

发表评论

推荐文章

51单片机与上位机通讯程序设置

具有在系统调试功能的单片机系统设计

STM32-FFT代码说明

51单片机实现的485通讯程序

51单片机智能机器人实验报告

热门文章

51单片机FM收音机代码

流水灯C语言程序

单片机LCD1602-C语言程序

PIC单片机C语言编程入门

基于STM32单片机通过使用宏assert

stm32 十进制转十六进制例程

STC单片机C语言程序设计STC单片机C语言编程入门

单片机模糊控制pid 源代码

微型计算机原理与接口技术-1_真题(含答案与解析)-交互

单片机原理及应用第二版(张毅刚主编)课后习题答案

keil C51 指针总结

c51单片机c语言常用指令 -回复

Keil C51软件的使用方法

STM8单片机ADC、Timer、USART寄存器直接操作实用例程

2022年嵌入式系统设计师下午真题卷

华润微单片机编程教程

单片机期末考试试卷及答案

单片机c语言试题及答案

单片机的C语言程序设计试题

51单片机期末试卷及基础知识复习

最新文章

51单片机与上位机通讯程序设置

51单片机实现的485通讯程序

51单片机智能机器人实验报告

2021年电子信息科学与技术专业毕业生《C语言单片机》求职考试题及面试题...

基于AVR单片机的反汇编及仿真设计与实现

51单片机if用法

标签列表

688IT编程网

如何用Python爬虫实现百度图片自动下载?

发表评论

推荐文章

51单片机与上位机通讯程序设置

具有在系统调试功能的单片机系统设计

STM32-FFT代码说明

51单片机实现的485通讯程序

51单片机智能机器人实验报告

热门文章

51单片机FM收音机代码

流水灯C语言程序

单片机LCD1602-C语言程序

PIC单片机C语言编程入门

基于STM32单片机通过使用宏assert

stm32 十进制转十六进制例程

STC单片机C语言程序设计STC单片机C语言编程入门

单片机 模糊控制pid 源代码

微型计算机原理与接口技术-1_真题(含答案与解析)-交互

单片机原理及应用第二版(张毅刚主编)课后习题答案

keil C51 指针总结

c51单片机c语言常用指令 -回复

Keil C51软件的使用方法

STM8单片机ADC、Timer、USART寄存器直接操作实用例程

2022年嵌入式系统设计师下午真题卷

华润微单片机编程教程

单片机期末考试试卷及答案

单片机c语言试题及答案

单片机的C语言程序设计试题

51单片机期末试卷及基础知识复习

最新文章

51单片机与上位机通讯程序设置

51单片机实现的485通讯程序

51单片机智能机器人实验报告

2021年电子信息科学与技术专业毕业生《C语言单片机》求职考试题及面试题...

基于AVR单片机的反汇编及仿真设计与实现

51单片机if用法

标签列表

单片机模糊控制pid 源代码