美图录爬虫(requests模块,re模块)--688IT编程网

美图录爬⾍（requests模块,re模块）

Python

爬⾍

最近学正则表达式，刚好知道这个⽹站，就做了个爬⾍拿来练练⼿，说⼀说遇到的问题

⼀ 404问题

问题:

由于图⽚显⽰页⾯是分页的，每⼀页展⽰5张图⽚，为了⽅便没有每次去获取下⼀页链接，⽽是使⽤了拼接字符串的形式，本以为遇到不存在的页⾯会抛出异常，测试了下，结果当⽹站遇到404时会直接跳转推荐页，于是requests还能正常返回数据

解决⽅法:

requests提供了⼀个req_object.status_code参数，⽤于返回页⾯状态码，判断⼀下这个参数为404就停⽌⽣成链接

⼆⽂件写⼊问题

问题:

写⼊图⽚⽂件，图⽚⽆法正常显⽰

解决⽅法:

requests提供了t参数，⽤于将接受到的信息转换为⼆进制，然后在⽂件写⼊时，写⼊模式为"wb"，以⼆进制⽅式写⼊

三反爬策略

问题:

爬取图⽚时发现图⽚会返回403(禁⽌访问资源)，原因是⽹站做了防盗链处理，⾮本站访问图⽚都会返回403

解决⽅法:

在获取图⽚时添加headers请求头，在请求头中添加

爬⾍

# -*- coding: utf-8 -*-

import requests

import re

import os

def url_ls(url):

#获取页⾯所有套图链接

(url)

url_ls=re.findall("https\:\/\/m\.meitulu\\/item\/\w+",)

return url_ls

def tup(url):

#获取图⽚链接及套图名

url_ls=[]

num=1

name=""

while True:

if num==1:

url1=url+".html"

python正则表达式爬虫num+=1

print(name)

else:

url1=url+"_{}.html".format(num)

num+=1

print(url1)

(url1)

if a.status_code==404:

break

my_url=re.findall("https\:\/\/mtl\.ttsqgs\\/images\/img\/\w+\/\w+\.jpg",a.text)

if name=="":

na=re.findall("\<h1\>[\w\W]+\<\/h1\>",a.text)

nam=re.sub("\<h1\>","",na[0])

name=re.sub("\<\/h1\>","",nam)

print(name)

for i in my_url:

if "/0.jpg" not in i:

url_ls.append(i)

return url_ls,name

def w(url,name,num):

headers={

'Host':'sqgs',

'Connection':'keep-alive',

'User-Agent':'Mozilla/5.0 (Linux; Android 7.1.2; M6 Note) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.105 Mobile Safari/537.36',

'Accept':'image/webp,image/apng,image/*,*/*;q=0.8', 'Referer':'m.meitulu/item/1.html',

'Accept-Encoding':'gzip, deflate, br',

'Accept-Language':'zh-CN,zh;q=0.9'

}

name=re.sub('[\/:*?"<>|]',"_",name)

print(name)

print("正在下载{}".format(name))

(url,headers=headers)

os.system("clear")

with open("./{}/{}.jpg".format(name,num),"wb") as f: print("正在写⼊{}".format(num))

f.write(imga)

f.close()

url=input("url")

urllist=url_ls(url)

for i in set(urllist):

tup_ls,name=tup(i)

os.makedirs("./{}".format(name))

n=0

for j in tup_ls:

n+=1

num='{:0>4}'.format(n)

w(j,name,num)

688IT编程网

美图录爬虫(requests模块,re模块)

发表评论

推荐文章

唯品会技术岗面试5

reactnative 组件更新的方法

react的keepalive的原理

react 函数组件执行顺序

react render() 方法

热门文章

使用react的hooks进行全局的状态管理

react17 performsyncworkonroot详细解读 -回复

usestate的原理

react中使用pivotsheet

react useeventemitter

react antd table详解

Java经典面试题整理及答案详解

滴滴前端面试题

antd reactnode 写法

react slick 高级用法

react 高级开发技巧

社后台高级开发工程师岗位面试题及答案(经典版)

前端高级工程师面试题

reactsaga原理

react native中使用iconfont

react native android fragment 的整合实例

ant.design react table行单元格编辑例子 -回复

react-native-rich-editor超链接标题用法

react_antd_table_columns_oncell的用法

react vant 组件swiper用法

最新文章

唯品会技术岗面试5

react的keepalive的原理

react 函数组件执行顺序

React面试题及答案

IT开发人员必备的最新技术文档

对于web前端的理解

标签列表