美图录爬⾍(requests模块,re模块)
Python
爬⾍
最近学正则表达式,刚好知道这个⽹站,就做了个爬⾍拿来练练⼿,说⼀说遇到的问题
⼀ 404问题
问题:
由于图⽚显⽰页⾯是分页的,每⼀页展⽰5张图⽚,为了⽅便没有每次去获取下⼀页链接,⽽是使⽤了拼接字符串的形式,本以为遇到不存在的页⾯会抛出异常,测试了下,结果当⽹站遇到404时会直接跳转推荐页,于是requests还能正常返回数据
解决⽅法:
requests提供了⼀个req_object.status_code参数,⽤于返回页⾯状态码,判断⼀下这个参数为404就停⽌⽣成链接
⼆⽂件写⼊问题
问题:
写⼊图⽚⽂件,图⽚⽆法正常显⽰
解决⽅法:
requests提供了t参数,⽤于将接受到的信息转换为⼆进制,然后在⽂件写⼊时,写⼊模式为"wb",以⼆进制⽅式写⼊
三反爬策略
问题:
爬取图⽚时发现图⽚会返回403(禁⽌访问资源),原因是⽹站做了防盗链处理,⾮本站访问图⽚都会返回403
解决⽅法:
在获取图⽚时添加headers请求头,在请求头中添加
爬⾍
# -*- coding: utf-8 -*-
import requests
import re
import os
def url_ls(url):
#获取页⾯所有套图链接
(url)
url_ls=re.findall("https\:\/\/m\.meitulu\\/item\/\w+",)
return url_ls
def tup(url):
#获取图⽚链接及套图名
url_ls=[]
num=1
name=""
while True:
if num==1:
url1=url+".html"
python正则表达式爬虫num+=1
print(name)
else:
url1=url+"_{}.html".format(num)
num+=1
print(url1)
(url1)
if a.status_code==404:
break
my_url=re.findall("https\:\/\/mtl\.ttsqgs\\/images\/img\/\w+\/\w+\.jpg",a.text)
if name=="":
na=re.findall("\<h1\>[\w\W]+\<\/h1\>",a.text)
nam=re.sub("\<h1\>","",na[0])
name=re.sub("\<\/h1\>","",nam)
print(name)
for i in my_url:
if "/0.jpg" not in i:
url_ls.append(i)
return url_ls,name
def w(url,name,num):
headers={
'Host':'sqgs',
'Connection':'keep-alive',
'User-Agent':'Mozilla/5.0 (Linux; Android 7.1.2; M6 Note) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.105 Mobile Safari/537.36',
'Accept':'image/webp,image/apng,image/*,*/*;q=0.8', 'Referer':'m.meitulu/item/1.html',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.9'
}
name=re.sub('[\/:*?"<>|]',"_",name)
print(name)
print("正在下载{}".format(name))
(url,headers=headers)
os.system("clear")
t
with open("./{}/{}.jpg".format(name,num),"wb") as f:        print("正在写⼊{}".format(num))
f.write(imga)
f.close()
url=input("url")
urllist=url_ls(url)
for i in set(urllist):
tup_ls,name=tup(i)
os.makedirs("./{}".format(name))
n=0
for j in tup_ls:
n+=1
num='{:0>4}'.format(n)
w(j,name,num)