python爬取网易云音乐评论及相关信息--688IT编程网

python爬取⽹易云⾳乐评论及相关信息python爬取⽹易云⾳乐评论及相关信息

urllib

requests

正则表达式

爬取⽹易云⾳乐评论及相关信息

urllib了解

requests了解

正则表达式

爬取⽹易云⾳乐评论及相关信息

1、分析⽹易云页⾯

2、获取加密的参数 params 和 encSecKey

url编码和utf8区别

3、爬取⽹易云⾳乐评论及相关信息

1、分析⽹易云⾳乐页⾯

2、获取加密的参数 params 和 encSecKey

3、爬取⽹易云⾳乐评论及相关信息(代码有冗余)

（1）使⽤User Agent和代理IP隐藏⾝份之为何要设置User Agent

agents = [

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like

Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

import random

# 爬取多⾸歌评时可以每次随机选取⼀个User Agent

header = {'User-Agent': ''.join(random.sample(agents, 1))}

# random.sample() 的值是列表, ''.join()转列表为字符串

print(header)

（2）爬取指定⼀⾸歌的热评

注意：分析页⾯发现，热评只在每⼀⾸歌的⾸页，有15条。

代码说明：代码中的url和data参数值在上⾯的图中圈出的部分复制。

# -*-coding:utf-8-*-

"""

爬取⽹易云⾳乐指定歌曲的15条热评，

2018年6⽉26⽇

"""

quest

import urllib.parse

import json

# 抓取⽹易云⾳乐指定url的热评

def get_hotComments():

url = 'music.163/weapi/v1/resource/comments/R_SO_4_862102137?csrf_token='# 歌评url

header = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

# post请求表单数据

data = {'params':'LPkOcWb/uz2Nj6xw+RFhGJ1PkFi4+lh4agK+1jRGmjMAiOcJ5RHxQBbZa+aME54AUdi21JkqLu/yeHjjIaLQJ4wzqiuzrzYUKciRCqmCDX9z 'encSecKey':'5627cc7941cf4cbd59b13668efe38a622ed0889d33cdcf603d18b025eb34ac434c882ed5ad16ca06e88e40a8b91de455483d0b88b6b46 postdata = urllib.parse.urlencode(data).encode('utf8') # 进⾏编码

request = quest.Request(url, headers=header, data=postdata)

response = quest.urlopen(request).read().decode('utf8')

json_dict = json.loads(response) # 获取json

hot_comment = json_dict['hotComments'] # 获取json中的热门评论

num = 1

for item in hot_comment:

print('第%d条评论：' % num + item['content'])

num += 1

if __name__ == '__main__':

get_hotComments()

代码输出，如下图：有完整15条数据，截图范围有限，显⽰6条。

（3）爬取⽹易云⾳乐199⾸热歌榜每⾸歌的评论数据

分析问题，要获取⼀⾸歌曲的页⾯，

代码说明1：如果导⼊from Crypto.Cipher import AES提⽰错误No module named Crypto.Cipher，请参考⽂章

当页⾯评论不⾜指定页⾯的数量时，代码可以选择跳过或者break

# -*- coding:utf-8 -*-

"""

爬取⽹易云⾳乐热歌榜的最新评论，指定页数的所有评论，⽐如前10页

2018年6⽉26⽇

"""

import os

import re

import random

quest

import urllib.parse

from Crypto.Cipher import AES

import base64

import requests

import json

import time