python爬取数据并进行数据可视化--688IT编程网

阅读目录

一、爬取和分析相关依赖包

二、分析网页结构

三、数据清洗后入库

四、数据可视化展示

五、爬虫及可视化完整代码

爬取拉勾网关于python职位相关的数据信息，并将爬取的数据已csv各式存入文件，然后对csv文件相关字段的数据进行清洗，并对数据可视化展示，包括柱状图展示、直方图展示、词云展示等并根据可视化的数据做进一步的分析，其余分析和展示读者可自行发挥和扩展包括各种分析和不同的存储方式等。。。。。

回到顶部一、爬取和分析相关依赖包

一、爬取和分析相关依赖包

1.Python版本： Python3.6

3.math: 向上取整

4.time: 暂停进程

5.pandas：数据分析并保存为csv文件

6.matplotlib：绘图

json检查

7.pyecharts：绘图

8.statsmodels：统计建模

9.wordcloud、scipy、jieba：生成中文词云

10.pylab：设置画图能显示中文

在以上安装或使用过程中可能读者会遇到安装或导入失败等问题自行百度，选择依赖包的合适版本

回到顶部二、分析网页结构

二、分析网页结构

通过Chrome搜索'python工程师'，然后右键点击检查或者F12,，使用检查功能查看网页源代码，当我们点击下一页观察浏览器的搜索栏的url并没有改变，这是因为拉勾网做了反爬虫机制, 职位信息并不在源代码里，而是保存在JSON的文件里，因此我们直接下载JSON，并使用字典方法直接读取数据.即可拿到我们想要的python职位相关的信息，

待爬取的python工程师职位信息如下：

为了能爬到我们想要的数据，我们要用程序来模拟浏览器来查看网页，所以我们在爬取的过程中会加上头信息，头信息也是我们通过分析网页获取到的，通过网页分析我们知道该请求的头信息，以及请求的信息和请求的方式是POST请求，这样我们就可以该url请求拿到我们想的数据做进一步处理

爬取网页信息代码如下：

import requests

url = ' www.lagou/jobs/positionAjax.json?needAddtionalResult=false'

def get_json(url, num):

"""

从指定的url中通过requests请求携带请求头和请求体获取网页中的信息,

:return:

"""

url1 = 'www.lagou/jobs/list_python%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88?labelWords=&fromSearch=true& headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 'Host': 'www.lagou',

'Referer': 'www.lagou/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginpu 'X-Anit-Forge-Code': '0',

'X-Anit-Forge-Token': 'None',

'X-Requested-With': 'XMLHttpRequest'

}

data = {

'first': 'true',

通过搜索我们知道每页显示15个职位，最多显示30页，通过分析网页源代码知道，可以通过JSON里读取总职位数，通过总的职位数和每页能显示的职位数.我们可以计算出总共有多少页，然后使用循环按页爬取, 最后将职位信息汇总, 写入到CSV格式的文件中.

程序运行结果如图:

爬取所有python相关职位信息如下：回到顶部

三、数据清洗后入库

三、数据清洗后入库数据清洗其实会占用很大一部分工作，我们在这里只做一些简单的数据分析后入库。在拉勾网输入python相关的职位会有18988个。你可以根据工作中需求选择要入库的字段，并对一

些字段做进一步的筛选，比如我们可以去除职位名称中为实习生的岗位，过滤指定的字段区域在我们指定区域的职位，取字段薪资的平均值，以最低值和差值的四分之一为平均值等等根据需求自由发挥

import pandas as pd

import matplotlib.pyplot as plt

'pn': num,

'kd': 'python 工程师'}

s = requests.Session()

print ('建立session ：', s, '\n\n')

<(url=url1, headers=headers, timeout=3)

cookie = s.cookies

print ('获取cookie ：', cookie, '\n\n')

res = requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)

res.raise_for_status()

page_data = res.json()

print ('请求响应结果：', page_data, '\n\n')

return page_data

print (get_json(url, 1))

import statsmodels.api as sm

from wordcloud import WordCloud

from scipy.misc import imread

from imageio import imread

import jieba

from pylab import mpl

# 使用matplotlib能够显示中文

# 读取数据

df = pd.read_csv('Python_development_engineer.csv', encoding='utf-8')

# 进行数据清洗，过滤掉实习岗位

# df.drop(df[df['职位名称'].ains('实习')].index, inplace=True)

# print(df.describe())

# 由于csv文件中的字符是字符串形式，先用正则表达式将字符串转化为列表，在去区间的均值

pattern = '\d+'

# print(df['工作经验'], '\n\n\n')

# print(df['工作经验'].str.findall(pattern))

df['工作年限'] = df['工作经验'].str.findall(pattern)

print(type(df['工作年限']), '\n\n\n')

avg_work_year = []

count = 0

for i in df['工作年限']:

# print('每个职位对应的工作年限',i)

# 如果工作经验为'不限'或'应届毕业生'，那么匹配值为空，工作年限为0

if len(i) == 0:

avg_work_year.append(0)

# print('nihao')

count += 1

# 如果匹配值为一个数值，那么返回该数值

elif len(i) == 1:

# print('hello world')

avg_work_year.append(int(''.join(i)))

count += 1

# 如果匹配为一个区间则取平均值

else:

num_list = [int(j) for j in i]

avg_year = sum(num_list) / 2

avg_work_year.append(avg_year)

count += 1

print(count)

df['avg_work_year'] = avg_work_year

# 将字符串转化为列表，薪资取最低值加上区间值得25%，比较贴近现实

df['salary'] = df['薪资'].str.findall(pattern)

avg_salary_list = []

for k in df['salary']:

int_list = [int(n) for n in k]

avg_salary = int_list[0] + (int_list[1] - int_list[0]) / 4

avg_salary_list.append(avg_salary)

df['月薪'] = avg_salary_list

# df.to_csv('python.csv', index=False)

回到顶部四、数据可视化展示

四、数据可视化展示

下面是对数据的可视化展示，仅以部分视图进行一些可视化的展示，如果读者想对其他字段做一些展示以及想使用不同的视图类型进行展示，请自行发挥，注：以下代码中引入的模块见最后的完整代码

1、绘制python薪资的频率直方图并保存

如果我们想看看关于互联网行业python工程师相关的岗位大家普遍薪资的一个分部区间在哪个范围，占据了多达的比例我们就可以借助matplotlib 库，来将我们保存在csv文件中的数据进行可视化的展示，然我们能够更直观的看到数据的一个分部趋势

# 绘制python薪资的频率直方图并保存

plt.hist(df['月薪'],bins=8,facecolor='#ff6700',edgecolor='blue') # bins是默认的条形数目

plt.xlabel('薪资(单位/千元)')

plt.ylabel('频数/频率')

plt.title('python薪资直方图')

plt.savefig('python薪资分布.jpg')

plt.show()

运行结果如下：

2、绘制python相关职位的地理位置饼状图

通过地理python职位地理位置的分部我们可以大致了解IT行业主要集中分部在哪些城市，这样也更利于我们选择地域进行选择性就业，可以获得更多的面试机会等，参数可自行调试，或根据需要添加。

# 绘制饼状图并保存

city = df['城市'].value_counts()

print(type(city))

# print(len(city))

label = city.keys()

print(label)

city_list = []

count = 0

n = 1

distance = []

for i in city:

city_list.append(i)

print('列表长度', len(city_list))

count += 1

if count > 5:

n += 0.1

distance.append(n)

else:

distance.append(0)

plt.pie(city_list, labels=label, labeldistance=1.2, autopct='%2.1f%%', pctdistance=0.6, shadow=True, explode=distance)

plt.axis('equal') # 使饼图为正圆形

plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))

plt.savefig('python地理位置分布图.jpg')

plt.show()

运行结果如下：

688IT编程网

python爬取数据并进行数据可视化

发表评论

推荐文章

金兹堡朗道理论

求解对流扩散反应方程的高阶指数型组合紧致差分格式

反应堆物理方面的一些单词

...快速傅里叶变换的有限差分方法求解三维反应扩散方程

制浆造纸专业词汇

热门文章

电子杂志的界面设计探讨

无规则羧基橡胶改性环氧树脂的制备及性能研究

【分子生物学】第十八章RNA对生命活动的调节(可编辑)

Caspase3_测定

药品不良反应术语

通讯行业用语的中英翻译(一)

96学年度第一学期4PT骨科物理模拟考

小学数学“实践与综合应用”课程实施问题及对策

CAD快捷键大全和CAD快捷键修改设置方法

2015年3dsMAX快捷键

丙三醇和柠檬酸酯化学反应英语

朋友刚上大学想家,进行安慰英语作文

海上砂岩油藏注自生CO2体系实验及提高采收率机理

质量管理软件

国潮盛行下国产美妆花西子网络营销实践探析

加氢反应动力学英文

chemical reaction engineering pdf

高考英语新名词知识点真题汇编(1)_图文

机体反应水平分级

碱与非金属氧化物的反应类型英语

最新文章

求解对流扩散反应方程的高阶指数型组合紧致差分格式

...快速傅里叶变换的有限差分方法求解三维反应扩散方程

植物生理专业英语

微生物菌落行为模拟的数学建模

新型MIL-100(Fe)基MOFs材料的制备及其对Sr^2+的吸附

NiCrAlY涂层与镍基单晶高温合金基体的互扩散行为

标签列表