2021.3
1研究背景与意义
教育智慧化是高等职业教育发展的愿景,数据则是
实现这个愿景重要的资产。大数据技术则是支撑这个愿景实现的关键技术。教育大数据产生于各种教育实践活动,汇聚存储了教育领域的信息资产,是发展“智慧教育”最重要的基础,而基于人工智能的数据挖掘和学习分析技术是连接教育大数据与智慧教育的桥梁。当前,利用大数据智能技术不仅可以构建复杂的模型来表征数据和解释数据,还可以从海量数据中挖掘出有价值的知识,构建专用知识系统来为相关应用提供查询与分析。通过挖掘大数据存储在数据中心的教学基本信息、教学过程、教学结果等数据,可以及时对出现的问题进行智能诊断与预防。因此,利用大数据与人工智能技术推动智慧教育是当前亟待解决的挑战,教育大数据智能化技术是当前研究的一个热点。
高职教育专业将以区域经济发展的人才需求为主。对于更新快速的专业,如计算机类的专业,由于技术日新月异,人才需求的分析还需要通过大数据动态分析来不断完善。然而,当前高职人才需求调研中,存在还以传统的抽样调查情况,数据少、覆盖面窄、信息滞后,甚至调研执行不到位。针对这个问题,提出利用大数据分析技术来实现对就业岗位的实时分析,并给出了分析平台的构建方案。方案可以帮助高职教育利用大数据技术来精准分析人才需求,从而明确人才培养目标,为提升高等职业教育质量带来新的发展方scrapy分布式爬虫
向。
2
基于大数据技术的高职教育人才需求分析平台
构建
2.1整体平台架构
为了实现获取区域岗位信息并进行分析,平台的架
构主要分为3个部分:数据采集与处理、数据储存与分析、数据应用。平台从数据采集、处理、存储、分析,到最后的查询应用总共分成了13个步骤,具体的架构图如图1所示。2.2数据获取2.2.1采集管理系统
采集系统作为数据采集的协调管理的主要部分,它
是一个基于B/S 架构的Web 应用系统,系统存储的数据采用MySQL 作为数据库。主要的功能是设置需要采购关键词、网站、采集频率等相关信息。它与爬虫框架的协调工作采用Kafka 消息队列来进行各项
工作协同运行。Kafka 是由Linkedin 公司提供的一个分布式的且多订阅者模式的日志系统。它的协调是基于zookeeper 实现的,非常适合作为一个系统协调工具。采集管理系统负责从Kafka 消息队列中获得需要采集完成情况信息存储在关系型数据库中。然后,通过调用爬虫框架来实现数据采集并将采集结果的基本信息通知发送给Kafka 消息队列,以便分析系统进行分析。2.2.2爬虫框架
数据采集部分主要应用了Scrapy 作为爬虫框架,
Scrapy 是一个基于Twisted 的异步IO 框架,该框架采集数据的功能强大而且灵活高效。另外,为了能实现爬虫基金项目:2018年广州市教育科学规划课题(201811675);2018年广东省质量工程教育教学改革研究与实践项目(GDJG2019312);2020年广东省普通高校创新
团队项目(2020KCXTD053)。
作者简介:詹增荣(1982-),男,通信作者,博士,副教授,研究方向:机器学习、数据挖掘。
基于大数据技术的高职教育人才需求分析平台构建
詹增荣*
(广州番禺职业技术学院,广州510650)
要:为了更加客观且全面地了解区域企业对人才的需求,提出了利用当前主流的大数据技术构建了高职教育的人才需求分析平台的方案。平台由数据获取、数据存储与分析、数据应用3个部分构成,运用了主流的大数据技术与工具。方案为高职各专业进行人才需求分析提供了一种完整的新方法,为高职院校人才培养方案制定提供了全面的、客观的数据支撑工具。关键词:
人才需求分析;大数据技术;高职教育;人才培养方案
75
2021.3图1平台架构图
的分布式爬取,框架采用Scrapyd来实现多台主机的并行采集,Scrapyd是专门用来进行分布式部署的工具,它提供HTTP接口来帮助人们部署、启动、停止、删除爬虫程序。通过利用Scrapy可以很方便地完成爬虫项目的部署,从而简化了多台主机的部署与更新等操作。Redis是一个开源的使用ANSI C语言编写、遵守BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库。虽然Scrapy是一个异步加多线程的框架,但当需要再多台机器运行的时候,需要Scrapy-redis库来提供Scrapy分布式的队列、调度器、去重等等功能,这样才可以将多台主机组合起来,共同完成一个爬取任务,提高抓取的效率。
数据获取数据分析数据应用监听完成信息后发送给kafka>
<;监听kafka信息
存储数据>
爬虫WEB系统
设置各个网站关键字、网
址、爬取间隔时间参数
mysql
<;定时读取数据启动爬虫
发送启动命令>
redis
<;监听启动命令
gerapy
完成发送给kafka>
各大网站
scrapy存储数据>
ambari线上处理
kafka
定时监听kafka处理数据>
存储数据>
Zook
eeper
HBASE
应用
hive
Hive
pandas Spark
MapReduce离线
spark
Yam
HDFS
应用
mysql ignite
离线处理模块
<;处理数据>
查询数据
对外开放
高速缓存
WEB应用API系统
<;查询>
1.具有appid与app_secret认证功能
2.具有次数限制功能
3.高速缓存
2.2.3爬虫管理系统
数据采集部分主要采用Gerapy来对爬虫进行管理,同时对其进行改进使之能对爬取的结果进行存储于指定的大数据存储系统中。Gerapy是一个基于Scrapyd, Scrapyd API,Django,Vue.js搭建的分布式爬虫管理框架。Gerapy将命令行和图形界面进行了对接,从而通过界面化来实现部署、启动、停止、删除等各项操作。2.3数据存储与分析
2.3.1整体架构
数据存储与分析部分主要是对获取的数据进行存储、处理、分析。整体架构采用基于Ambari框架Hadoop平台架构。Ambari是Apache下一种围绕着Hadoop生态集部署、管理、运维而产生的工具,它是基于B/S架构实现的。它支持绝大多数Hadoop组件,包括支持储存系列的组件如HDFS、Hive、Hbase,支持各项查询框架如MapReduce、Pig,也支持各种相关的工具如协调工具Zookeeper,还有数据导入导出工具Sqoop等。2.3.2数据存储
在基于Ambari框架的平台架构,系统采用HDFS、Hive和HBase作为存储平台。HDFS是一个分布式文
件系统,它具有高容错性的特点,并且能部署在低廉的硬件上。系统将所爬取到的或者经过处理后的文件存储在HDFS中,而对于一些爬取到的结构化数据则可以根据不用的需要存储在Hive或HBase(Hadoop Database)上。Hive是基于Hadoop的一个数据仓库工具,它具有丰富的功能,包括了数据的提取与转化、数据的存储、查询与分析等。它整个体系是基于Hadoop的框架实现的。HBase是一个面向列的可伸缩分布式存储系统,可以在普通的服务器上搭建大规模的结构化集存储数据,并且具有高可靠性、高性能等特点。
2.3.3数据处理
在获取到的数据根据平台的需求需要做数据的预处理,主要处理获取数据中存在的空值、重复值、数据格式错乱等情况,从而跟有利于分析。平台架构中可以利用Python的Pandas等工具包对爬取的脏数据进行清洗、
76
2021.3
4结语
工业大数据是工业4.0的核心支撑之一,将带来工
业生产与管理环节的极大的升级和优化。提出了工厂数字化管理系统架构,将机器、资源和人有机结合在一起,针对化工企业实现了供应链管理,采用大量的传感器对数据实时监控,精确采集,通过工业全链条的数字化建模,从而深化工业大数据的分析,强化工业与大数
据的深度融合,激活数据价值,助力工业5.0。
参考文献
[1]工业互联网产业联盟.工业互联网平台白皮书,2019.
[2]吕佑龙,张洁.基于大数据的智慧工厂技术框架[J].
计算机集成制造系统,2016,11:47-52.[3]郭朝晖.工业大数据概念、意义与落地实施[J].自动化仪表,2019,03:7-11.
(上接第72页)
转换等处理,并形成一个标准的可供分析的数据。
在人才需求分析中所爬取的数据主要是岗位相关数据,是实践来看主要存在以下集中需要预处理的情况。(1)数据去重,如公司名和岗位名都相同时被看作是重复值,需要删除重复值。
(2)空值处理。数据采集难
免会出现遗漏或者误采的情况,需要对数据中可能会出现空值(NAN)或空格做删除或插值处理。实践中,常见的有公司规模、福利待遇、薪资等存在空值现象。(3)数值转化。获取的部分数据是可能是非结构化的或者量纲不统一的,需要将这些数值统一。例如薪资内容这块,获取的数据存在多种格式情况,如“6-8千/月”,“1-1.5万/月”,
“10-18万/年”等。这时需要将其统一
为格式化的数据,如最低薪资、最高薪资、单位。(4)非结构化数据预处理。在获取的经验与学历内容信息中。不同岗位都提供了不相同的信息,有些信息甚至是错误的。因此,需要从非结构化数据中利用自然语言处理技术提取工作年限、地点、学历要求等。2.3.4数据分析
当数据完成格式化统一后,平台机构中主要利用
Spark、Mapreduce 等成熟框架对数据进行统计与分析。Spark 是一种基于内存分布数据集的集计算环境的计算引擎,能够提供交互式查询和优化迭代工作负载。MapReduce 是一种为大规模数据集的并行运算提供的编程模型。在人才需求分析平台中,常见的分析内容主要包括了对岗位要求条件、职责、公司规模、类型和业务情况数量进行统计分析。包括统计分析区域用人需求、指定岗位薪资分布、学历
与薪资关系、工作年限与薪资、区域发布指定岗位企业的规模分布、企业福利待遇的关键词分布、企业主营业务类型的分布等。2.4数据的应用2.4.1存储与高速缓存
通过平台分析的结果数据主要存储在MySQL 中,
对于部分高频的数据则将其存储在高速缓存Ignite 中。Ignite 以内存为中心的分布式数据库、缓存和处理平台,用于事务性、分析性和流式工作负载,提供内存速度在PB 级规模。2.4.2API 接口
平台系统由对外的数据接口主要通过Restful API
来实现。它是一个基于B/S 架构的Web 应用系统,具有由用于验证、API 调用限制等功能,同时提供基于Ignite 高速缓存查询等功能。
3结语
基于大数据分析的人才需求的挖掘可以实时反应当
前市场的人才需求情况,而且由于采集数据量的增大可以比较客观全面地反应市场的真实需求。提出了利用当前主流的大数据技术构建了高职教育的人才需求分析平台的方案,为高职各专业进行人才需求分析提供了一种新方法,为人才培养方案制定提供了全面的、客观的数据支撑。平台的构建方案可以应用
到高职教育甚至是本科教育的专业人才需求调研分析中,从而帮助相关人员更有效、更准确地制定人才培养计划
77