技术平台
基于Hadoop电商大数据的挖掘与分析技术研究
陈娥祥
(福州工商学院,福建 福州 350715)
摘 要:随着社会经济水平的不断提高和互联网时代的不断发展,全球数据逐渐呈现出大规模增长的趋势,为了满足海量数据处
理需求,大数据挖掘与分析技术应运而生。Hadoop的出现和应用不仅能科学、高效地处理海量数据,还能可视化展现海量数据最终
处理结果,为电商企业的健康、可持续发展提供重要的数据参考和支持。基于以上情况,以福州地区美容行业的电商系统为例,在
介绍相关理论与技术的基础上分析了数据挖掘算法,从系统的整体设计、数据准备、数据挖掘分析三个方面入手,研究了电商大数
据挖掘系统的设计,从实验环境、实验数据准备和实验结果分析三方面入手,探讨了系统可视化实现与效果。希望通过这次深度分
析与研究,对公司的运营决策提供有力帮助,为电商平台各方参与者、相关领域技术人员提供有效的借鉴和参考。
关键词:Hadoop;电商大数据;挖掘分析;可视化技术
随着社交媒体的不断发展,企业处理数据的途径日益增加、规模日益扩大,并形成了海量的数据流。在这样的背景下,我国逐渐进入了大数据时代,大数据的生成速度呈现出指数爆炸形式,加上数据在处理的过程中无法分解为常用的数据库,这无疑增加了企业访问和处理数据的难度。目前,在我国电商行业的迅猛发展下,数据规模递增,为了实现对消费者购买行为相关数据的深入、全面挖掘,进一步提高电商企业的销售业绩,在Hadoop框架的应用背景下,加大对大数据挖掘与分析技术的科学应用,实现数据挖掘技术与电商平台的有效融合,是相关领域技术人员必须思考和解决的问题。
1 相关理论与技术研究
1.1 Hadoop平台相关技术研究
Hadoop作为一种开源编程框架,被广泛应用于Apache基础项目中。该框架的编写语言主要以Java语言
为主,能够为海量数据集的分布处理提供重要支持。同时,在部署的过程中,使用的服务器购买价格普遍较低,缩小了物力成本,这样一来,作为开发人员就可以投入较低的成本,实现Hadoop集搭建,极大地提高了开发效率和效果。Hadoop平台主要由两大部分组成:HDFS文件系统和MapReduce并行计算框架,实现了计算与存储之间迁移,并在集中形成很高的聚合带宽。
1.2 数据挖掘相关技术研究
1.2.1 数据挖掘特征
相对于传统的数据统计,数据挖掘主要具有以下三大特征:(1)大数据处理能力强,无需学习专业的统计知识就可以借助数据挖掘工具实现对海量数据的处理和整合;(2)数据挖掘工具在具体的应用中能够很好地满足企业的发展需求;(3)数据挖掘的目标是方便企业终端用户,为企业用户带来了良好的使用体验。
1.2.2 数据挖掘过程
在进行数据挖掘的过程中,主要从以下几个方面入手:(1)获取不同类型的数据源。在有效结合实际使用需求的基础上,实现对不同类型数据源的获取,这些数据源类型包括结构化数据源、非结构化数据源和半结构化数据源等类型。同时,还要制定和完善数据挖掘方案。(2)做好数据预处理工作。在这
个过程中,相关人员要重视对错误数据和垃圾数据的清除,加强对丢失数据的补充和完善,修改错误数据格式。采用数据预处理方式,不仅可以提高数据格式的统一性、规范性,还能保证数据挖掘算法在短时间内得以快速执行。(4)实现数据挖掘。根据数据挖掘的实际需要,选用科学的数据挖掘方法,同时在有效结合用户实际需求的基础上选用符合数据源处理需求的数据挖掘算法。(5)实现对解析模型的构建。在这个过程中,相关人员要明确数据挖掘初始目标,采用相应的技术手段不断验证和检测数据挖掘结果的可靠性和精确性,同时要采用可视化的方式向用户呈现具有重要价值的数据。(6)加强对挖掘数据的应用。通过将最终挖掘的信息广泛地应用于相关领域中,赚取更多的经济效益和社会效益。
2 数据挖掘算法
2.1 K-Means算法
K-Means算法作为一种常用的K均值算法,被广泛应用于聚类分析领域中。在使用该算法的过程中,首先要明确所需要的聚类个数,然后从若干个样本中采用随机选择的方式选出K个实验对象,并将这些实验对象作为一个质心,精确计算出质心周围样本点与质心之间的距离,最后根据实际需求,将距离较近的样本点划分到相应的簇中,在这种反复迭代方式的应用下,实现对质心周围样本点的不断更新。
2.2 Apriori关联规则算法
Apriori关联规则算法作为一种常用的频繁项集法,能够实现对数据的分布式处理,该算法在具体的运用中需要做好对频繁项集的处理和查,然后在迭代处理中自动形成大量的候选集,根据单个候选集出现的次数,实现对相关项集的统计,满足用户的实际需要。充分发挥和利用Apriori关联规则算法的应用优势。3 电商大数据挖掘系统的设计
3.1 系统的整体设计
电商大数据挖掘系统在具体的设计中主要以福州
课题项目:福建省中青年教师教育科研项目“基于Hadoop电商大数据的挖掘与分析技术研究”(闽教科(2019)81号,项目编号:JAT191062)。
技术平台
地区企业美容行业的电商系统为参照物,在充分借助和利用数据挖掘技术的基础上,采用一系列可视化技术手段,实现对大数据处理系统的设计和构建。系统框图如图1所示。
图1 系统框图
从图中可以看出,该系统在整个设计过程中主要涉及以下四个环节:(1)数据准备环节。在这一环节中,首先要从公司内部的系统平台中获取相应的数据源,如商品、消费者、美容师等相关的信息数据,并将这些信息数据存储在mongdb 非关系型数据库中,然后在结合相关业务拓展需求的基础上,充分利用Hadoop 平台,读取相关业务数据,并将读取的业务数据存储到HDFS 中,实现对数据的读取和存储。(2)数据处理环节。在这一环节中,相关人员需要针对用户的差异化需求,采用数据挖掘分析的方式,充分利用和发挥MapReduce 计算框架的应用优势,通过运用数据挖掘算法实现对数据的并行处理,并完成对相关数据模型的构建。(3)数据处理结果转化环节。在这一环节中需要针对最终的数据
hadoop分布式集搭建
分析结果,采用数据转化的方式将所有数据格式转化为统一的Json 格式,为后期ECharts 可视化展示工作的有序开展打下坚实的基础。(4)ECharts 可视化展示环节。在这一环节中,需要将Hadoop 平台与SpringMVC 进行充分结合,采用集处理的方式将最终处理好的数据发送给客户端,并以Echarts 类图的方式将多种类型图形展示在用户 面前。
3.2 数据准备3.2.1 数据来源
要想实现数据的深入挖掘,相关人员必须拥有海量数据。这些海量数据的来源渠道主要有两种:一种是相关管理系统平台;另一种是相关的。无论是管理系统平台,还是,均共用相同的数据库。利用数据库,设置和记录多种对象的属性值,并重点分析最终采用的数据。同时,获取的数据信息需要涉及以下信息,如预约订单、套餐订单、单日销售额、顾客消费记录以及美容师业绩提成等。此外,在挖掘数据信息的过程中,相关人员要重视对潜在性信息的采集、整理和分析,便于企业经营者做出科学、正确的判断和决策,还确保顾客购买的商品是真正需要
且合适的,从而提高顾客的消费体验,增加美容师的
业绩提成。
3.2.2 数据预处理
数据预处理主要是指在挖掘数据信息的初期,首先对无用信息进行清除和处理,为提高数据挖掘算法的执行效率创造良好的条件。在大数据时代背景下,大量数据信息存在数据格式错误、数据不真实等问题。因此,去除无用的数据、保留有用数据是实现数据集成和预处理的重要环节。数据处理方法主要有以下三种:无用数据的清除、有效数据的集成和数据格式的转化。
3.3 数据挖掘分析
3.3.1 四种订单销售业绩统计
在这一环节中要严格按照相关标准和要求对四种订单销售业绩进行科学、准确地统计,这四种订单分别是周期订单、预约订单、产品订单和套餐订单。为了进一步保证不同订单业绩的计算速度,相关人员要重视对多张表相关属性值的设置和过滤操作,实现对售价属性字段的有效获取。四种订单时间和售价属性字段表如表1所示。相关人员严格按照表中的字段属性值,实现对数据的全面读取和搜索,从而最大限度地提高不同订单业绩计算的效率。
表1 四种订单时间和售价属性字段表
订单名称下单时间售价周期订单(PeriodOre)created_at disCountPrice 预约订单(Orders)orderTime actualPrice 产品订单(ProductOrder)orderTime realPrice 套餐订单(PackOrder)
orderTime
realPrice
3.3.2 基于Mahout 的K-means 聚类分析
在MahoutAPI 的运行背景下,K-means 聚类分析主要涉及到了以下两个步骤:(1)序列文件转换。在这一环节中,首先要做好对数据预处理工作,然后,充分利用MahoutAPI 实现对数据的深入挖掘,将读取的数据格式进行转化,使其转化为SequenceFile 格式,便于后期快速查询和读取数据。(2)执行K-means 算法。在执行K-means算法的过程中,要重视对MahoutAPI的调用,通过调用该API内部的run方法,可以实现对Hadoop 相关信息的配置。同时,还要采用聚类数据转化的方式,设置和调整相关变化阈值,避免因变化阈值设置不合理影响K-means算法的执行效率。
3.4 Echarts 图形的绘制
数据挖掘分析工作完成后,需要将最终的数据结果以Echarts 图形的方式呈现在用户面前,便于用户直观形象地发现数据存在的潜在性问题,从而真正发挥
技术平台
数据挖掘作用。数据分析的最终结果往往由Web端进行直接控制,在读取和查询数据的过程中,首先采用调用函数的方式,由后端对相关程序代码进行执行,并形成最终的执行结果,随后采用可视化的方式展示相关数据信息,进而为用户带来良好的使用体验。Echarts图形在进行绘制的过程中需要根据相关数据库读取和查询相应数据信息,根据可视化的需求,深入挖掘相关属性值,最后将加载好的Json数据发送到web页面中,从而完成对Echarts图形的绘制。Echarts 图形绘制步骤如图2所示。
图2 Echarts图形绘制步骤
4 系统可视化实现与效果
4.1 实验环境
4.1.1 硬件环境
电商大数据挖掘系统用到的硬件环境主要由以下几个部分组成:非关系型数据库、Hadoop集服务器
等各种服务器。这些服务器的CPU内核要求达到1核,内存量达到8GB。
4.1.2 软件环境
电商大数据挖掘系统使用的计算平台主要以阿里云服务器搭建的Hadoop平台为主,该系统用到的软件环境如表2所示。
表2 软件开发环境配置
名称版本号备注
Centos7.1Linux操作系统
Hadoop  2.7.2Datanode,NodeManager,Namenode Mongdb  5.6.4用于存储原始数据
Echarts  3.0用于绘制可视化图形
Eclipse2018Java开发
Tomcat7.0配置web应用访问服务
4.2 实验数据准备
为了更好地验证该系统的可视化效果,要做好对实验数据到准备工作,读取数据库中涉及的多张数据表。例如,在统计业绩相关数据的过程中,需要读取周期订单、预约订单、产品订单和套餐订单四张表中的数据,精准地描绘出相关字段的属性值。数据表信息如表3所示。
表3 数据表信息
名称表名属性值
周期订单PeriodOrder id,bserviceId,userId,disCountPrice,is1007480预约订单Orders id,,bserviceId,userId,orderTime,order1007480产品订单ProductOrder id,userId,userMobile,realPrice,created_at,113775套餐订单PackOrder_id,packName,realPriceuserName,118387用户信息User id,userName,nickName,mobile,consume175661美容师信息Beautician id,beauticianName,beauticianNickmobile1544顾客到店统计表UserToStore id,userName,monthCounts,yearCounts151802
4.3 实验结果分析
为了进一步验证K-means算法和Apriori算法的执行效率,要在保证数据量相同的条件下,将以上两种算法与相应的并行算法进行对比和分析。两种不同算法的运行时间如表4、5所示。
表4 K-means算法运行时间(s)
数据量(万条)205080110160
K-means106.56137.84150.48183.82275.15并行K-means29.3143.8770.1785.19106.72
表5 Apriori算法运行时间(s)
数据量(万条)205080110160 Apriori160.26187.39242.73183.82388.47并行Apriori35.1351.6475.1692.46120.45
从表中相关数据可以明确看出,当数据量保持一致的情况下,通过将以上两种算法与Hadoop平台进行深入融合,极大地提高了算法的执行效率和数据挖
掘分析效率,便于用户高效快捷地获取需要的信息 数据。
5 结束语
在Hadoop框架的应用背景下,通过借助电商平台,实现了对大数据处理系统的科学构建和应用,最大限度地提高数据分析的深度,进一步挖掘了消费者购买行为相关的数据,从而为企业经营者提供重要的
信息数据依据,使企业享受到更加专业化的数据处理服务,为促进电商行业的创新、长远发展提供有力的保障。
参考文献:
[1]黎燕.基于Hadoop的电商数据挖掘技术的研究与应用[D].西安:西安科技大学,2018.
[2]李蓉蓉.基于Hadoop的电商平台大数据挖掘研究[J].南方农机,2017,48(22):111,169.
[3]余文俊.电商大数据实时数据看板的设计和实现[D].上海:上海交通大学,2017.
[4]郭钊.基于Hadoop的数据挖掘在电商环境的研究与应用[D].长沙:湖南大学,2016.