《工业控制计算机》2021年第34卷第4期97智能手表网购评论情感倾向分析研究
Sea t ime at Aa alysis Research on Smart Watch Based on Online Shopp iag Reviews 杨峻周俊(东南大学自动化学院,江苏南京210096)
摘要:为应对日益缩短的产品设计周期要求,帮助某智能手表品牌厂家快速准确地收集用户反馈从而助力产品品质改进,对智能手表的网购评论进行数据挖掘。首先,从电商平台爬取该品牌智能手表用户评论,执行数据预处理后将评论文本转化为向量空间模型便于后续的情感倾向分析。为选用合适的情感倾向分析方案,研究选择了三种文本的向量化表示方案,结合四种机器学习分类算法对比分析了其在情感倾向分析方面的性能表现。实验结果证明了基于TF-IDF的文本向量化表示结合支持向量机做情感二分类方案的有效性,识别准确率在92%左右。
关键词:文本挖掘;情感倾向分析;文本向量化表示;支持向量机
Abstract:This paper uses a data mining algorithm based on online shopping reviews to help a smart watch brand man­ufacturer quickly an^accurately collect user feedback for improving product quality.lt helps to cope with the increasingly shortened product design cycle requirementS•Firstly|User reviews of the brand's smartwatches sre crawled from e-commerce websites.After performing data preprocessing|the comment text is transformed into a vector space model to f a cilit a te subse­quent sent
iment tn a lysis.In order to selectn appropri a te sentiment tn a lysis progr a m,this paper choses three vectorized represent a tions of textS|Combined with four m a chine le a rning classification algorithms to comp a re and an a lyze its perform a nce in sentiment tn a lysis.
Keywords:text mining|Sentiment tn a lysis,vector sp a ce model,svm
近年来,网络零售额持续增长。市场竞争日益激烈,对缩短产品设计周期提岀更高要求,快速准确地收集用户反馈已成为如今产品设计改进的重要部分遥当前,电商平台并不提供具体详尽的产品属性满意度分析服务,不能满足商家分析产品质量问题并实施针对性改进的需求。现有的研究多是针对智能手机的用户评论挖掘[1],也有以食品、酒店为研究对象,而近些年颇受欢迎的智能手表未被关注。手机和智能手表有区别,比如在属性方面,表带表盘、心率检测、睡眠检测等功能是智能手表特有的。情感倾向分析囱是用户评价挖掘的一个重要研究方向,快速获取用户对产品的情感态度无疑具有很大价值。由于网购评论随意性很强且非结构化,直接对其分析从而获取产品质量评价信息难度很大,需要将其转化为易于建模的数字信息。本文选用不同的文本向量化表示方式将智能手表评论文本转化为易于分析的数学模型,进而选用不同的机器学习分类算法,综合比较不同的文本向量化表示模型结合机器学习算法在文本情感倾向分析方面的效果,从而确定最适合的评论文本情感倾向分析方案。
1问题分析及研究思路
原始网购评论是非结构化文本,语法随意性较强,形如“手表太漂亮啦,用起来很方便”、“坑爹,戴着不舒服不说,电池还不耐用”等。人工处理可以标注用户的情感态度是积极或是消极,但是耗时耗力。而将文本信息转化为易于建模的数字信息,借助文本挖掘手段判断每条评论蕴含的情感倾向,在此基础上对智能手表品质进行针对各项属性的情感极性定量分析,可以给智能手表商家提供给更具体量化的分析数据,助力产品改进。因此,首先要解决对智能手表网购评论文本向量化表示的问题,才能有效地将网购评论文本数据数字化,进而得到智能手表评论的情感倾向。
本文的研究思路如图1所示。首先,从电商平台抓取该商家智能手表的原始用户评论,对其进行分词和数据清洗等预处理后去除干扰噪声。接着将文本转为向量空间模型,常见的是词袋模型,即句子可以用一个装着这些词的袋子来表示。选用三种不同的向量化表示方案来表示文本,接着选用四种常见的机器学习分类算法,基于三种向量化模型训练四种分类器。比较三种向 量空间模型下四种分类器的分类性能指标,选择效果最优的一种作为最终方案,为后续得到更细粒度的情感倾向分析打基础遥
图1智能手表网购评论挖掘研究思路
2评论数据获取及预处理
2.1评论数据获取
从网页抓取评论需要借助爬虫技术,现有的爬虫工具包括Raquasts库、Scrapy爬虫框架和Sale;ium等。Salaaium是一款强大的基于浏览器的开源自动化测试工具。它提供了一套简单易用的API,模拟浏览器的各种操作,其行为和用户几乎一样,因此可以绕过网站的反扒策略。本文采用Python配合Salaaium的方式抓取智能手表网页评论‘Selenium模拟用户操作打开京东商城某品牌智能手表评价页面,定位HTML页面的评价区域,依据页面标签提取相应评价信息,包括用户名、会员等级、评价内容、购买型号及日期和满意度分值等。累计爬取了15915条评论。其中8条评论信息见表1遥
2.2评论数据预处理
网络评论非结构化且随意性较强,进行文本挖掘前还需要预处理
98智能手表网购评论情感倾向分析研究
表1网购评论示例
七rifl-mt.川J T?II..1?!
•讨丄“/tti■.
A titn-r--i h-T-liT r.f7-Lb.I_'.-i.'.Xk.I..''.I
/■I!■:■>.•/I II .■•;
i.i ii-.T.'-s.7、:.;:a?-:
fl-37J:=£J..:■!p:.:...r-;
i'.u-Vfl-.
.••■■r.
丿'
r帖i.-:n:-1.1*•r•■-.■H I-.:A:FL';':-
.;:•ta.214:T.i f•:'i
•;-!■!■航t.:]T *
壮恥■1•.i;#All J■--~4••去l:l V!-•::::
.:'||':-:>'.|.11::
~■S-.i.1k•卯;-r1..
:..y『•::■2-r-..iw.rr•*••••
-?.!]::1-
11..-rr i-i-i-a■r岛••i-:Y r rt7;.'■:|-Il-:i1
.•-i-r•:•r-i l:..>";:<■!1?!?=•>l.;V|J 2.2.1去除无效评论
电商平台的用户评论中存在不少无效评论,比如“您没有填写内容,默认好评”,还有一些评论完全是照搬其他评论,参考价值有限,可通过Paadas读取评论数据集并剔除无效评论或仅保留一条。此外,由于分析对象是京东商城的智能手表,网络评论中频繁岀现的“京东”、“京东商城”、“智能手表”和品牌名等词语对实际分析没有什么帮助,可借助Python的正则表达式ra 模块以将这些词语剔除。
2.2.2分词并去除停用词
文本挖掘中分词是关键的一步,是将句子拆分为若干个词语的过程。准确地分词可以提高后续文本挖掘的效率和准确性。考虑到网购评论中涉及大量网络用语,为了提高分词精度,需要新增网络用语词库。本文将百度输入法、搜狗输入法、QQ输入法的网络用语词库合并,作为自定义词典。中文分词最常用的工具包是Jieb a,本文采用Jieb a分词包加载自定义网络用语词典并对清洗后的数据执行分词。停用词(Stop Words)类似于过滤词,就是去除对文本挖掘没有帮助的词语。停用词大体分为两类,一类是日常生活中使用频繁的词,如“我”、“你”、“他”等等。另一类包括语气助词、副词、介词、连词等,虽在文本中岀现频率高,但是没有实际意义。将这些停用词放入停用词库,在分词后得到的词语列表的基础上通过字符串匹配去除这些停用词。该
2.2.3绘制词云图
评论预处理后,为了直观看岀评论中频繁岀现的词语,可通过Paadas统计词频并按降序排列,取前100
个高频词,使用Python中的WordCloud模块绘制词云图,如图3所示。
图3评论词云图3文本表示与情感倾向分析
产品评论预处理后依旧是文本信息,在进行后续情感倾向分
析之前需要将其转化为方便计算机处理的向量模型。常见的文本向量化表示方式包括:TF-IDF、N-Gram模型、Word2VecW 3.1常见文本表示方式
3.1.1TF-IDF
TF-IDF是信息检索中最常用的一种文本关键信息表示方法,基本思想是如果某个词在一篇文档中岀现的频率高,并且在
语料库中其他文档中很少岀现,则认为这个词具有很好的类别
区分能力。
TF(Tarm Fraquaacy)代表词频,即某个词在文档中岀现的频数,平均而言岀现越频繁的词重要性可能就越高遥此外,考虑到文档长度的差异,需要对词频做标准化处理。TF的计算方式如下: TF=某个词在文档中出现的次数(1) 'F=文档的词条总数(1)
IDF(Iaverse Documeat Fraquaacy)代表逆文档频率,用于衡量某个词在语料的实际使用环境中的重要程度遥比如有些词在文档中频繁岀现但是意义不大,包括各种停用词琏词,语气助词之类,这些词的重要性必须要调低,而相应提高其他词的重要性遥
IDF=log语料库中的文档总数
含有该词条的文档总数+1
渊2) TF-IDF指标综合了TF和IDF,与一个词在文档中的岀现次数成正比,与该词在整个语言中的岀现次数成反比。
TF-IDF=TFxIDF(3)
相比于基于频次的词袋模型,TF-IDF考虑更加全面,然而该方法还是没有考虑到语序以及更深层次的语义。
3.1.2N-Gram
N-Gram是一种基于统计语言模型的算法。该模型基于这样一种假设,第N个词的岀现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词岀现概率的乘积。这些概率可以通过统计语料
中N个词同时岀现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。对于Bi-Gr a m,整个句子岀现的概率如下:
P(w,,w2,噎,w m)=n p(w i i w i-1)(4)
i=1
N-Gram考虑了词序,信息量更充分。但是随着N的增大,词表迅速膨胀,向量稀疏的情形更明显。
3.1.3Word2Vac
Word2vac是由谷歌在2013年发布的,是一种学习分布式语言表示的神经网络实现。Word2Vac算法是机器学习在文本分析中最重要的应用。它是用来把语料库中的单词构建成向量的工具,其优势是可以通过构建好的向量表达单词的语义信息。Word2Vac通过理解上下文来工作,例如,哪些单词会共现这样的信息。不同于离散化表示的词袋模型,Word2Vec是一种分布式的表达方式,会考虑词条的上下文关联,因此能够提取岀词条上下文中的相关信息。
3.2情感倾向分析
情感倾向是指用户对产品属性的主观态度,即正面的或负面的。中文文本情感分析方法大体上分为两类:
基于情感词典和基于机器学习算法冋。基于机器学习的情感倾向分析属于二分类问题,常见的分类算法包括逻辑回归、朴素贝叶斯、支持向量机和决策树。本研究使用四种机器学习算法进行情感倾向分析效果对比实验,以岀适合用于网购评论文本情感倾向分析的分类算法。常见的评价分类模型优劣的指标包括准确率,精确率,召回率和F1得分。情感倾向分析主要评价指标如下
《工业控制计算机》2021 年第 34 卷第 4 期
99
1)准确率(Accuracy )
Accuracy=
TP+TN TP+TN+FP+FN
x100%渊5)
其中袁TP 表示判定为正样本,事实上也是正样本的分类数;
TN 表示判定为负样本,事实上也是负样本的分类数;FP 表示判
定为正样本,但事实上是负样本的分类数袁FN 表示判定为负样 本,但事实上是正样本的分类数。
2)精确率 P
Precision= tp +F p  x100%
(6)
3)召回率R
Recall=栽孕 x100%
渊7)
4)F1-Score
准确度和召回率合并成另一个度量 F1-Score 。 原则上, F1-Score 表示识别精确率和召回率的调和均值,认为精确率和 召回率的重要程度一样,进而统一两者得到一个衡量标准。常用
的 F1-Score  的计算方式是:
F1= 2* P* R
F1
= P+R
渊8)
4实验验证4.1实验数据
本实验基于从京东商城爬取的关于智能手表的评论文本, 累计15915条评论。经2.2节描述的评论数据预处理后,剔除重 复及无效评论共359条,由此得到15556条有效评论。实验邀
请了 5位助手帮忙对这些有效评论进行情感倾向的人工标注,
每人标注3100多条评论。经人工标注,累计获得10688条正面 评论和4868条负面评论,将其存为csv 文件,实验数据如表2
所示。其中属性列label 表示评论极性,员表示正面评论,0表示
负面评论。情感极性标签的分布情况如图4所示。
表2实验数据
ill
Lil
I ii I h :I
. r- -■ ik-i :-乜.■ I; K  •特H11• I  .J :才 X  A' r  ・hriK..
g.I
■■I :"
2 灯 •心”t  K'• L-:U  ijiu-
* .'■■■ ]
fl.
■- 1
- 匸沱ii.m 芒:牛I 上铁吁•比• i
1WDD
HHM
(QW
4C02
JQOC
nt  ■+ .
』■■:: tr? r  ■'.: L  门
.....•:仔口-x-疋:龙泌.;、宀A -:■:■ Qi •的后• L 訐朋Nk-.
'' m  Jl.t  .• A
... :•".、• :!:■. i-t  ■纭彳亠订"-芒-7J- =■]屯-j  ・ 了 迩二■:."宀弐.;・1 ••芒
lafcol
图4实验数据情感极性分布
4.2结果分析
将数据集分为训练集和测试集,其中训练集占80%,共
12444条评论,测试集占20%,共3112条评论。在训练集和测 试集上分别通过TF-IDF 、Bi-Gram 、Word2Vec 建立文本向量
空间模型表示, 将所得测试集的向量空间模型输入分类器进行
训练,再将测试集的向量空间模型输入训练好的模型得到测试集
上情感极性的预测结果。 预测结果与测试集原有情感极性标签作 对比,标签一致即表示分类正确,反之则分类错误,由此可得到各 项分类器性能评价指标得分。实验结果见表3、表4和表5遥
表3 TF-IDF 文本表示
表4 Bi-Gram  文本表示
AcLiuracy
Rccnll
Fl-Skoiv
li  914-2
H.9I  «•:-■
■:)
朴盂只匚|斯|| ;¥4勺
n.K'-m ■:I  M  5
豈亍向
|| 91 5b :ii
:)1
■:)|| ■:.:=■!<:I
::i .^i :X :7
■::i  MS2S
表5 Word2Vec 文本表示
Rri.'i'isiompython正则表达式爬虫
1址w ill I f l  -Si.-ore
逻涓3
归II  91 12H-:'l  ::.i ■:.i  克谓.'■>朴末工【I
斯li  9:iM ::i  込 ■::i  Y.W
支•<:向;
II  9:.i  y.P
ii ii .KTVT
■:)
Pitcision
RccfJI
FL-Scoit
世筑』!」」汕£
::i.9-199
朴室工「十斯
■:?1 出
■:j  曲?2
II 肘"严
:j  m
:iS :由以上三个表格可以看岀在每一种文本向量化表示方式
下,支持向量机(SVM )的分类效果最佳,决策树分类效果最差。 支持向量机模型在三种文本向量化表示方式下情感倾向判断的 准确率均在92%左右。三种文本向量化方式中,各种分类模型 在基于TF-IDF 和Bi-Gram 的向量化表示下表现相当,分类器
在这两个向量化表示方式下的分类表现优于在Word2Vec 的文 本向量化表示下的分类表现。考虑到Bi-gram 会导致词表膨
胀,向量稀疏更明显,因此基于TF-IDF 的文本向量化表示结合 支持向量机的分类算法更适合用于评论文本情感倾向分析。
5结束语
本文从某品牌智能手表的网购评论岀发,综合比较了评论 文本在TF-IDF 、Bi-Gram 和Word2Vec 三种向量表示模型下, 结合不同机器学习分类模型的情感倾向分类表现。 基于识别准 确率、精确率、召回率和F1得分等评价指标,最后选用了 TF- IDF  结合支持向量机做文本倾向分析判断的方案。经实验验证, 该方案情感倾向识别准确率可达92%左右,满足用户评论情感 倾向判定的基本要求,方法有效可行。
参考文献
[1] 杨程,谭昆,俞春阳•基于评论大数据的手机产品改进[J ].计算机集
成制造系统,2020,26(11):3074-3083
[2] Liu  B.Sentiment  analysis  and  opinion  mining  [J].Synthesis
lectures  on  human  language  technologies,2012,5(1): 1-167
[3] 程龙•基于改进TF-IDF 算法的信息抽取系统设计与实现[D ]•北京:
北京邮电大学,2019
[4] Zhai  Z,Xu  H,Kang  B,et  al.Exploiting  effective  features  for  chi ­
nese  sentiment  classification  [J].Expert  Systems  with  Applica ­
tions, 2011, 38(8): 9139-46
[5] 黄仁,张卫•基于word2vec 的互联网商品评论情感倾向研究[J ]•计
算机科学,2016,43(S1):387-9
[6] 徐小龙•中文文本情感分析方法研究[J ].电脑知识与技术,2018,14
渊2):149-51
[收稿日期:
2020.12.14]