分类号:TP391                          学校代码:10697
密级:公开学号:*********
硕士学位论文
M A S T E R’S D I S S E RTAT I O N
Spark环境下的微博网络关键用户挖掘研究
学科名称:计算机应用技术
作者:王伟指导老师:高岭教授
西北大学学位评定委员会
二○一八年
Research on Mining Key Users in Microblog Network under Spark Environment
A thesis submitted to
Northwest University
in partial fulfillment of the requirements
for the degree of Master
hadoop与spark的区别与联系in Computer Applied Technology
By
Wang Wei
Supervisor: Gao Ling Professor
June 2018
摘要
随着移动互联网技术的迅猛发展,社交网络平台的功能和属性越发丰富,用户粘性日益增强,以、微博为代表的社交平台日活跃用户数均在上亿规模,并不断增长。关键用户是社交网络社区中的话题权威、网络核心和关注焦点,相较于一般用户,其社交辐射范围更大、间接影响力更强、网络传递性更好。从社交网络中挖掘出有代表性的关键用户,并对他们进行分析和研究能够在热点事件预测、舆情监控、精准营销、个性化推荐等方面产生重要的应用价值。
为解决当前社交网络关键用户挖掘中存在的评价结果不全面、挖掘效率偏低等问题,本文以微博平台为研究对象,提出了一种在Spark环境下基于网络社区挖掘和用户多维度综合影响力评价模型相结合的关键用户挖掘方法。主要研究内容有:
1. 通过综合微博网络拓扑结构和用户多维度特征信息,给出了微博网络关键用户挖掘的整体方案。即,首先通过用户社区划分界定关键用户评价范围;然后通过用户综合影响力评价模型度量社区内用户的关键程度。该挖掘方案建立在Spark环境下,既保证了微博关键用户识别的准确性,又能够应对大规模复杂社交网络场景。
2. 在微博用户社区挖掘过程中,基于用户链接关系,通过引入用户博文主题相似度来描述用户间兴趣的关联程度,以此增加挖掘社区的兴趣内聚性。将该相似度映射为微博用户间链接关系的权重,并利用Lo
uvain算法处理大规模复杂网络的效率优势来进行社区挖掘。实验表明,该方法挖掘出的社区具有主题集中、社区内聚性高等特点,并且算法运行效率高。
3. 在进行微博用户影响力评价时,研究和分析了微博用户在多个维度上的特征信息,并从用户的权威性、传播性、交互性和链接性四个评价指标出发,提出了微博用户综合影响力评价模型。实验表明,该模型相比于已有的用户影响力评价方法,扩充了用户影响力的度量指标,使得度量结果更加准确和全面,能够在衡量用户直接影响力的同时体现出用户的潜在影响力。
关键词:关键用户,微博网络,社区挖掘,综合影响力,Spark环境