168
数据库技术
Database Technology
电子技术与软件工程
Electronic Technology & Software Engineering
云计算、物联网、移动应用等的多方应用标志着大数据时代已到来,基于大云物移智技术实现了人机互联互通。大数据按照数据结构可分为结构化大数据与非结构化大数据,由于非结构化大数据挖掘处理难度相对较大,因此,对非结构化大数据的挖掘分析已经成为了当前研究热点。与此同时,随着互联网技术的不断发展,自媒体行业的不断崛起,政府或企业面对爆炸式信息的增长,如何基于海量网页数据,实现价值信息的筛选、整合、挖掘,成为一个当前面临的新难点。本课题是以今日头条、微博、等新闻媒体文章以及相关评论等数据信息出发,通过大数据挖掘分析算法,构建大数据智能化语义分析系统,用以辅助政府或企业优化改善现有服务模式、服务流程和服务质量,提升服务质量和效率。
本文打破了传统的服务优化提升模型,创新基于爬虫技术获取多方数据,所有数据都储存于本地服务器,所有模型分析研究是于本地研发,企业数据的安全性得到保障。采用分词技术、知识图谱、自动问答等人
工智能方法,构建大数据智能语义分析系统,让政府或企业从多维度了解新政策、新事件、新技术,了解公众或消费者意见,为政府或企业对服务模式、服务流程和服务质量的优化调整提供辅助决策。此外,从数据上看,除企业运营数据外,大部分数据来源于公共社交媒体网站,数据开源性较高,爬虫技术、文本挖掘、知识谱图等技术均较成熟,可应用于各行各业,因此,可推广、可实施性较高。1 理论方法
1.1 分词技术-隐马尔可夫模型
隐马尔可夫模型隶属于马尔可夫链,是一个双重随机过程。状态需要通过向量序列进行观测,观测向量的各种状态需要概率密度分布予以表现,是由具有相应概率密度分布的状态序列产生。隐马尔可夫模型中包括:状态集合、观察序列、状态转移分布、状态出现概率分布、初始状态分布五元组。
其中:状态合集由词头(F),词中(M)、词尾(E)、单字成词(W)四种状态构成;观测序列是一个状态的有向序列;状态转移分布是状态集合中各元素两两之间转移的概率。状态出现概率分布指每一种状态所出现的概率值分布;初始状态分布是指初始阶段时状态分布。
针对隐马尔可夫模型中状态转移分布、状态出现概率分布、初始状态分布等参数求解问题,可采用机器学习方法对参数进行求解,根据训练样本是否存在标记,机器学习通常可以划分为监督学习和无监督学习。
其中:监督学习是指训练数据集已经给出观测序列及相应的路径序列,并基于统计分析法对各语句首字出现状态进行频次分析,根据改字出现频次与句子总数的商,记为该字的初始状态,通过不断学习状态转移矩阵,实现语句分词;无监督学习是由于先验经验缺乏导致人工标注难度太大或成本较高,可根据无标记的训练样本集解决模式识别中的各种问题,本文采用维特比算法,基于动态规划算法挖掘出最优路径,实现语句分词。
一种大数据智能化语义分析系统
张阳  王贻欣  张杨  陈强  蔡钺
(国网浙江苍南县供电有限责任公司  浙江省温州市  325000)
1.2 知识图谱
2012年,由谷歌公司提出知识图谱概念,后续并成功应用于搜索引擎中。可通过知识种类、构建方法等多种维度进行划分,分类方式较多,一般情况下,基于领域划分可分为通用知识图谱、特定领域知识图谱两种。常见的知识图谱包括实体、概念、属性三类节点,其中:实体是指具有可区别性且独立存在的某种事物(某个城市、某种商品、某类动物等),是知识图谱中的最基本元素;概念指的是具有同种特性的实体构成的集合(国家、书籍、设备等);属性则用于区分概念的特征,不同概念具有不同的属性。
目前,知识图谱已经成为人工智能领域的重要技术,在网页搜索、NLP 、电商、物流等不同领域发挥着极其重要的作用。知识图
摘 要:本文基于scrapy 构建分布式爬虫系统爬取今日头条、微博、等新闻媒体文章以及相关评论,通过文本去重、文本过滤等数据清理手段,采用分词、关键词提取、文本摘要等自然语言处理算法挖掘文本价值,并以此为基础建立基于neo4j
图数据库的知识图谱,通过知识图谱建立智能语义分析系统。
关键词:
分布式爬虫;文本挖掘;自然语言处理;知识图谱;辅助决策图1:知识图谱示意图
图2:scrapy 架构
169
数据库技术
Database Technology
电子技术与软件工程
Electronic Technology & Software Engineering
谱的主要原理是通过将客观世界中概念、实体及其之间的关系转换成结构化形式,使得能够更加高效的组织、管理和理解海量信息,降低人类信息接受和认知难度。2 实证研究
基于分布式爬虫技术获取今日头条、微博、等新闻媒体文章以及相关评论等数据,采用分词、关键词提取、文本摘要等自然语言处理算法对文本数据进行挖掘,构建知识图谱,以此为基础构建大数据智能化语义分析系统,让政府或企业从多维度了解新政策、新事件、新技术,了解公众或消费者意见,为政府或企业对服务模式、服务流程和服务质量的优化调整提供辅助决策。2.1 基于scrapy的大规模分布式数据采集
采用 python 开发的 Scrapy 框架进行开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库做分布式,使用MongoDb 数据库做数据存储,利用 Django web 框架和 Semantic UI 开源框架构建管理系统,最后使用Docker 对爬虫程序进行分布式部署。
2.2 基于自然语言处理技术的文本挖掘
通过分词算法和新词发现算法,提取同目标主题相关联的其他主题,通过关键词提取算法提取出一个或多个文章语义内容的词汇或短语,通过文本向量化,结合聚类算法对文本或评论进行聚类,对文本或评
论进行自动梳理,归纳热点文章或评论趋势,把内容相近的信息归为一类,按照热度进行排名,并自动为该类生成标题和主题词。通过文本摘要算法能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。通过情感分析,帮助政府或企业了解新闻媒体或用户对某类政策或事件的正面与负面评论情况。2.3 基于neo4j图数据库构建知识图谱
对关联主题,文本聚类,关键词提取等文本挖掘结果,结合文本自身属性,基于neo4j 图数据库,构建知识图谱,为构建智能语义分析系统打下基础。如图3。
其中:A 、B 、C 分别表示供电能力、可靠性、供电质量三个一级指标得分;rzb 、fzl 、gnl 分别表示容载比、负载率、供电能力利用率的评分数值;yps 、nhc 分别表示用户平均停电时间、年户均停电次数的评分数值;ydh 、pdh 分别表示用户端电压合格率、平均电压合格率的评分数值。2.4 基于知识图谱的智能分析系统
基于知识图谱,根据主题、文章、评论等关联度大小,挖掘相关热点。根据搜索的关键词,结合词向量,自动匹配词向量相似度最高的主题,智能识别用户意图,以图表、图谱、词云等方式输出关联主题、热度趋势、情感倾向等。3 应用价值
以电力企业为例,项目自开展以来,共爬取电力相关的新闻媒体、用户评论等数据150GB ,构建内含5
0000余个词的专有词库,结合文本挖掘技术形成了电力行业新闻媒体以及评论相关的知识图谱,并以此构建智能分析系统,让电力企业从多维度了解新政策、新事件、新技术,了解公众意见,为电力企业对服务模式、服务流程和服务质量的优化调整提供辅助决策。项目产生的效益主要体现于管理效益、社会效益。3.1 管理效益
大数据智能语义分析系统能够从海量网页数据中,挖掘行业热点,输出用户意见,分析媒体和用户情感倾向等,打破了传统的人工经验式的服务管理模式,提升了企业管理效率,降低了企业管理成本。
3.2 社会效益
传统的服务改善策略的制定是基于相关问卷、电话回访的反馈数据,由于数据的局限性和采样的偏态性,导致所制定的服务优化方案与实际需求不匹配,仅能满足部分受众体,大数据智能语义分析系统可以快速、高效获取社会化数据,涵盖广泛,快速响应社会需求,彰显企业社会形象。4 结语
本文以今日头条、微博、等新闻媒体文章以及相关评论等数据信息出发,基于分布式爬虫技术获取相应数据,采用分词、关键词提取、文本摘要等自然语言处理算法对文本数据进行挖掘,构建知识图谱,以此为基础构建大数据智能化语义分析系统,让政府或企业从多维度了解新事件、新政策、了解公众或消费者意见,用以辅助政府或企业优化改善现有服务模式、服务流程和服务质量,提升服务质量和效率。
参考文献
[1]黄志敏,曾学文,陈君.一种基于Kademlia 的全分布式爬虫
集方法[J].计算机科学,2011(03).
[2]王丽坤,王宏,陆玉昌.文本挖掘而及其关键技术与方法[J].
计算机科学 ,2012(12):12-19.
[3]谌志,张国煊.文本挖掘研究进展[J].智能识别与人工智
能,2005(1):65-74.
[4]丁连红,孙斌,时鹏.知识图谱复杂网络特性的实证研究与分
析[J].物理学报,2019(12).
scrapy分布式爬虫[5]方阳,赵翔,谭真,杨世宇,肖卫东.一种改进的基于翻译的
知识图谱表示方法[J].计算机研究与发展,2018,55(1):139-150.
[6]于戈,谷峡,鲍玉斌.云计算环境下的大规模图数据处理技术
[J].计算机学报,2011,34(10):1753-1767.作者简介
张阳(1970-),男,浙江省温州市人。大学本科学历,现任职于国网浙江苍南县供电有限责任公司,高级技师、工程师。研究方向为工单管控。
王贻欣(1980-)男,浙江省温州市人。大学本科学历,高级工、工程师,研究方向为信息技术。
张杨(1989-)男,湖南省娄底市人。硕士研究生,工程师,研究方向为数据价值分析与挖掘。
陈强(1993-)男,浙江省温州市人。大学本科学历,高级工、助理工程师,研究方向为配网前期规划、数据挖掘。
蔡钺(1994-)男,浙江省温州市人。 大学本科学历,初级工程师,研究方向为信息安全。
图3:构建知识图谱