基于Hadoop的通用流感预测研究
作者:杜舒舒 赖振意 马衡 钱昔勇
来源:《电子技术与软件工程》2016年第10
        要日前,公共卫生问题在国际范围内成为热点,流感预测系统的数据数量过大,来源繁多,其数据的处理,存取速度偏低。为改善此状况本研究利用计算机技术预测流感的爆发时间及程度:基于分布式平台,非结构化数据库和爬虫技术,一定程度上解决了数据来源,处理,存取速度的问题。实验表明该研究可以较好的预测流感的爆发趋势。
        【关键词】大数据 网络爬虫 分布式平台 非结构型数据库 地图应用
        随着互联网的深入应用,数据爆炸式增长,我们需要从这些数据中挖掘有价值的信息,帮助人们发现早期的疾病暴发。2013年流行病学调查显示,80%左右的人感染H7N9禽流感病例有明确的活禽市场暴露史,说明对大数据的处理有利于医学研究。日前,Google仅实现数据统计,百度大数据只有疾病预测框架。
        我们要考虑:大数据的多元异构性,数量过大,难以分析和存储。从数据来源直至最后的直观显示,是一个缓慢繁杂的过程,很难构成一套体系。
        本文建立流感预测模型,通过爬虫使数据同构化,使用HadoopCassandra技术,以Google API为辅给用户带来直观方便的使用体验。
        1 研究框架
        1.1 设计与流程
        基于分布式,采用爬虫、非结构化数据库和地图构建研究系统并进行相关实验。
        通过爬取网络信息得到流感数据,对数据进行整理运算,在伪分布平台下,利用相关存储结构及计算框架得到所需结果;将结果存储在非结构型数据库并在地图中显示,根据用户地理信息查询信息;利用SIR模型计算流感比例,告知流感程度。
        1.2 网络爬虫
        利用爬虫,从指定URL开始,发送请求,用正则表达式匹配链接内容,得到有效链接,将其存储到待抓取队列,解析该队列,下载对应网页。将已解析的URL放进已抓取队列,避免重复抓取。
        1.3 搭建分布式平台
        研究基于Hadoop,流程由图一给出,其中包含两个部分:
        1)实现对原始数据进行初步加工,出每个地区每星期的患病人数,并按照日期排序,为每个国家及国家各个地区建立索引;
        2)计算出每个国家每个地区每隔一星期的人数差值,从而方便对疾病爆发趋势进行分析,对记录进行分组,并出同一组记录间的差值。
        1.4 非关系型数据库
        使用非关系型数据库,采用客户端来进行客户端和数据库的通信,同时编写接口供后台系统查询,构建三个列族来存储流感数据:
        1CityPopulation——存储每个城市各个时期的人口;
        2CityFluerNumber——存储每个城市各个时期患流感的人数;
        3CityFluLevel——存储每个城市各个时期的流感等级。
        2 预测流感模型的应用
        本文基于Hadoop,利用PythonCassandraGoogleMap API实现该研究,在此基础上进行仿真实验:实验使用SIRpython正则表达式爬虫仓室模型,使用20151月到4月巴西登革热流感数据进行预测,表一给出对比,图二给出趋势预测与实际对比图,结果表明:
        1)预测趋势与实际流感趋势相似;
        2)对于增幅或降低明显的数据预测结果更加准确;
        3)若人数变化不明显会影响预测结果,相对于变化趋势偏高。
        3 结束语
        通过研究和实验表明,基于分布式平台对流行病大数据进行处理分析可以相当可靠的预测爆发程度和趋势。该研究克服了不能存储分析过大数据的不足,利用非结构化数据库与分布式平台快速有效的分析大数据,得到结论。当前研究仅适用一种流行病预测,之后只需要更改部分模型,可适用于各大方面大数据分析。
        参考文献
        [1]Gao RCao BHu Yet al.Human infection with a novel avian-origin influenza AH7N9 virus[J].New England Journal of Medicine201336820):1888-1897.
        [2]X JianguoL ShanW HaiyinC Chen.Reducing exposure to avian influenza H7N9[J].Lancet20133819880):1815-1816.
        [3]卢珊,陈晨,于伟文,等.利用网络爬虫技术分析我国活禽贸易与H7N9禽流感病毒传播的关系[J].中华流行病学杂志,2014353.
        [4]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,20151.
        [5]董新华,李瑞轩,周湾湾,等.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,201350z2.
        [6]Kermack W OMckendrick A G. Contributions to the Mathematical Theory of Epidemics Part I[J]. Bulletin of Mathematical Biology 1991531-2):33-55.
        作者单位
        新疆大学软件学院 新疆维吾尔自治区乌鲁木齐市 830000