Spark实践——基于SparkStreaming的实时日志分析系统--688IT编程网

Spark实践——基于SparkStreaming的实时⽇志分析系统

本⽂基于《Spark 最佳实践》第6章 Spark 流式计算。

我们知道⽹站⽤户访问流量是不间断的，基于⽹站的访问⽇志，即 Web log 分析是典型的流式实时计算应⽤场景。⽐如百度统计，它可以做流量分析、来源分析、⽹站分析、转化分析。另外还有特定场景分析，⽐如安全分析，⽤来识别 CC 攻击、 SQL 注⼊分析、脱库等。这⾥我们简单实现⼀个类似于百度分析的系统。

1.模拟⽣成 web log 记录

在⽇志中，每⾏代表⼀条访问记录，典型格式如下：

分别代表：访问 ip，时间戳，访问页⾯，响应状态，搜索引擎索引，访问 Agent。

简单模拟⼀下数据收集和发送的环节，⽤⼀个 Python 脚本随机⽣成 Nginx 访问⽇志，为了⽅便起见，不使⽤ HDFS，使⽤单机⽂件系统。

⾸先，新建⽂件夹⽤于存放⽇志⽂件

然后，使⽤ Python 脚本随机⽣成 Nginx 访问⽇志，并为脚本设置执⾏权限, 代码见

设置可执⾏权限的⽅法如下

scala python

之后，编写 bash 脚本，⾃动⽣成⽇志记录，并赋予可执⾏权限，代码见

赋予权限

执⾏ genLog.sh 查看效果，输⼊ ctrl+c 终⽌。

2.流式分析

创建 Scala 脚本，代码见

3.执⾏

同时开启两个终端，分别执⾏ genLog.sh ⽣成⽇志⽂件和执⾏ WebLogAnalyse.scala 脚本进⾏流式分析。执⾏ genLog.sh

执⾏ WebLogAnalyse.scala, 使⽤ spark-shell 执⾏ scala 脚本

效果如下，左边是 WebLogAnalyse.scala，右边是 genLog.sh

发表评论

688IT编程网

Spark实践——基于SparkStreaming的实时日志分析系统

发表评论

推荐文章

如何创建数据库(一)2024

C语言与SQL server连接

《数据库及其应用》实验报告

sql数据库名词解释

数据库应用实验报告创建数据库和表以及表操作

热门文章

实验三数据库和数据表的创建

ms sql数据库语句

sql数据库建表---精品管理资料

四六级翻译--中国文化

大学英语unit5true-height原文与翻译

九下仁爱英语课文翻译

汉英翻译中的冗余现象

古代思想-儒家-孔子英文介绍

4翻译目的论视角下的汉语典籍英译——以《论语》英译为例

2023年总结英语翻译(4篇)

Unit 5 Overcoming obstacles 课本翻译

Rain Drops文本歌词

音乐之声歌词

教育的名言英文改变一个人的性格

(完整word版)英汉语句法结构比较与对比

人工智能吴飞基于树搜索的贪婪最佳优先搜索例题

LabVIEW常用中英文词汇对照表

双语故事马克吐温给年轻人的忠告

WOW-宏-API(全,中文)

汉语和英语的不同

最新文章

数据库应用实验报告创建数据库和表以及表操作

mirdip数据库使用方法

数据库表名称创建规则

SQL语句创建学生信息数据库表的示例53742

idea查看数据库建表语句

数据库原理及应用实验报告(1)

标签列表

688IT编程网

Spark实践——基于SparkStreaming的实时日志分析系统

发表评论

推荐文章

如何创建数据库(一)2024

C语言与SQL server连接

《数据库及其应用》实验报告

sql数据库名词解释

数据库应用实验报告创建数据库和表以及表操作

热门文章

实验三 数据库和数据表的创建

ms sql数据库语句

sql数据库建表---精品管理资料

四六级翻译--中国文化

大学英语unit5true-height原文与翻译

九下仁爱英语课文翻译

汉英翻译中的冗余现象

古代思想-儒家-孔子英文介绍

4翻译目的论视角下的汉语典籍英译——以《论语》英译为例

2023年总结英语翻译(4篇)

Unit 5 Overcoming obstacles 课本翻译

Rain Drops文本歌词

音乐之声歌词

教育的名言英文改变一个人的性格

(完整word版)英汉语句法结构比较与对比

人工智能吴飞基于树搜索的贪婪最佳优先搜索例题

LabVIEW常用中英文词汇对照表

双语故事马克吐温给年轻人的忠告

WOW-宏-API(全,中文)

汉语和英语的不同

最新文章

数据库应用实验报告创建数据库和表以及表操作

mirdip数据库使用方法

数据库表 名称创建规则

SQL语句创建学生信息数据库表的示例53742

idea查看数据库建表语句

数据库原理及应用实验报告(1)

标签列表

实验三数据库和数据表的创建

数据库表名称创建规则