《大数据技术导论》课程教学大纲
TechnoIogy of Cloud Computing and Big Data
一、课程基本情况
课程编号:
课程类别:专业基础课
课程学分:3学分
课程总学时:48学时,其中讲课:32学时,实验(含上机):16学时
课程性质:考试
开课学期:第1学期
先修课程:大学生计算机基础
适用专业:大数据技术、计算机应用技术、人工智能技术应用相关专业
教 材:大数据技术导论(第2版),程显毅任越美主编,机械工业出版社,2022.8 开课单位:计算机科学与技术学院
二、课程性质、教学目标和任务
《大数据技术导论》课程是计算机应用技术专业、大数据技术专业、人工智能技术应用 专业必修的一门基础课程,具有很强的实践性和应用性。主要培养学生大数据平台运维、大 数据分析和数据可视化基本思想和基本技能,为后续的数据挖掘应用性课程和数据产品开发 课程的学习打好编程基础。
本课程设置的目的是通过对Hadoop, HDFS, MapReduce, HBase, Hive的学习,较好地训练 学生大数据平台运维、数据分析和数据展现,使学生具有数据分析和数据展现的能力,为培 养学生有较强数据开发能力打下良好基础。
本课程的思政目标
1)理解全量思维源自量变到质变,大事业都是从点滴小事情积累起来的。
2)理解相关思维是善于抓机遇,良机只有一次,错过就不再来。
3)理解容错思维源理解和大度,学习别人的优点,完善自身。
4)理解数据分析源自发现人生价值,在有限生命中实现无限价值的人生。
5)理解数据敏感源自用数据讲故事,用数据展现祖国的发展,感受祖国的强大。
6)理解分布式处理源自协作,合作可以充实你的人生。
7)理解数据清洗源自质量第一,保证在激烈竞争中利于不败之地。
8)理解业务理解源自知己知彼,莫愁前路无知己,天下谁人不识君。
9)理解数据安全源自责任重于泰山,少年智则国智,少年强则国强。
10)理解大数据让世界变得透明源自自知者明,最难了解的自己。
三、教学内容和要求
1.概论(8学时)
(1)了解大数据技术产生的历史必然;
(2)理解大数据的特征;
(3)理解大数据生命周期;
(4)理解大数据、云计算、物联网之间的相互关系;
(5)了解大数据带来的变革;
(6)理解大数据思维的基本原理;
(7)理解数据的价值;
(8)熟练安装部署虚拟机;
(9)掌握LinUX常用操作;
目的:通过上述知识的学习,使学生了解大数据基本概念、特征、思维、工具和技术。
重点:LinUX操作;
难点:虚拟机部署。
2.大数据生态系统(8学时)
(1)理解大数据生态IIadOOp;
(2)部署伪分布式HadOOP环境;
(3)掌握HDFS分布式文件系统的结构;
(4)掌握HDFS SheII基本操作;
(5)理解HDFS读写原理;
(6)理解MaPRedUCe结构及原理
(7)掌握MaPRedUCe编程模型
(8)理解词频统计经典案例的MapReduce思想;
(9)理解 ZookeePer 原理;
(10)部署 ZookeePer;
目的:通过上述知识的学习,使学生了解大数据生态组件,认识HadoOP,熟练HDFS基 本操作、基本掌握MaPredUCe编程。
重点:HadoOP组件,HDFS操作;
难点:MaPredUCe编程。
3.大数据采集与预处理(6学时)
(1)了解数据分类、度量和维度;
(2) 了解数据采集及其分类;
(3)掌握日志采集组件FIUme部署及其应用;
(4) 了解数据清洗的作用及其方法;
(5)理解缺失值、异常值;
(6)掌握数据规范化方法;
(7)掌握数据透视表原理;
(8)掌握列联表、聚合表的应用;
(9)了解特征编码的作用及其方法;
目的:通过上述知识的学习,使学生了解数据清洗相关技术和过程,了解数据变换相关 技术和过程,掌握日志采集组件FlUme部署及其应用。
重点:日志采集组件FIUme部署及其应用,数据清洗,数据变换;
难点:数据清洗,数据变换。
4.大数据管理(4学时)
(1)理解 NoSQL 与 RDBMS;
(2)认识HBaSe数据库;
(3)理解NoSQL与NeWSQ与
(4)掌握HBaSe数据模型;
(5)熟练基于HBaSe的表操作;
目的:通过上述知识的学习,使学生掌握HBaSe表操作及数据结构,了解NOSQL分类。
重点:HBaSe表操作;
难点:HBaSe数据结构。
5.大数据可视化技术(6学时)
(1)了解数据可视化概念和作用
(2)理解可视化建议;
(3)了解图表的作用;
(4)能用图表讲故事;
(5)了解可视化工具FineRePOrt;
目的:通过上述知识的学习,使学生了解常用图表的使用方法。
重点:绘制散点图、直方图、气泡图、面积图、密度图等。
难点:FineReporto
6.大数据分析(8学时)
(1)理解数据分析师素养;
(2)理解大数据分析流程;
(3)了解数据分析要素;
(4)了解业务理解的意义;
(5)掌握数据认知方法;
(6)掌握SPark机构及其基本原理;
(7)部署 SPark;
(8)掌握SCale编程及其应用;
(9)掌握HiVe基本原理和基本操作;
目的:通过上述知识的学习,使学生掌握大数据分析流程和相关技术;
hbase应用案例重点:SCaIe编程及其应用,hive的基本操作;
难点:业务理解。
7.大数据应用(6学时)
(1)理解电商大数据及应用场景;
(2)理解交通大数据及应用场景;
(3)理解医疗大数据及应用场景;
(4)了解农业大数据及应用场景;
(5)了解环保大数据及应用场景;
(6)了解教育大数据及应用场景;
(7)了解政府大数据及应用场景;
(8)了解工业大数据及应用场景;
目的:通过上述知识的学习,使学生在遇到实际问题时该如何分析和建模。
重点:场景认知。
难点:能根据具体应用场景给出数据分析基本思路。
8.大数据安全(2学时)
(1)了解大数据安全的意义和面临的挑战;
(2)理解安全威胁的种类和特征;
(3)了解大数据安全技术;
(4)了解大数据安全架构;
四、课程考核
(1)作业和报告:作业:至少5次
(2)考核方式:笔试
(3)总评成绩计算方式:平时成绩30% (考勤、实验报告、期中考试各占10%),期末考试
70%<.
五、参考书目
(1)大数据技术基础中科普开编著清华大学出版社,2017.7
(2)大数据技术入门杨正洪编著清华大学出版社,2017.8
(3)大数据数据管理与管理工程 赵眸光编著清华大学出社,2017.6
制定人:    审定人:    批准人:
年月6日制定