大数据技术基础》课程教学大纲
一、课程基本信息
课程代码:16176903
课程名称:大数据技术基础
英文名称:Fundamentals of Big Data Technology
课程类别:专业课   
    时:48
    分:3
适用对象: 软件工程,计算机科学与技术,大数据管理
考核方式:考核
先修课程:计算机网络,云计算基础,计算机体系结构,数据库原理,JAVA/Python程序设计
二、课程简介
 
当前在新基建和数字化革命大潮下,各行各业都在应用大数据分析与挖掘技术,并紧密结合机器学习深度学习算法,可为行业带来巨大价值。这其中大数据处理与开发框架等大数据技术是进行数字化,数智化应用建设的核心和基础,只有努力提升大数据处理与开发技术与性能,建立行业数字化和智能化转型升级才能成功。大数据处理与开发技术是新基建和数字化革命核心与基础。
hbase应用案例大数据技术基础课程,为学生搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据领域“深耕细作”奠定基础、指明方向。课程将系统讲授大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、基于内存的大数据处理架构Spark、大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase、MapReduce、Spark等重要章节,安排了入门级的实践操作,让学生更好地学习和掌握大数据关键技术。
同时本课程将介绍最前沿的业界大数据处理与开发技术和产品平台,包括阿里大数据服务平台maxcompute,华为大数据云服务平台FusionInsight,华为高性能分布式数据库集GaussDB等业界最先进技术,以及国家大数据竞赛平台网站和鲸社区。让学生学以致用,紧跟大数据领域最领先技术水平,同时,面对我国民族企业,头部公司在大数据领域取得的巨大商业成功与前沿技术成果应用产生强烈民族自豪感,为国家数字化经济与技术发展努力奋斗,勇攀知识高峰立下志向。
At present, under the tide of new infrastructure and digital revolution, all walks of life are applying big data analysis and mining technology, which is closely combined with machine learning deep learning algorithm, which can bring great value to the industry. Among them, big data technologies such as big data processing and development framework are the core and foundation of digital and intelligent application construction. Only by improving the technology and performance of big data processing and development and establishing digital and intelligent transformation and upgrading of the industry can we succeed. Big data processing and development technology is the core and foundation of new infrastructure and di
gital revolution.
The basic course of big data technology builds a bridge and link to the "big data knowledge space" for students, with the principle of "building knowledge system, clarifying basic principles, guiding primary practice and understanding related applications", laying the foundation and pointing out the direction for students to "deeply cultivate" in the field of big data. The course will systematically teach the basic concepts of big data, big data processing architecture Hadoop, distributed file system HDFS, distributed database HBase, NoSQL database, cloud database, distributed parallel programming model MapReduce, memory-based big data processing architecture Spark, and the application of big data in various fields such as Internet, biomedicine and logistics. In important chapters such as Hadoop, HDFS, HBase, MapReduce, Spark, etc., entry-level practical operations are arranged to enable students to better learn and master key technologies of big data.
At the same time, this course will introduce the most advanced industry big data processing and development technologies and product platforms, including Ali big d
ata service platform maxcompute, Huawei big data cloud service platform FusionInsight, Huawei high-performance distributed database cluster GaussDB, as well as the national big data competition platform website and whale community. Let students apply what they have learned and keep up with the most advanced technology level in the field of big data. At the same time, in the face of our national enterprises, the great commercial success and the application of cutting-edge technological achievements of the head company in the field of big data generate a strong sense of national pride, and strive hard for the development of national digital economy and technology, and set an ambition to climb the peak of knowledge bravely.
三、课程性质与教学目的
大数据处理是高级数据处理和分析技术。本课程包括大数据理论和实践两部分。本课程是专业课,属于高年级专业技术基础应用课程,注重理论和编程实践及应用结合,强调理论和应用性,同时要把大数据技术应用到不同场景和领域,需要跨领域知识,是一门综合性较强,应用类课程。通过本课程学习可达到以下目标:
(1)能够建立对大数据知识体系的轮廓性认识,了解大数据发展历程、基本概念、主要影响、应用领域、关键技术、计算模式和产业发展,并了解云计算、物联网的概念及其与大数据之间的紧密关系;
(2)能够了解Hadoop的发展历史、重要特性和应用现状,Hadoop项目结构及其各个组件,并熟练掌握Hadoop平台的安装和使用方法;
(3)能够了解分布式文件系统的基本概念、结构和设计需求,掌握Hadoop分布式文件系统HDFS的重要概念、体系结构、存储原理和读写过程,并熟练掌握分布式文件系统HDFS的使用方法;
(4)能够了解分布式数据库HBase的访问接口、数据模型、实现原理运行机制,并熟练掌握HBase的使用方法;
(5)能够了解NoSQL数据库与传统的关系数据库的差异、NoSQL数据库的四大类型以及NoSQL数据库的三大基石;基本掌握Redis、MongoDB等NoSQL数据库的使用方法;
(6)能够了解云数据库的概念、基本原理和代表性产品的使用方法;
(7)能够熟练掌握分布式编程框架MapReduce的基本原理和编程方法;
(8)能够了解大数据处理架构Spark的基本原理和编程方法;
(9)能够运用最先进的计算机信息技术,即基于数学原理,算法理论的数据分析和挖掘技术去应用到祖国经济政治建设方方面面,从海量的历史和现实大量社会、经济、生产、生活数据中分析,挖掘出有价值的知识与规律,为进一步提升全社会信息化,数字化,智能化水平,创造更多新的信息化智能化产品和系统,造福人类共同命运体而奠定技术基础和储备
四、教学内容及要求
  第一章  大数据概述
(一)目的与要求
掌握大数据的基本概念和应用领域,并阐述大数据、云计算和物联网的相互关系。           
(二)教学内容
大数据时代,大数据概念,大数据影响,应用,关键技术,计算模式,产业,大数据与云计算,物联网关系。           
(三)思考与实践
掌握大数据概念与思维,并寻生活中大数据实例。
(四)教学方法与手段
课堂讲授为主,结合网络课程辅助,课堂讨论等手段提高教学效果。
第二章 大数据处理架构Hadoop
(一)目的与要求
      掌握Hadoop的基本概念,组件,能够搭建三种模式Hadoop集。
(二)教学内容
      Hadoop简介,项目结构,安装与实用,集部署。阿里云申请实用。
(三)思考与实践
学会安装windows linux双系统,安装windows上linux虚拟机,学会申请使用阿里云学生版。搭建单机版,伪分布式和完全分布式Hadoop集(本地或者阿里云上hadoop集)。
(四)教学方法与手段
课堂讲授为主,结合网络课程辅助,课堂讨论,动手实操等手段提高教学效果。
第三章 分布式文件系统HDFS
(一)目的与要求
    掌握HDFS概念,原理,并可完成编程和命令行操作应用。
(二)教学内容
分布式文件系统概念,HDFS简介,概念,体系结构,存储原理,数据读写过程,编程实践。
(三)思考与实践
可以动手进行hdfs shell命令行操作,完成基于java的HDFS应用开发,解决实际大数据存储问题。
(四)教学方法与手段
课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。
第四章 分布式数据库HBase
(一)目的与要求
    掌握基于Hadoop的分布式数据库组件HBase,可编程开发HBase应用。
(二)教学内容
  HBase概述,访问接口,数据模型,实现原理,运行机制,应用方案,编程实践。
(三)思考与实践
HBase的命令行操作方式及基于JAVA的应用开发,解决实际大数据存储问题。
(四)教学方法与手段
      课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。
第五章 Nosql数据库
(一)目的与要求
      掌握Nosql数据库概念,原理,特点,基本操作方法。