《文本挖掘技术》课程教学大纲
一、课程基本信息
课程编号12183
课程名称文本挖掘技术
英文名称:Text mining technology
课程类型:专业课
课程要求:
学时/学分:48/3(讲课学时:32  实验学时:16
先修课程:概率论与数理统计、线性代数理论与应用、Python语言程序设计、R语言与应用统计分析
后续课程:毕业设计
适用专业:数据科学与大数据技术
、课程描述
“文本挖掘技术”是数据科学与大数据技术专业的修课。作为一种跨领域的应用,文本挖掘综合运用信息检索、信息提取、计算语言、自然语言处理、数据挖掘等多种技术,从非结构或半结构的文本中挖掘出先前未知、隐含而有用的信息。本课程主要讲授文本挖掘中的关键技术,包括文本特征选择、信息采集、文本分类、文本聚类、情感分析、短文本计算、文本关联分析等。以互联网上收集的数据为背景,引导学生利用Python语言和R语言编制程序在实务案例中进行文本挖掘。通过本课程的学习,使学生能够了解文本挖掘技术的应用领域,掌握文本挖掘的基本处理和分析方法,进而为大数据领域的数据分析和数据挖掘应用打下坚实的基础。
课程教学目标
1.了解文本挖掘的基本思想和基本技术,能够基于文本挖掘的原理并采用文本特征选择、文本分类、文本聚类、文本关联分析等一系列方法对复杂文本挖掘问题进行研究,包括算法
程序设计、分析与结果解释、并通过信息综合得到合理有效的结论。(支持毕业能力要求2
2.掌握以Python语言和R语言为工具的数据分析与挖掘系统的开发设计方法,并能够针对相对复杂的文本挖掘系统设计解决方案,编写程序进行求解。(支持毕业能力要求1
四、教学内容、安排及教学目标得对应关系
序号
教学内容
教学要求
学时
教学
方式
对应课程教学目标
1
一、绪论
1.1 文本挖掘研究背景及意义
1.2 文本挖掘概述
1.3 整合文本挖掘与数据挖掘
(1)了解文本挖掘研究背景、研究现状、应用领域和发展趋势;(2)能够阐述文本挖掘的过程和文本挖掘核心技术;(3)能够对文本挖掘和数据挖掘进行对比。
4
讲授
1
2
二、文本特征选择
2.1 常用的文本特征权重计算方法
2.2文本特征选择方法
(1)了解文本的表示方法;(2)掌握常用的文本特征权重计算方法;(3)能够阐述3种文本特征选择方法基本思想并能恰当运用
4
讲授
2
3
上机实验:验证文本特征选择性能
能够运用Python语言实现3种文本特征选择方法并进行性能比较。
2
实验
2
4
三、文本挖掘之爬虫
3.1 RfacebookRweiboR Twitter介绍
3.2 网页爬虫
3.3 SpideR
(1)了解RfacebookRweiboR Twitter的基本功能;(2)熟悉使用爬取一般网页文字和PPT网页文字的实现程序;(3)能够阐述SpideR的工作模式。
4
讲授
1
5
上机实验:网页爬虫
能够运用R语言编写程序在网页上爬取数据。
2
实验
2
6
四、文本分类
4.1 常用的文本分类器
4.2 基于粗糙集理论的文本分类研究
4.3 ID3算法的优化
(1)掌握KNNSVMRocchioNavie Bayes、决策树等五种分类器的性能;(2)理解粗糙集抽取分类规则;(3)ID3算法的改进原理。
4
讲授
2
7
基于监督和半监督的文本情感分类
5.1 常用的监督和半监督文本分类算法
5.2 基于带先验的最大熵歌词情感分类
5.3 基于图的半监督学习文本情感分类算法
(1)了解常用的监督和半监督文本分类算法的基本思想;(2)了解基于带先验的最大熵歌词情感分类算法的实现过程;(3)了解基于图的半监督学习文本情感分类算法的实现过程。
4
讲授
2
8
上机实验:Navie Bayes文本分类
能够在Python语言环境中实现Navie Bayes文本分类方法。
4
实验
2
9
六、文本聚类
6.1 主要聚类方法
6.2 K-Means算法的改进
6.3 无监督文本特征选择方法
(1)理解几类聚类方法的基本思想(2了解使用ISA算法对K-Means算法的改进思想
(3)能够阐述无监督文本特征选择方法的基本思想。
4
讲授
2
10
上机实验:K-Means算法实现
能够在Python语言环境中实现K-Means聚类算法。
4
实验
2
11网页开发课程
基于统计语言模型的短文本计算
7.1 文本信息处理
7.2 基于N-gram的特征提取和RPCL的短文本聚类算法
(1)了解文本表示模型和文本特征项权重计算;(2)能够通过N-gram的特征提取和RPCL的短文本聚类算法评价文本挖掘的性能指标。
4
讲授
2
12
八、文本关联分析
8.1 文本关联规则
8.2 频繁项集挖掘算法
8.3 文本关联规则挖掘
(1)了解文本关联规则的基本思想;(2)能够阐述AprioriFP-Growth两种频繁项集挖掘算法的基本原理; (3)能够说明N个最频繁项集挖掘算法和TOP-NSetlnvertedLIst算法的分析过程。    
4
讲授
2
13
上机实验:关联分析Apriori算法实现
能够在Python语言环境中实现关联分析Apriori算法。
4
实验
2
五、其他教学环节(课外教学环节、要求、目标)
1.自学
文本挖掘之爬虫在授课前自学授课内容,能够掌握Rfacebook、Rweibo、R Twitter基本功能。
2.运用
在文本分类基于监督和半监督的文本情感分类、文本聚类、文本关联分析单元学习后,自行收集资料,阅读文献,分别对某个有实际工程背景的应用问题设计解决方案
六、教学方法
1. 基于项目案例展开教学,预先设置学习目标,每部分知识学习和技能掌握随课程进程展开,所学内容直接用于解决实际问题。
2. 综合运用各种教学手段,包括电子教案、工程环境、实验平台、网络课堂等,构建立体化的教学环境,引进优质教学资源,促进学生的个性化学习和动手能力的提升
3. 采用讲授、讨论、集中讲授和分组实验等教学组织形式,有效地调动学生学习的积极性,促进学生积极思考,激发学生的潜能
4. 利用课外作业加深拓展技能,提高针对复杂数据管理问题的实验设计、分析与解释通过信息综合得到有效结论,和独立解决问题的能力
七、学习评量
最终成绩由平时作业成绩、实验成绩、期末成绩等组合而成。各部分内容及所占比例如下:
1.平时成绩(30%)
(1)平时作业成绩:10%。主要考核对重要知识点的复习、理解和掌握程度;以答题数量和正确率为评价标准。
(2)实验成绩:20%。主要考核学生实验情况。共分为4次实验,每次实验5分。
2. 期末考试成绩(70%
主要考核分布式计算系统基本原理和应用。书面考试形式。题型包括:选择题、填空题、简答题、综合题等。
八、教学资源
1.教材
[1]朱颢东文本挖掘中若干核心技术研究北京理工大学出版社,2017
2. 参考数目
[1]谢邦昌等文本挖掘技术及其应用厦门大学出版社,2016
[2]何慧等Web文本挖掘技术理论与应用电子工业出版社,2017