《文本挖掘技术》课程教学大纲--688IT编程网

《文本挖掘技术》课程教学大纲

一、课程基本信息

课程编号：12183

课程名称：文本挖掘技术

英文名称：Text mining technology

课程类型：专业课

课程要求：选修

学时/学分：48/3（讲课学时：32 实验学时：16）

先修课程：概率论与数理统计、线性代数理论与应用、Python语言程序设计、R语言与应用统计分析

后续课程：毕业设计

适用专业：数据科学与大数据技术

二、课程描述

“文本挖掘技术”是数据科学与大数据技术专业的选修课。作为一种跨领域的应用，文本挖掘综合运用信息检索、信息提取、计算语言、自然语言处理、数据挖掘等多种技术，从非结构或半结构的文本中挖掘出先前未知、隐含而有用的信息。本课程主要讲授文本挖掘中的关键技术，包括文本特征选择、信息采集、文本分类、文本聚类、情感分析、短文本计算、文本关联分析等。以互联网上收集的数据为背景，引导学生利用Python语言和R语言编制程序在实务案例中进行文本挖掘。通过本课程的学习，使学生能够了解文本挖掘技术的应用领域，掌握文本挖掘的基本处理和分析方法，进而为大数据领域的数据分析和数据挖掘应用打下坚实的基础。

三、课程教学目标

1.了解文本挖掘的基本思想和基本技术，能够基于文本挖掘的原理并采用文本特征选择、文本分类、文本聚类、文本关联分析等一系列方法对复杂文本挖掘问题进行研究，包括算法设

计、程序设计、分析与结果解释、并通过信息综合得到合理有效的结论。（支持毕业能力要求2）

2.掌握以Python语言和R语言为工具的数据分析与挖掘系统的开发和设计方法，并能够针对相对复杂的文本挖掘系统设计解决方案，编写程序进行求解。（支持毕业能力要求1）

四、教学内容、安排及教学目标得对应关系

序号	教学内容	教学要求	学时	教学方式	对应课程教学目标
1	一、绪论 1.1 文本挖掘研究背景及意义 1.2 文本挖掘概述 1.3 整合文本挖掘与数据挖掘	(1)了解文本挖掘研究背景、研究现状、应用领域和发展趋势；(2)能够阐述文本挖掘的过程和文本挖掘核心技术；(3)能够对文本挖掘和数据挖掘进行对比。	4	讲授	1
2	二、文本特征选择 2.1 常用的文本特征权重计算方法 2.2文本特征选择方法	(1)了解文本的表示方法；(2)掌握常用的文本特征权重计算方法；(3)能够阐述3种文本特征选择方法的基本思想并能恰当运用。	4	讲授	2
3	上机实验：验证文本特征选择性能	能够运用Python语言实现3种文本特征选择方法，并进行性能比较。	2	实验	2
4	三、文本挖掘之爬虫 3.1 Rfacebook、Rweibo、R Twitter介绍 3.2 网页爬虫 3.3 SpideR	(1)了解Rfacebook、Rweibo、R Twitter的基本功能；(2)熟悉并会使用爬取一般网页文字和PPT网页文字的实现程序；(3)能够阐述SpideR的工作模式。	4	讲授	1
5	上机实验：网页爬虫	能够运用R语言编写程序在网页上爬取数据。	2	实验	2
6	四、文本分类 4.1 常用的文本分类器 4.2 基于粗糙集理论的文本分类研究 4.3 ID3算法的优化	(1)掌握KNN、SVM、Rocchio、Navie Bayes、决策树等五种分类器的性能；(2)理解粗糙集抽取分类规则；(3)ID3算法的改进原理。	4	讲授	2
7	五、基于监督和半监督的文本情感分类 5.1 常用的监督和半监督文本分类算法 5.2 基于带先验的最大熵歌词情感分类 5.3 基于图的半监督学习文本情感分类算法	(1)了解常用的监督和半监督文本分类算法的基本思想；(2)了解基于带先验的最大熵歌词情感分类算法的实现过程；(3)了解基于图的半监督学习文本情感分类算法的实现过程。	4	讲授	2
8	上机实验：Navie Bayes文本分类	能够在Python语言环境中实现Navie Bayes文本分类方法。	4	实验	2
9	六、文本聚类 6.1 主要聚类方法 6.2 K-Means算法的改进 6.3 无监督文本特征选择方法	(1)理解几类聚类方法的基本思想；(2了解使用ISA算法对K-Means算法的改进思想； (3)能够阐述无监督文本特征选择方法的基本思想。	4	讲授	2
10	上机实验：K-Means算法实现	能够在Python语言环境中实现K-Means聚类算法。	4	实验	2
11网页开发课程	七、基于统计语言模型的短文本计算 7.1 文本信息处理 7.2 基于N-gram的特征提取和RPCL的短文本聚类算法	(1)了解文本表示模型和文本特征项权重计算；(2)能够通过N-gram的特征提取和RPCL的短文本聚类算法评价文本挖掘的性能指标。	4	讲授	2
12	八、文本关联分析 8.1 文本关联规则 8.2 频繁项集挖掘算法 8.3 文本关联规则挖掘	(1)了解文本关联规则的基本思想；(2)能够阐述Apriori和FP-Growth两种频繁项集挖掘算法的基本原理； (3)能够说明N个最频繁项集挖掘算法和TOP-NSetlnvertedLIst算法的分析过程。	4	讲授	2
13	上机实验：关联分析Apriori算法实现	能够在Python语言环境中实现关联分析Apriori算法。	4	实验	2

五、其他教学环节（课外教学环节、要求、目标）

1.自学

文本挖掘之爬虫在授课前自学授课内容，能够掌握Rfacebook、Rweibo、R Twitter基本功能。

2.运用

在文本分类基于监督和半监督的文本情感分类、文本聚类、文本关联分析单元学习后，自行收集资料，阅读文献，分别对某个有实际工程背景的应用问题设计解决方案。

六、教学方法

1. 基于项目案例展开教学，预先设置学习目标，每部分知识学习和技能掌握随课程进程展开，所学内容直接用于解决实际问题。

2. 综合运用各种教学手段，包括电子教案、工程环境、实验平台、网络课堂等，构建立体化的教学环境，引进优质教学资源，促进学生的个性化学习和动手能力的提升。

3. 采用讲授、讨论、集中讲授和分组实验等教学组织形式，有效地调动学生学习的积极性，促进学生积极思考，激发学生的潜能。

4. 利用课外作业加深和拓展技能，提高针对复杂数据管理问题的实验设计、分析与解释、通过信息综合得到有效结论，和独立解决问题的能力。

七、学习评量

最终成绩由平时作业成绩、实验成绩、期末成绩等组合而成。各部分内容及所占比例如下：

1.平时成绩（30%）

(1)平时作业成绩：10%。主要考核对重要知识点的复习、理解和掌握程度；以答题数量和正确率为评价标准。

(2)实验成绩：20%。主要考核学生实验情况。共分为4次实验，每次实验5分。

2. 期末考试成绩（70%）

主要考核分布式计算系统的基本原理和应用。书面考试形式。题型包括：选择题、填空题、简答题、综合题等。

八、教学资源

1．教材

[1]朱颢东．文本挖掘中若干核心技术研究．北京理工大学出版社，2017．

2. 参考数目

[1]谢邦昌等．文本挖掘技术及其应用．厦门大学出版社，2016．

[2]何慧等．Web文本挖掘技术理论与应用．电子工业出版社，2017．

688IT编程网

《文本挖掘技术》课程教学大纲

发表评论

推荐文章

创新的英语作文优秀8篇

c++inorder用法

新托福TPO11阅读原文

Mergersandacquisitionsoffinancialrisks

1998年~2004年考研英语一阅读理解第二部分

热门文章

消防疏散演练通知英语作文

英语作文四级主体

AVATAR

Games in the Teaching of English ☆(3)

in组成的短语之欧阳德创编

2020四六级备考必背翻译

in组成的短语

高中英语真题-阅读理解寒假训练(5)

Marketing Reaearch

[整理]拉曼光谱在催化中的应用

河南省济源平顶山许昌2021-2022学年高三上学期第一次质量检测英语试题...

发那科机器人CC-LINK通讯配置

SEOquake的使用方法

GSD文件使用指南

Trailing link beam suspension

[转载]DC中target_library和link_library的区别

Link-16数据链的智能干扰技术分析

英语优秀短文An American study has shown a link

V-belt

The Call of Cthulhu

最新文章

创新的英语作文优秀8篇

新托福TPO11阅读原文

Mergersandacquisitionsoffinancialrisks

1998年~2004年考研英语一阅读理解第二部分

计算机求职信范文英文3篇

order的用法例句

标签列表