数据仓库与数据挖掘技术考试试题--688IT编程网

数据仓库与数据挖掘技术考试试题

中国矿业大学银川学院期末考试试题

2010至2011学年第2学期

考试科目数据仓库与数据挖掘学分 2 年级2008

系机电动力与信息工程系专业计算机

一、填空题（15分）

1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。

3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，

其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。

二、多项选择题（10分）

6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）

A 分类

conf

B 关联

C 估值

D 预言

7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）

A 数据抽取

B 数据转换

C 数据加载

D 数据稽核

8.数据分类的评价准则包括（ABCD ）

A 精确度

B 查全率和查准率

C F-Measure

D 几何均值

9.层次聚类方法包括（BC ）

A 划分聚类方法

B 凝聚型层次聚类方法

C 分解型层次聚类方法

D 基于密度聚类方法

10.贝叶斯网络由两部分组成，分别是（ A D ）

A 网络结构

B 先验概率

C 后验概率

D 条件概率表

三、计算题（30分）

11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min=40%，conf min=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15分）

解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：

(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于sup min的项集，形成2-频繁集L2，如下表所示：

至此，所有频繁集都被到，算法结束，

所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3> conf min

confidence（{ 花生酱}→{面包}）=（3/5）/（4/5）=3/4> conf min

所以，关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

12.给定以下数据集（2 ，4，10，12，15，3，21），进行K-Means聚类，设定聚类数为2个，相似度按照欧式距离计算。（15分）

解：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知k=2，则可设m1=2，m2=4：

（2）对于X中的任意数据样本x m（1<="">

当m2=4时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1，17。

最小距离是1或者-1将该元素放入m1=2的聚类中，则该聚类为（2，3），另一个聚类m2=4为（4，10，12，15，21）。

（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=2.5，m2=12：

（4）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离< p="">

最近的初始代表点所表示的类别中：当m1=2.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-0.5，0.5，1.5，7.5，9.5，12.5，18.5。

当m2=12时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-10，-9，-8，2，3，9。

最小距离是1.5将该元素放入m1=2.5的聚类中，则该聚类为（2，3，4），另一个聚类m2=12为（10，12，15，21）。

688IT编程网

数据仓库与数据挖掘技术考试试题

发表评论

推荐文章

自己学校五年前和现在的变化英语作文

zoomrooms和zoom的区别

去研学旅行要带的学习用品的英语作文

我的奇思妙想折叠电脑作文400字

雅思口语物品类词汇

热门文章

NoSQL数据库与关系数据库的比较分析

我的学校以前和现在的未来的变化英语作文

视频格式mkv、mp4、avi、flv、mov、wmv、webm特点和区别

托福写作话题解析之科技

关于数码产品对大学生的影响的英语作文

物联网经验介绍

网课受到学生欢迎的原因英语作文

网上教学的好处和坏处英语作文初中

过去和现在的变化英语作文6年级6句

仅供馆内阅读的英文标识

2014年APAC地区在线视频消费报告

万能桌子作文400

冀教版八年级英语英语下册重点句子总结

卖二手电脑英语作文

我的奇思妙想作文百变电脑

我每天使用的电子设备的英语作文

平板电脑的好处与坏处作文

Oracle修改字段名、字段数据类型

SQL一个存储过程调用另一个存储过程获取返回值问题

fabric.js设计表格

最新文章

自己学校五年前和现在的变化英语作文

zoomrooms和zoom的区别

去研学旅行要带的学习用品的英语作文

2023年中东及欧洲数字广告发展趋势报告

网课和传统课比较的英语作文150词

USB 3.2 Gen1 Type-C到HDMI 4K适配器(白)说明书

标签列表

688IT编程网

数据仓库与数据挖掘技术考试试题

发表评论

推荐文章

自己学校五年前和现在的变化英语作文

zoomrooms和zoom的区别

去研学旅行要带的学习用品的英语作文

我的奇思妙想折叠电脑作文400字

雅思口语 物品类词汇

热门文章

NoSQL数据库与关系数据库的比较分析

我的学校以前和现在的未来的变化英语作文

视频格式mkv、mp4、avi、flv、mov、wmv、webm特点和区别

托福写作话题解析之科技

关于数码产品对大学生的影响的英语作文

物联网经验介绍

网课受到学生欢迎的原因英语作文

网上教学的好处和坏处英语作文初中

过去和现在的变化英语作文6年级6句

仅供馆内阅读的英文标识

2014年APAC地区在线视频消费报告

万能桌子作文400

冀教版八年级英语英语下册重点句子总结

卖二手电脑英语作文

我的奇思妙想作文百变电脑

我每天使用的电子设备的英语作文

平板电脑的好处与坏处作文

Oracle修改字段名、字段数据类型

SQL一个存储过程调用另一个存储过程 获取返回值问题

fabric.js设计表格

最新文章

自己学校五年前和现在的变化英语作文

zoomrooms和zoom的区别

去研学旅行要带的学习用品的英语作文

2023年中东及欧洲数字广告发展趋势报告

网课和传统课比较的英语作文150词

USB 3.2 Gen1 Type-C到HDMI 4K适配器(白)说明书

标签列表

雅思口语物品类词汇

SQL一个存储过程调用另一个存储过程获取返回值问题