数据仓库与数据挖掘技术考试试题
中国矿业大学银川学院期末考试试题
2010至2011学年第2学期
考试科目数据仓库与数据挖掘学分 2 年级2008
系机电动力与信息工程系专业计算机
一、填空题(15分)
1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,
其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)
6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)
A 分类
conf
B 关联
C 估值
D 预言
7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)
A 数据抽取
B 数据转换
C 数据加载
D 数据稽核
8.数据分类的评价准则包括(ABCD )
A 精确度
B 查全率和查准率
C F-Measure
D 几何均值
9.层次聚类方法包括(BC )
A 划分聚类方法
B 凝聚型层次聚类方法
C 分解型层次聚类方法
D 基于密度聚类方法
10.贝叶斯网络由两部分组成,分别是( A D )
A 网络结构
B 先验概率
C 后验概率
D 条件概率表
三、计算题(30分)
11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)
解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:
(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:
至此,所有频繁集都被到,算法结束,
所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf min
confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min
所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
12.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)
解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:
(2)对于X中的任意数据样本x m(1<="">
当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。
最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12:
(4)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离< p="">
最近的初始代表点所表示的类别中:当m1=2.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。
当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。
最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。