一、单项选择题
Df.read_csv()的header=None表示源文件没有索引,read_csv会自动加上列索引
1、影响数据质量问题的因素有哪些 (  D  )
A、准确性、完整性、一致性
B、相关性、时效性
C、可信性、可解释性
D、以上都是
2、以下说法错误的是B  )
A、数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约。
B、数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。
C、冗余数据的删除既是一种数据清理形式,也是一种数据归约。
D、整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。
3、处理噪声的方法一般有(  D  )
A、分箱
B、回归
C、聚类
D、以上都是
4、数据集成的过程中需要处理的问题有(  D  )
A、实体识别
B、冗余与相关性分析
C、数据冲突和检测
D、以上都是
5、影响数据质量问题的因素有哪些(  D )
A、准确性、完整性、一致性
B、相关性、时效性
C、可信性、可解释性
D、以上都是
6、数据归约的方法有(  D  )
A、维归约
B、数量归约
C、数据压缩
D、以上都是
7、以下说法错误的是C  )
A、主成分分析、属性子集选择为维归约方法.
B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。
C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。
D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。
8、影响数据质量问题的因素有哪些(  D  )
A、准确性、完整性、一致性
B、相关性、时效性
C、可信性、可解释性
D、以上都是
9、下列关于为什么要做数据清理描述错误的是D  )
A 数据有重复
B数据有错误
C数据有缺失
D数据量太大
10下列关于数据清理描述错误的是A  )
A数据清理能完全解决数据质量差的问题
B数据清理在数据分析过程中是不可或缺的一个环节
C数据清理的目的是提高数据质量
D可以借助Kettle来完成大量的数据清理工作
11、下列关于使用参照表清洗数据说法错误的是B  )
A有些数据无法从内部发现错误,需要结合外部的数据进行参照
B只要方法得当,数据内部是可以发现错误的,不需要借助参照表
C使用参数表可以校验数据的准确性
D使用参照表可以处理数据的一致性
12、下列说法错误的是A  )
A、数据仓库就是数据库。
B、业务键通常来源业务系统
C、事实表加载,先加载维表
D、星型模型各个维表之间没有依赖关系
13、以下说法错误的是C  )
A、雪花模型有多个相互依赖的维表,加载时注意先后顺序
B、雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表
C、事实表和维表之间通过业务键关联
D、雪花模型的主维表维表之间N对1的关系
14、以下说法错误的是C  )
A、时间、日期维属于生成
B、混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂
C、杂项的属性通常可以分为特定的几个分类
D、类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录
15、假定属性income的最小与最大值分别为25000和3000,根据最小最大规范化方法将income 10000映射到[0,1]范围内,值为A )
A、0.318
B、0.3
C、1.68
D、3.43
16、转换创建并保存后的文件后缀名是( Ajava的环境变量配置  )
A、ktr
B、kjb
C、kbj
D、krt
17、数据库通常可分为两大类型,一类是基于SQL的     型数据库,另一类被称为NoSQL,属于     型数据库( C  )
A、非关系、非关系
B、非关系、关系
C、关系、非关系
D、关系、关系
二、填空题