期末试卷A
____________________  学年第一学期
考试课程:数据清洗
课程代码:
考试形式:闭卷考试
考试班级:20大数据
命题教师:
教研室主任:
系(院)主任:教务处长:
学院
2020—2021学年第一学期辅修试卷
《数据清洗A》(课程代码:)
考试时间:120分钟总分:100分
一、名词解释题(每题5分,共10分)
1、数据的标准化
2、数据集成
二、选择题(每空2分,共10分)
1、噪声数据主要包含错误数据、假数据和()
A、异常数据numpy是什么数据类型
B、真实数据
C、污染数据
D、都对
2、、特征二值化的核心在于设定一个()
A、元素
B、阈值
C、元素
D、关键值
3、定性特征哑编码又称为独热码,它用不同的()对应不同的数据值。
A、数据
B、数值
C、状态
D、节点
4、数据压缩是指在()前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。()
A、不丢失有用信息的
B、不丢失所有信息的
C、不丢失真实信息的
D、以上三个都是
5、在Python在,GroupBy对象的用途是()。
A、执行分割-应用-组合操作
B、执行排序操作
C、执行定位操作
D、都不
三、简答题(每题8分,共48分)
1.描述数据归约思想及实现。
2、描述回归法主要思想。
3、描述大数据采集的特点。
4、请写出8个以上的Excel中用于数据清洗的函数
5、什么是数据类型?有哪些常见的数据类型?
6、如何使用kettle对数据进行统计分析
四、程序题(每题6分共12分)
1.写出程序用Python读取文本内容
2.创建一个Series,并更新Series的索引
五、论述题(每题20分共20分)
如何使用kettle清洗超出范围的数据?画出流程图并说明含义
答案:
一、名词解释题(每题5分,共10分)
1、数据的标准化
数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。
2、数据集成
数据集成正是将把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
二、选择题(每空2分,共20分)
ABCAA
三、简答题(每题8分,共32分)
1.数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)。数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。
一般而言,原始数据可以用数据集的归约表示。尽管归约数据体积较小,但它仍接近于保持原始数据的完整性。
2.回归法是试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。线性回归涉及出拟合两个属性(或变量)的“最佳”直线,使得一个属性可以用来预测另一个。非线性回归是线性回归的扩充,其中涉及的属性多余两个,并且数据拟合到一个多维曲面。
3.大数据采集与一般的传统采集不同,大数据的采集过程的主要特点和挑战是并发数高,因为同时可能会有成千上万的用户在进行访问和操作。例如,火车票售票网站、飞机票售票网站和淘宝网站的并发访问量在峰值时可达到上百万甚至是上千万,所以在采集端需要部署大量数据库才能对其支撑。并且在这些数据库之间进行负载均衡和分片是需要深入的思考和设计的。
此外,根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需要,大数据采集时大多都使用了大数据的处理模式,即MapReduce分布式并行处理模式或是基于内存的流式处理模式。
4.FIND 函数、SEARCH 函数、REPLACE 函数、UBSTITUTE 函数、LEFT 函数、RIGHT 函数、MID函数、DOLLAR函数。
5.数据类型是指是一个值的集合和定义在这个值集上的一组操作的总称。它的出现是为了把数据分成所需内存大小不同的数据,以便于程序的运行。通常可以根据数据类型的特点将数据划分为不同的类型,如原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型等。在每种编程语言和数据库中都有不同的数据类型。
常见的数据类型主要包含有:数值型、日期型、时间性、字符串型、逻辑型以及文本型
6.成功运行kettle后在菜单栏单击文件,在“新建”中选择“转换”选项,在“输入”中选
择“Excel输入”选项,在“统计”中选择“单变量统计”选项进行分析