大数据理论考试(试卷编号162)
说明:答案和解析在试卷最后
1.[单选题]当构建一个神经网络进行图片的语义分割时,通常采用下面哪种顺序()。
A)先用卷积神经网络处理输入,再用反卷积神经网络得到输出
B)先用反卷积神经网络处理输入,再用卷积神经网络得到输出
C)不能确
2.[单选题]()是从(多条)信息中发现的共性规律、模式、模型、理论、方法。
A)信息
B)数据
C)知识
D)智慧
3.[单选题]开发Maxcompute的用户自定义标量函数,主要是实现其中的()方法。
A)evaluate
B)main
C)iterate
D)process
4.[单选题]Spark的集管理模式不包含()。
A)Standalone模式
B)Message模式
C)YARN模式
D)Mesos模式
5.[单选题]大数据计算服务(MaxCompute,原ODPS )中的用户表dim_user是一张非分区表,另外有
一部分新增用户的数据存在user_delta表中,两张表的结构相同,为了在dim_user表中得到全量的用户数据,可以采用()方式
A)select* from user_delta、into dim_user
B)insert into dim_user select* from user_delta union all select*from dim_user
C)insert overwrite table dim_user select*from user_delta
D)insert into table dim_user select* from user_delta
6.[单选题]Python使用()符号标示注释。
A)&
B)*
C)#
7.[单选题]在选择神经网络的深度时,下面那些参数需要考虑()1神经网络的类型(如MLP,CNN)2输入数据3计算能力(硬件和软件能力决定)4学习速率5映射的输出函数
A)1,2,4,5
B)2,3,4,5
C)都需要考虑
D)1,3,4,
8.[单选题]常用的数据归约方法可以分为()。
A)维归约数据压缩
B)维归约参数归约
C)维归约值归约
D)数据压缩值归约
9.[单选题]对连续图像的离散化采样决定了图像的()。
A)空间分辨率
B)时间分辨率
C)地面分辨率
D)灰度
10.[单选题]在pandas中,描述统计信息的是哪个函数()。
A)describe()
B)desc()
C)information()
D)info()
11.[单选题]下列关于文本分类的说法不正确的是()。
A)文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别
B)文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统
C)文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序
D)构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤
12.[单选题]假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,如何花费更少的时间,并给出比较相似的精度()。
A)降低学习率,减少迭代次数
B)降低学习率,增加迭代次数
C)提高学习率,增加迭代次数
D)增加学习率,减少迭代次
13.[单选题]python不支持的数据类型有
C)float
D)list
14.[单选题]下列哪种架构的数据库数据是分布式存储的:
A)share-everything
B)share-disk
C)share-nothing
D)share-anythin
15.[单选题]当Kafka中日志片段大小达到()时,当前日志片段会被关闭。
A)1M
B)100M
C)1GB
D)10G
16.[单选题]读代码,请写出程序正确的答案()。
#!/usr/bin/env python3
N = 100
Sum = 0
Counter = 1
While counter <= n:
Sum + counter
Counter += 1
Print("1 到 %d 之和为: %d" % (n,sum))
A)结果: 1到100 之和为:5000
B)结果: 1到100 之和为:0
C)结果: 1到100 之和为:2050
D)结果: 1到100 之和为:5020
17.[单选题]信息熵是度量()最常用的一种指标。
A)样本的个数
B)样本的维度
C)样本的纯度
D)样本的冗余
18.[单选题]Adaboost的核心思想是()。
A)给定一个弱学习算法和一个训练集,将该学习算法使用多次,得出预测函数序列,进行投票
B)针对同一个训练集训练不同的弱分类器集合起来,构成一个强分类器
C)利用多棵树对样本进行训练并预测的一种分类器
D)基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残差
19.[单选题]关于数据清洗,不正确的说法是()。
A)单数据源,主键取值不能重复
B)多数据源会存在数据重复,单位不一致的问题
C)连续型数据不存在冗余问题
D)缺失值可以采用删除和填补等方法处理
20.[单选题]自然语言理解是人工智能的重要应用领域,下面列举中的()不是它要实现的目标。
A)理解别人讲的话
hbase属于什么数据库
B)对自然语言表示的信息进行分析概括或编辑
C)欣赏音乐
D)机器翻
21.[单选题]Hadoop常用命令中,查看指定目录下的所有文件及子目录的命令是()
A)hdfs dfs -ls [文件目录]
B)hdfs dfs -du [文件目录]
C)hdfs dfs -ls -R [文件目录]
D)hdfs dfs -du -R [文件目录]
22.[单选题]信息增益对可取值数目()的属性有所偏好,增益率对可取值数目()的属性有所偏好。
A)较高,较高
B)较高,较低
C)较低,较高
D)较低,较
23.[单选题]Spark的特点不包括()
A)速度快
B)通用性
C)易用性
D)单一操作性
24.[单选题]关于python类 说法错误的是()。
A)类的实例方法必须创建对象后才可以调用
B)类的实例方法必须创建对象前才可以调用
C)类的类方法可以用对象和类名来调用
D)类的静态属性可以用类名和对象来调用
25.[单选题]假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是()
A)若λ 较大时,偏差减小,方差减小
B)若λ 较大时,偏差减小,方差增大
C)若λ 较大时,偏差增大,方差减小
D)若λ 较大时,偏差增大,方差增
26.[单选题]以下关于异常处理的描述,正确的是()。
A)try 语句中有 except 子句就不能有 finally 子句
B)Python 中,可以用异常处理捕获程序中的所有错误
C)引发一个不存在索引的列表元素会引发 NameError 错误
D)Python 中允许利用 raise 语句由程序主动引发异常
27.[单选题]np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]]),最终的输出结果是()。
A)[[1,4],[9,7]]
B)[[1,3],[9,7]]
C)[[1,8],[3,4]]
D)[[2,9],[3,6]]
28.[单选题]大数据计算服务提供了大数据的存储和计算服务,非常适合应用于大数据分析的领域。以下说法中错误的是:()。
A)可以实现大型互联网企业的数据仓库和BI分析
B)提供了便捷的分析处理海量数据的手段,用户可以不必关心分布式计算细节,从而达到分析大数据的目的
C)可以支持实时OLAP分析
D)可以基于历史数据,进行用户特征和兴趣挖掘
29.[单选题]Hadoop生态系统中,()的主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作。
A)HDFS
B)Flume
C)Hive
D)Sqoop
30.[单选题]已知数组 trans_cnt[1, 2, 3, 4],trans_cnt[2] 获取的结果为()
A)1
B)2
C)3
D)4
31.[单选题]以下哪项不属于图像分割的内容()。
A)把不同类标分开
B)提取不同区域的特征
C)识别图像内容,或对图像进行分类