大数据开发基础(习题卷75)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]关于Redis集拓扑信息,下面描述正确的是:( )。
A)客户端缓存有集的拓扑信息
B)服务端缓存有集的拓扑信息
C)两者都是
D)两者多不是
答案:C
解析:
2.[单选题]Numpy 数组分割使用的函数是( )。
A)vstack()
B)hstack()
C)split()
D)view()
288
答案:C
解析:np.split()的作用是把一个数组从左到右按顺序切分。
3.[单选题]F1参数(__),说明模型越稳定。
A)越小
B)越大
C)越趋近于某一特定值
D)F1参数和模型稳定性没有关系
答案:B
解析:
4.[单选题]下面哪项是Hadoop的作者?( )
A)Martin Fowler
B)Doug cutting
C)Mark Elliot Zuckerberg
D)Kent Beck
答案:B
解析:
5.[单选题]若要对图片进行检索,-般选择什么工具较好?
A)MysQL
B)HDFS
C)ElasticSearch
D)Hive
答案:C
解析:
6.[单选题]下列关于Numpy叙述错误的是?
C)常用来处理数组
D)支持矩阵,处理数学问题更加形象
答案:B
解析:
7.[单选题]我想使用Java API删除HDFS中的非空文件夹/123,以下选项正确的是()
A)fs.delete(new Path("/123"));
B)fs.delete(new Path("/123"),false);
C)fs.delete(new Path("/123"),true);
D)delete()方法只能删除文件或非空文件夹,不能直接删除非空文件夹
答案:C
解析:
8.[单选题]大数据计算服务(MaxCompute,原ODPS)项目prj1中,用户owner创建表T1,通过ACL方式将读权限给用户U1(此前用户U1无项目空间prj1的任何权限),现在使用ACL授权U1可以通过select* from prj1.T1来访问T1中的数据。接下来owner将表T1删除,重新创建一张新表,名字仍然叫T1,以下说法中正确的是:( )。
A)如果新建后的T1和原来的表T1表结构一致,则U1仍可以访问T1
hbase属于什么数据库
B)用户U1仍然可以访问表T1
C)用户U1无法访问当前表T1
D)如果新建后的T1和原来的表T1表结构、数据内容均一致,则U1仍可以访问T1
答案:C
解析:
9.[单选题]下面不属于数据科学中特有的管理方法有(__)。
A)关系数据库
B)NewSQL
C)NoSQL
D)关系云
答案:A
解析:
10.[单选题](__)不属于基本分析方法。
A)回归分析
B)分类分析
C)聚类分析
D)元分析
答案:D
解析:
11.[单选题]若X = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]]),X_scaled =
preprocessing.scale(X),则print(an(axis=0))的输出结果是(__)。
A)[1. 0. 0.33333333]
B)[ 0., 0., 0.]
C)0.444444444
D)0
答案:B
解析:
12.[单选题]某大数据业务人员在查询某张表的业务数据时,希望查询出来的数值结果保留两位小数,他应该使用哪个
C)abs
D)rand
答案:B
解析:
13.[单选题]如果建立一个 5000 个特征、100 万个数据的机器学习模型,则有效地应对这样的大数据训练的方法是()。
A)随机抽取一些样本,在这些少量样本之上训练
B)可以试用在线机器学习算法
C)应用 PCA 算法降维,减少特征数
D)以上答案都正确
答案:D
解析:样本数过多或者特征数过多而不能单机完成训练时,可以用小批量样本训练,或者在线累计式训练,或者主成分PCA 降维方式减少特征数量再进行训练。
14.[单选题]若学习算法不依赖于环境建模,则称为(__)
A)免模型学习
B)机器学习
C)深度学习
D)蒙特卡罗强化学习
答案:A
解析:
15.[单选题]在python3中代码为my_input = input('enter a number: '),则type(my_input)为( )。
A)class 'int'
B)class 'float'
C)class 'str'
D)class 'bool'
答案:C
解析:
16.[单选题]使用池化层相比于相同步长的卷积层的优势在于?
A)参数更少
B)可以获得更大下采样
C)速度更快
D)有助于提升精度
答案:A
解析:
17.[单选题]删除数据表中的一条记录用以下哪一项( )
A)DELETED
B)DELETE
C)DROP
D)UPDATE
答案:B
解析:
18.[单选题]HBase依赖()提供消息通信机制
D)Socket
答案:A
解析:记住即可
19.[单选题]某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的概率为( )。
A)128(15)
B)16(3)
C)8(5)
D)16(7)
答案:A
解析:投篮只有两种结果;进或者不进,符合二项分布,二项分布概率的概率可以用公式P(X=k)=pk(1-p)n-k求得,其中n=10代表试验次数,k=3 代表事件连续发生的次数,p=1/2代表事件发生的概率。
20.[单选题]以下为数据表重命名错误的是( )。--
A)ALTER TABLE t1 RENAME re_test
B)ALTER TABLE t1 RENAME AS re_test
C)RENAME TABLE t1 re_test
D)RENAME TABLE t1 TO re_test
答案:C
解析:
21.[单选题]对于列表nums = [2, 4, 5, 6, 7],下面哪行代码会报错?()
A)len(nums)
B)nums[4] = 3
C)3 in nums
D)nums[5]
答案:D
解析:
22.[单选题]下面程序的运行结果是()def func(a,b):a=a+breturn ab=func(10,30)print(b)
A)10
B)20
C)30
D)40
答案:D
解析:
23.[单选题]当闵可夫斯基距离公式中的系数p值为2时,可得到(__)的公式。
A)欧氏距离
B)曼哈顿距离
C)街区距离
D)切比雪夫距离
答案:A
解析:
24.[单选题]大数据对影视行业的影响不包括下列哪项?()
A)利用大数据对海量用户数据进行分析,帮助投资方做出明智的选择
B)了解用户当前关注的题材,以便觉得拍什么作品
解析:
25.[单选题]Sqoop 将导入或导出命令翻译成什么程序来实现导入导 出( )
A)Spark
B)Storm
C)MapReduce
D)Tez
答案:C
解析:
26.[单选题]一张数据表中出现多个重复的字段属于不满足( )。--
A)1NF
B)2NF
C)3NF
D)以上答案都不正确
答案:A
解析:
27.[单选题]主成分分析(PCA)是一种重要的降维技术,以下对于PCA的描述不正确的是:
A)主成分分析是一种无监督方法
B)主成分数量一定小于等于特征的数量
C)各个主成分之间相互正交
D)原始数据在第一主成分上的投影方差最小
答案:D
解析:
28.[单选题]在 HBase 的组件中,哪一个负责日志记录( )
A)HRegion
B)HFile
C)MemStore
D)WAL
答案:D
解析:
29.[单选题]下列选项中,( )能保证表中字段值的唯一性。--
A)默认约束
B)非空约束
C)唯一约束
D)以上答案都不正确
答案:C
解析:
30.[单选题]考虑某个具体问题时,你可能只有少量数据来解决这个问题不过幸运的是你有一个类似问题已经预先训练好的神经网络可以利用这个预先训练好的网络的方法是( )
A)把除了最后一层外所有的层都冻住,重新训练最后一层
B)对新数据重新制l鲸整个模型
C)只对最后几层进行训练调参(直netune)
D)对每一层模型进行评估,选择其中的少数来用