《大数据导论》考试试卷一
                                                               
试卷编号:      ( A )
课程编号:              课程名称:  大数据导论  考试形式:    闭卷                     
适用班级:              姓名:            学号:        班级:                       
学科部:                  专业:                   考试日期:           
题号
总分
评阅人及累分人签名
题分
20
8
12
30
30
100
得分
考生注意事项:1、本试卷共6页,请查看试卷中是否有缺页或破损。如有立即举手报告以便更换。
              2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。
一、单项选择题(每小题2分,共20分)
1、(    )提出在今后的十几年里,半导体处理器的性能,比如容量、计算速度和复杂程度,每18个月左右可以翻一番。
A.比尔•盖茨  B.戈登•摩尔  C.乔布斯  D.爱因斯坦
2、 当前大数据技术的基础是由(    )首先提出的。
A.微软  B.百度  C.谷歌  D.阿里巴巴
3、数据清洗的方法不包括(    )。
A.缺失值处理  B.噪声数据清除  C.一致性检查  D.重复数据记录处理
4、 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(    )。
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
5、 支撑大数据业务的基础是(    )。
A.数据科学  B.数据应用  C.数据硬件  D.数据人才
6、假设一种基因突变导致两件事情,一是使人喜欢抽烟,二是使这个人得肺癌,得肺癌就是    关系,而吸烟和肺癌则是    关系(    )。
A.因果 相关  B.相关 因果  C.并列 相关  D.因果 并列
7、大数据环境下的隐私担忧,主要表现为(    )
A.个人信息的被识别与暴露
B.用户画像的生成
C.恶意广告的推送
D.病毒入侵
8、一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的(    )
A.定量思维  B.相关思维  C.因果思维  D.实验思维
9、大数据的跨界年度是指(   )。
    A.2010年  B.2011年    C.2012年    D.2013年
10、国务院办公厅是在哪一年印发的《关于促进和规范健康医疗大数据应用发展的指导意见》?(  )。
    A.2013年    B.2014年  C.2015年  D.2016年
二、判断题(对的打√,错的打×,每小题1分,共8分)
1、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息要尽量精确。(  )
2、一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。(  )
3、谷歌预测流感充分体现了数据重组和扩展对数据价值的重要意义。(  )
4、啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。(  )
5、对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。(  )
6、当前,企业提供的大数据解决方案大多基于Hadoop开源项目。(  )
7、云计算相当于储有海量信息的信息库,大数据相当于计算机和操作系统。(  )
8、大数据能够发现学习软肋,能够通过对与学生相关的海量数据分析,辨别出每个学生的学习行为和学习模式。(  )
三、名词解释题(每小题3分,共12分)
1、大数据
2、云计算
3、可视化
4、网络信息安全
四、简答题(第1、2题各7分,第3、4题各8分,共30分)
1、简述大数据存储系统的基本特点有哪些?
2、简述数据可视化的7个数据类型是什么?
3、什么是Hadoop?Hadoop的优点有哪些?
4、简述云计算与大数据的关系?
五、论述题(每小题15分,共30分)
1、论述在大数据时代,为什么“我们不再探求难以捉摸的因果关系,转而关注事物的相关关系”。
2、论述NoSQLRDBMS的主要区别?
《大数据导论》试卷一答案及评分标准
一、单项选择题(每题2分,共20分)
1、B  2、C  3、D  4、B  5、B  6、A  7、A  8、B  9、C  10、D 
二、判断题(每题1分,共8分)
1、×  2、√  3、×  4、×  5、×  6、√  7、×  8、√
三、名词解释(每题3分,共12分)
1、大数据——是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2、云计算——是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。
3、可视化——是一种使复杂信息能够容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法。
4、网络信息安全——主要是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。
四、简答题(第1、2题各7分,第3、4题各8分,共30分)
1、答案:
(1)大容量及高可扩展性;(1分)数据可视化名词解释
(2)高可用性;(1分)
(3)高性能;(1分)
(4)安全性;(1分)
(5)自管理和自修复;(1分)
(6)注重成本;(1分)
(7)访问接口的多样化。(1分)
2、答案:
(1)1D线性数据;(1分)
(2)2D地图数据;(1分)
(3)3D世界数据;(1分)
(4)多维数据;(1分)
(5)时态数据;(1分)
(6)树型数据;(1分)
(7)网络数据。(1分)
3、答案:
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。(2分)它主要有以下几个优点:
1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。(1分)
2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。(2分)