第一章
1、在信息产业的发展历程中,计算和数据作为两个重要的内在动力在不同时期起着重要作用。
5、吉姆·格雷(Jim Gray)提出了第四范式,被誉为“大数据之父”。
6、MapReduce的思想来源是Lisp编程语言。
7、按照资源封装层次,云计算可分为基础设施既服务、平台既服务、软件既服务三种类型。
8、与传统的资源提供方式相比,与计算具有什么特点?
云计算技术是资源与用户需求之间是一种弹性化的关系,资源的实用这之需对资源的使用按需付费,从而敏捷地响应客户不断变化的需求,从而降低了资源使用者的成本,提高了走远利用的效率。
10、简述主要的大数据的处理系统。
(1)数据查询分析计算系统:对大规模莫数据进行事时或准时查询
(2)批处理系统:典型代表有MapReduce计算模式的Hadoop与Spark
(3)流式计算系统:具有很强的实时系统,需要对应用源源不断产生的数据实时进行处理,使数据不积压、不丢失,常用于处理电信、电力等行业应用与互联网恒业的访问日志等。
(4)迭代计算系统:iMapReduce、Twister、Spark、Hadoop等。
(5)图计算系统:图数据需要专门的系统进行存储和计算。常用的计算系统有:Giraph、Pregel、Trinity、GraphX等
(6)内存计算系统:Dremel、HANA、Spark等
11、简述大数据处理的基本流程。
(1)数据抽取与集成:从数据中取出关系与实体,经过关联和聚合等操作,按照统一的格式进行存储。
(2)数据分析:是大数据处理流程的核心步骤,通过数据抽取和集成环节获得原始数据后
用户可以根据自己的需求对这些数据进行分析处理。
(3)数据解释:可视化和人机交互是书记解释的主要技术。
第二章
1、简述一致性哈希算法的基本原理。
一致性哈希算法的设计目标是解决节点频发变化时的任务分配问题。一致性哈希算法将整个哈希空间组织成一个哈希环。比如将ip作为关键字哈希,确定每个结点在哈希环上的位置,将key用函数映射到哈希空间上的某个值,沿该值向后,将遇到的第一个节点作为处理节点。节点数不多时可以引入虚拟节点解决负载不均衡的问题。Key值在哈希环中到大于它的最小节点作为路由值。
2、科学研究的四个范式是经验、理论、实验、海量数据。
3、物联网的产业链可以分为标识、感知、处理和信息传递4个环节。
4、非关系型数据库可以分为Column-Oriented、Key-Value、Document-Value。
第三章
2、虚拟化技术从计算体系层次结构上可以分为以下5种类型:指令集架构级虚拟化、硬件抽象层虚拟化、操作系统层虚拟化、编程语言层上的虚拟化、库函数层的虚拟化。
4、系统虚拟化具有硬件无关性、隔离性、多实例、特权功能等优点。
5、系统虚拟化可分为一虚多、多虚一、多虚多。
6、服务器虚拟化按照其虚拟化部件可分为CPU虚拟化、内存虚拟化、I/O虚拟化。
7、什么是广义虚拟化技术?
逻辑简化技术,实现物理层想逻辑层的变化。
8、虚拟化技术有哪些优势与劣势?
优势:提高资源利用率;提供相互隔离的、高效的运行环境;简化资源和资源管理;实现软件和硬件的分离。
劣势:肯呢个回事物理计算机负载过重;升级和维护的安全问题;物理计算机的影响。
第四章
3、传统的集系统可以分为高可用性集系统、负载均衡集系统、高性能集系统、虚拟化集系统4类。
4、简述Beowulf系统的主要特点。
用廉价系统实现高性能的能力。
(1)由一个管理节点和多个计算节点构成。
hadoop与spark的区别与联系(2)同城由最城建的硬件系统构成。
(3)通常采用廉价且广范传播的软件。
5、Lustre存储系统的组成有元数据服务器、元数据存储节点、对象存储服务器、对象存储节点、客户端。
6、简述面向对象的分布式系统、混合型分布试系统、面向数据的分布式系统的实现机制,分析三种系统的区别。
三种系统的实现机制分别为:计算拆分、数据拆分、数据拆分
区别:混合式系统具有面向计算和面向数据的特征以集中式的存储和数据想计算迁移的方式实现计算和数据位置的一致性。面向数据的分布式系统往往有对应的文件系统支持,从文件存储实现数据块的划分。计算和数据协作机制为核心问题。面向计算的分布试系统具有灵活和功能强大的计算能力能完成大多数问题的计算任务,面向数据的分布试系统能较好地解决海量数据的自动分布式分布式处理问题。
第五章
1、什么是MPI?
MPI是一种消息传递编程模型并成为这种编程模型的代表和事实上的标准。
3、简述MPICH并行环境建立的主要步骤。
(1)配置NFS实现所有节点指定文件夹的共享。
(2)配置好节点间的互信,实现集内部各节点间的无密码访问。
(3)编译安装配置MPICH。
第六章
2、简述GFS的工作过程。
(1)客户端使用固定大小的块将应用程序指定的文件名和字节偏移转换成文件的一个块索引,向master发送包含文件名和块索引的请求。
(2)Master收到客户端发来的请求后向服务器发出指示,同时时刻监控众多chunkserver的状态。
(3)Master通过和chunkserver的交互向客户端发送chunk-handle和副本位置。期中文件被分成若干个块。
(4)客户端向其中一个副本发出请求,请求指定了chunk-handle和块内的一个字节区间。
(5)客户端从chunkserver获得数据。
3、简述HDFS的分块策略。
通常HDFS在存储一个文件会将文件切为64M大小的块来进行存储,数据块会被分别存储在不同的Datanode节点上同时数据块被分块存储后在数据读写时能实现对数据的并发读写。
4、简述搭建Hadoop开发环境的流程。
首先安装jdk,下载解压Hadoop,配置Hadoop环境变量,然后修改Hadoop配置文件。
第七章
1、简述HPCC的主要特点。
面向数据的高性能计算平台,平台基于键值进行索引,用来解决海量数据的处理与分析。
4、HPCC从总体物理上可以看作在同一个集上部署了Thor、Roxie两套集计算系统。
5、HPCC的系统服务包含ECL服务器、Dail服务器、Sasha服务器、DFU服务器、ESP服务
器。
6、简述HPCC平台数据检索任务的执行过程。
(1)加载原始数据(2)切分、分发待处理的数据(3)分发后原始数据的ETL处理(4)向Roxie集发布。
第八章
1、Storm三进程包括Nimbus、Supervisor、Zookeeper。
2、在Storm中每实现一个任务,用户需要构造包含Spout、Bolt组件的拓扑。
第九章
1、数据中心的发展经历了巨型机时代、微型计算机/PC时代、互联网时代、云计算、大数据时代四个阶段。
2、数据中心的选址主要考虑地质环境、气候条件、电力供给、网络带宽等因素。
3、数据中心的主要组成部分有基础设施、硬件设施、基础软件、管理支撑软件。
4、PUE的定义为数据中心整体能耗/IT设备能耗。
5、DCIE的定义为IT设备能耗/数据中心整体能耗。
第十章
1、GirdSim和CloudSim的区别有哪些?
GirdSim没有将云计算体系中的SaaS、PaaS、LaaS层抽象出来也没有虚拟化模型和资源管理模型,CloudSim继承了前者的模型弥补了网格计算模拟软件的不足。
2、简述CloudSim仿真的主要步骤。
初始化CloudSim库,创建数据中心,创建代理Broker,创建虚拟机,创建云任务,启动仿真,在仿真结束后统计结果。