数据仓库基础知识
1、什么是数据仓库?
权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
1)数据仓库是用于支持决策、面向分析型数据处理;
2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。
分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:
2、数据仓库和数据库的区别?从目标、用途、设计来说。
分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:
2、数据仓库和数据库的区别?从目标、用途、设计来说。
1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和决策;
2)数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的是历史数据;
3)数据库设计一般符合三范式,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查询。
3、如何构建数据仓库?
数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本。
1)调研:业务调研、需求调研、数据调研
2)划分主题域:通过业务调研、需求调研、数据调研最终确定主题域
3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交叉点上打上标记表示该业务处理过程与该维度相
关(交叉探查)
4)设计数仓分层架构5)模型落地6)数据治理
4、什么是数据中台?
数据中台是通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助的成本,也是差异化竞争的优势所在。数据中台是通过整合公司开发工具、打通全域数据、让数据持续为业务赋能,实现数据平台化、数据服务化和数据价值化。数据中台更加侧重于“复用”和“业务”。5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么?
大数据etl工具有哪些1)基础能力上的区别
数据平台:提供的是计算和存储能力数据仓库:利用数据平台提供的计算和存储能力,在一套方法论的指导下建设的一整套的数据表数据中台:包含了数据平台和数据仓库的所有
内容,将其打包,并且以更加整合以及更加产品化的方式对外提供服务和价值数据湖:一个存储企业各种各样原始数据的大型仓库,包括结构化和非结构化数据,其中湖里的数据可供存取、处理、分析和传输
2)业务能力上的区别
数据平台:为业务提供数据主要方式是提供数据集数据仓库:相对具体的功能概念是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表数据中台:企业级的逻辑概念,体现企业数据产生价值的能力,为业务提供服务的主要方式是数据API数据湖:数据仓库的数据来源总的来说,数据中台距离业务更近,数据复用能力更强,能为业务提供速度更快的服务,数据中台在数据仓库和数据平台的基础上,将数据生产为一个个数据API服务,以更高效的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
6、大数据有哪些相关的系统?
数仓设计中心:按照主题域、业务过程,分层的设计方式,以维度建模作为基本理论依据,
按照维度、度量设计模型,确保模型、字段有统一的命名规范数据资产中心:梳理数据资产,基于数据血缘,数据的访问热度,做成本的治理数据质量中心:通过丰富的稽查监控系统,对数据进行事后校验,确保问题数据第一时间被发现,避免下游的无效计算,分析数据的影响范围。指标系统:管理指标的业务口径、计算逻辑和数据来源,通过流程化的方式,建立从指标需求、指标开发、指标发布的全套协作流程数据地图:提供元数据的快速索引,数据字典、数据血缘、数据特征信息的查询,相当于元数据中心的门户。
7、如何建设数据中台?
数据中台在企业落地实践时,结合技术、产品、数据、服务、运营等方面,逐步开展相关工作1)理现状:了解业务现状、数据现状、IT现状、现有的组织架构2)定架构:确认业务架构、技术架构、应用架构、组织架构3)建资产:建立贴近数据层、统一数仓层、标签数据层、应用数据层4)用数据:对数据进行输出、应用5)数据运营:持续运营、持续迭代中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地是一个漫长的过程,在实施数据中台时,最困难的地方就是需要有人推动。
8、数据仓库最重要的是什么?
个人认为是数据集成和数据质量!企业的数据通常存储在多个异构数据库中,要进行分析,必须对数据进行一致性整合,整合后才能对数据进行分析挖掘出潜在的价值;数据质量必须有保障,数据质量不过关,别人怎么会使用你的数据?
9、概念模型、逻辑模型、物理模型分别介绍一下?
1)概念模型CDM:概念模型是最终用户对数据存储的看法,反映了最终用户综合性的信息需求,以数据类的方式描述企业级的数据需求概念模型的内容包括重要的实体与实体之间的关系,在概念模型中不包含实体的属性,也不包含定义实体的主键概念模型的目的是统一业务概念,作为业务人员和技术人员之间的沟通桥梁,确定不同实体之间的最高层次的关系
2)逻辑模型LDM:逻辑模型反映的是系统分析人员对数据存储的观点,是对概念模型的进一步分解和细化,逻辑模型是根据业务规则确定的,关于业务对象,业务对象的数据项以及业务对象之间关系的基本蓝图逻辑模型的内容包括所有的实体和关系,确定每个实体的属性,定义每个实体的主键,指定实体的外键,需要进行范式化处理逻辑模型的目标是尽可能详细的描述数据,并不考虑物理上如何实现
3)物理模型PDM:物理模型是在逻辑模型的基础上,考虑各种具体的技术实现因素,进行数据体系结构设计,真正实现数据在数据仓库中的存放物理模型的内容包括确定所有的表和列,定义外键用确认表之间的关系,基于用户的需求可能要进行反范式化等内容
10、SCD常用的处理方式有哪些?
slowly changing dimensions 缓慢变化维度常见的缓慢变化维处理方式有三种:1)直接覆盖:不记录历史数据,薪数据覆盖旧数据2)新加一行数据(纵向扩展):使用代理主键+生效失效时间或者是代理主键+生效失效标识(保存多条记录,直接新添一条记录,同时保留原有记录,并用单独的专用字段保存)3)新加两个字段(横向扩展):一个是previous,一个是current,每次更新只更新这两个值,但是这样职能保留最近两次的变化(添加历史列,用不同的字段保存变化痕迹,因为只保存两次变化记录,使用与变化不超过两次的维度)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论