谈谈数据分类分级
心血来潮,今天突然想讨论一下数据的分类分级。有三个目的:第一是为不了解的朋友普及下概念;第二是介绍分类分级的用途,帮助大家加深理解;第三是分类分级的方法、细节以及我的个人见解,为朋友们提供一些参考。话不多说,进入正题。
什么是分类分级
我查了下互联网,很遗憾并没有到任何一个官方的、通用的定义。相较主数据、元数据这些数据治理过程中重要的元素,分类分级更像是大数据技术发展过程中为了满足监管部门要求的衍生物。由于早期接触过SDDC,所以在这里YY了一个概念,SDD(Software Defined Data)软件定义数据,笔者一直认为数据治理的技术维度用SDD解释更为贴切。分类分级不属于SDD的范畴,它是一种数据资产化的呈现方式,是一种解决方案。至于用来解决什么,则必须将分类分级一分为二拆开来看。
数据分类:更多是从业务角度出发,在企业理清数据家底后,明确知道哪些数据(其实应该是元数据,更贴切一些应该是字段)属于哪个业务范畴,也就是类别。这个业务范畴囊括的范围
可大可小,完全依托于企业前期基于业务的梳理结果。举个例子:身份证号这一类数据,既可以属于个人信息范畴,也可以属于个人基本信息范畴,前者的范围明显大于后者。也许有朋友会发出疑问,给业务划分类别当然是越细越好。这就是笔者要在此处强调的,做数据分类,并不是业务越细分越好,因为很有可能细分业务之后,最终却发现无数据可进行归类,这是典型分类失败的体现。当然反过来也成立,分类少了,数据归不进去,也是分类失败的体现。
数据分级:不同于数据分类,对于大多数企业来说,更多是从满足监管要求的角度出发。数据分级属于数据安全领域,或许称呼它为敏感等级更为贴切。企业中的数据有的密级程度高、有的低、有的可公开、有的不可公开,敏感等级不同的数据对内使用时受到的保护策略不同,对外共享开放的程度也不同。如果企业对自己内部的数据没有一个明确地认识,先不说是否可以满足监管要求,对于自身的运营来说都是严重的隐患,因为很可能一不小心就将内部的敏感信息泄露了出去。
分类分级用途
关于分类分级的用途,在前文已经介绍了差不多,这里在总结性地说一下。
满足合规需求。如果读者接触过分类分级,那么提到分类分级,你的第一反应一定是满足合规要求。尽管法律法规相同,但是不同行业的企业所面对的行业法规不一样,这点在做分类分级时需要注意。
满足企业自身运营要求。分类分级除了可以满足合规需求,在有“觉悟”的企业看来,更是提升自身信息化水平和运营能力的良方。基于业务的分类可以更好地将数据资产化,持续性为企业提供精准的数据服务;同时数据分级可以在安全角度为企业保驾护航,哪些数据可以使用、哪些不可以使用、哪些能对外开放、哪些不能开放、不同等级的数据在不同场景使用哪种安全策略,一目了然。
分类分级方法和细节
首先明确一个事实,那就是做好数据的分类分级是一个长期工程。有能力、有必要做数据分类分级的企业,都是具备一定规模的。大一点的集团化企业,内部可能几千套业务系统;小一点的,也有几十上百套系统。如果你的企业前期没有做过任何梳理性的工作,建议有一个长期的规划,初期可以先选几个有代表性的业务系统作为试点。下面说一下建设分类分级体系中需要关注的点。
一、 多套分类分级体系。如果你的企业为了满足监管部门的要求才做分类分级,那么首先要注意究竟需要满足哪些合规要求。这项工作需要法务和咨询团队一起合作,根据企业的业务范围理出必须要遵守的法律法规。在一个企业中,并不一定只可以建设一套分类分级体系,原因在于有些法律之间本身存在冲突,或关注点不同,所以企业是可以建立多套分类分级体系来应对不同监管要求的。
二、 梳理敏感数据域。也许你会疑问,做分类分级为什么要先梳理敏感数据域,什么是敏感数据域?某些密级程度较高的数据集合,在这里称为敏感数据域。因为“分级”涉及到敏感数据,这些数据不以业务为导向,只以其自身的属性决定等级归属,也就是说,这个字段本身是什么意思,它对应的数据域就是什么。举个例子,name字段的值是“张三”,那么name字段就属于姓名域。但如果不考虑分级,只考虑分类,就可以不必引入数据域的感念,根据业务将name划分为个人信息分类也无可厚非。在常见的梳理方法中,会将敏感数据域划分为公共敏感数据域(法律角度)、行业敏感数据域(行业规范角度)、企业敏感数据域(内部规范角度),公共敏感数据域和行业敏感数据域一般在法规文件里都会有定义,但企业敏感数据域的梳理工作就需要依靠参与人员对业务系统的理解程度了,当然更离不开每个业务系统的数据库说明书,如果没有数据库说明书,那可惨了,看字段猜意思、到业务系统查表单,
都是你的方法。不过如果你的企业做了元数据管理,那么恭喜你,这将节省大量的人工成本。
三、 元数据归属数据域。梳理完敏感数据域,需要将字段划分到敏感数据域下,以方便后续的归级操作。如果企业具备元数据管理的能力,或者在梳理敏感数据域的时候已经将字段进行了预处理,可以忽略此阶段。否则,需要对字段进行敏感数据域的归属处理,当然此处不必一定投入大量人力,可以依靠智能发现软件辅助完成。
数据库基本数据类型有哪些四、 隐形敏感数据的识别。有些数据在法律法规中并未被认定为敏感数据域范围,这类数据单独使用时无任何敏感性可言,但结合其它数据,却可以组合成为敏感信息,笔者称这类数据为隐形敏感数据,当然这只是我的个人见解。识别隐形敏感数据不是一件容易的事,也不会一次性就梳理完毕,更多是依靠对企业内部,诸如数据仓库或者决策分析系统这类能够提供主题数据模型的平台进行血缘分析完成,所以这是一个长期的梳理工作。需要注意的是,如果你的企业没有做过元数据管理,困难将会更大。
五、 制定数据类别。所谓数据类别,就是“分类分级”中的“分类”。在这里说明一下,前文提到的数据域可以当做颗粒度更细的分类。通常情况下,在一个业务系统里,一个业务范畴就
可以划分为“爷爷类”、“父类”、“子类”、“孙子类”、“曾孙子类”,甚至更多的分类,严格来说,数据域可以算作最小分类。制定数据分类的方法见仁见智,网上一搜一大把,笔者建议从业务角度出发,具体不做过多赘述。
六、 制定敏感等级。与数据类别以业务为驱动不同,敏感等级是以数据的密级程度进行划分的,因此一个企业中的敏感等级不会太多,通常五级左右。制定敏感等级的方法同样见仁见智,如果未有明确的法律法规或标准,建议可以根据数据泄露所造成的影响范围、影响对象、影响程度来进行划分,此处同样不做过多赘述。
七、 给数据归类归级。如果企业建设了元数据管理系统,并且元数据管理系统维护了分类分级的对象系统,那这个过程会轻松很多,因为已经完成了字段和数据域的归属工作。前面说过,数据域是颗粒度最小的类别定义,直接将数据域进行归类处理即可。如果没建设过元数据管理系统,就需要对业务系统中涉及的每个数据库的每张表的每个字段进行归类归级处理。当然,也有一些智能化的软件可以辅助完成这项工作,达到节省人力的目的。
八、 全景视图。大企业有几百上千套业务系统,梳理一两个系统还好,但如果涉及的范围是全部业务系统呢?试想一下,上千套业务系统,每个业务系统好几个数据库,每个数据库好
几千张表,每张表好几十个字段,而且不同的系统之间建设厂商不同,数据标准也不一样,甭管企业派出多大的团队做这件事,都不可能实现,因为这样的工作非人力所为,只能依靠智能化软件。最好是企业做了元数据管理,并且维护了所有系统的元数据,最关键的,智能化软件和元数据管理系统之间做了接口。
九、 持续分类分级的能力。这没什么可说的,哪个企业的信息化建设都不是停滞不前的,如果依靠智能化软件做了分类分级,那么就需要软件具备持续的能力;如果依靠人力,则需要你的团队有愚公移山,持之以恒的毅力,以及坚忍不拔的品格。