大数据建设需要怎么做(图解大数据建设的基本内容)

部门:数据中台

一、背景

据统计表明,全球的数据量每过两年翻一番,不知道什么时候开始,“大数据”已经成了我们经常挂在嘴边的词。随着大数据时代的来临,数据无疑是企业和用户最为重要和宝贵的数字资产,那么安全体系的建设尤为重要和关键,而其中数据安全和隐私保护则是安全体系的重中之重。

2018年7月,中国信通院发布了大数据安全白皮书,标志着数据安全正式作为国家大数据战略。本文将从数据安全的定义和目标入手,逐步介绍有赞的大数据安全体系的发展和建设过程。

二、什么是大数据安全2.1 大数据安全定义和目标

说到安全,我们都熟悉计算机系统安全性的 CIA 原则(保密性、完整性、可用性),而数据安全亦离不开这个原则。所谓数据安全,其实就是保障数据全生命周期的安全和处理合规。其中数据的全生命周期,包括数据生产、使用、存储、传输、披露、销毁等等;处理合规其实就是在数据处理的过程中符合各项法律法规的要求。

满足基本数据安全需求,敏感数据、数据合规和基本数据保护

不能只局限于单一平台或产品,需要覆盖数据的所有环节和应用场景

数据支持分类分级,重视数据角色权限管理和数据全生命周期管理

2.2 大数据安全总体架构

明确了数据安全的定义和目标后,我们构建了一套数据安全体系,如下图所示:

大数据建设需要怎么做(图解大数据建设的基本内容)

总体从下至上分为三个层次,数据平台安全、数据管理安全、隐私保护安全,其中合规处理会贯穿整个过程,保障每个环节的合规性。数据平台安全作为最底层、最基础的组件为其上运行的数据和应用提供安全机制的保障;数据管理安全则会在数据的流转或者全生命周期中提供功能和手段防护数据的安全;最上层的隐私保护安全是在数据安全管理的基础上对个人敏感数据和企业数据资产的保护。三、大数据平台安全3.1 边界安全边界安全是指只有合法的用户才能访问大数据集群,确保大数据平台运行的边界数据进出的安全,主要从网络、接口、存储等角度保障数据平台运行的安全。3.1.1 身份认证目前我们已经收敛禁止所有数据开发涉及到的大数据基础组件的 client 使用方式和入口,统一使用 DP(数据研发平台)或者实时计算平台等平台型工具作为数据开发的入口和平台,登陆这些平台则需要进行一定的身份验证才能使用大数据基础组件相关能力。3.1.2 网络隔离大数据集群目前通过网络层面的隔离做到不同环境,不同机房的网络安全和数据隔离,从而保证网络的安全。3.1.3 接口鉴权接口鉴权主要分为两部分,一个是内部平台之间的接口鉴权,一个是内部平台与外部系统之间的接口鉴权。接口鉴权主要是在大数据平台能力输出的时候确保被合法性使用,防止一些接口和能力被非法使用、窃听或旁路嗅探,造成安全事故。3.2 访问控制和权限控制3.2.1 数据访问权限控制在3.1.1节中介绍到目前我们将数据开发处理入口收敛到相关上层平台(比如 DP 等),用户通过平台访问数据时,会经过数据解析服务分析出用户和需要访问的数据等信息,用户和数据之间的权限判断目前我们是托管到开源的大数据权限管理组件ranger来处理(关于ranger的介绍可以移步有赞大数据平台安全建设实践)3.2.2 权限审计ranger只能控制具体权限的规则,而权限的申请和审批我们是通过平台提供能力让用户自行操作。同时我们也会记录用户的申请和审批者的审批信息,作为重要的审计内容。在用户申请数据访问权限的时候,我们也会要求用户提供数据的使用期限。平台会用定期的权限清理任务定期清理过期的权限,不会存在数据无限期的被用户使用的情况。3.3 审计和备份3.3.1 数据审计除了权限的审计和控制之外,我们同样也对数据的使用进行了审计和监控。目前我们是通过T 1的离线调度任务,采集平台和组件本身的相关审计日志。平台同时提供审计日志查询功能供管理员进行定期审计复查和排查问题时的重要依据。3.3.2 备份和恢复备份作为大数据平台安全中存储安全不可缺少的一环,我们花了不少的精力在数据备份的整个事上。首先将数据的备份和数据的生命周期结合在一起,在数据创建的时候需要指明数据的生命周期,并且推进存量数据的生命周期设置。在数据有了生命周期的设定后,会有备份程序会定期根据数据的生命周期,将数据自动备份到只做存储的冷备集群中,这里的技术栈主要涉及到一些对 hive server 的配置改造。这样操作的意义是,减少机器成本,不浪费计算资源,根据需要只备份明确需要的数据。四、隐私保护与个人数据安全4.1 数据安全能力保障数据安全能力保障主要是指通过平台提供安全功能,支撑数据在生命周期内流转的安全,主要包括敏感信息脱敏、分类分级、元数据管理、存储加密、数据溯源等功能。

4.1.1 数据分类分级标准为了支撑隐私保护和个人数据安全,首先要做的是对数据进行分类分级。只有做好分类分级后,才能对不同层级的数据采取不同的措施,从而实现数据的“可用不可见”。目前有赞将数据分为三类,每类分为四级,安全等级随数字增大而增大。三类数据为:公司数据:属于公司自身所有的财务、技术、人事、行政等信息业务数据:公司在业务开展过程中所使用和产生的数据客户数据:客户的基本信息,以及客户在使用公司产品及服务的生命周期中产生的信息然后根据数据类型、数据保密性要求、数据访问授权的对象不同,详细的数据级别分类如下:

4.1.2 数据安全策略控制做好数据分类分级后,还需要对不同类别不同等级的数据进行相应的数据安全策略控制,如访问权限、文件传输、测试使用等场景下不同等级的数据应该如何操作,这里不做详细介绍。4.1.3 数据打标明确数据分类分级标准后,需要做的是将类别等级应用到具体的数据。我们主要采用的自动采集 手动打标的方式。首先我们在源头创建mysql表时需要额外选择字段的类别等级,rds(管理 Mysql 的工具平台)提供这样的标记功能。

数据资产平台采集数据的元数据时同时采集字段的这部分信息,获取到源头数据的分类分级信息。根据数据资产平台的字段血缘功能,将类别等级根据血缘关系继承下去,这样能够在数据地图中将分类分级信息蔓延开来。同时数据资产平台提供额外的标记入口,作为补充分类分级信息的入口,在用户有额外类别等级要求的时候能够快速更改和标识数据的类别等级信息。

4.3.2 数据脱敏对于敏感数据的识别结果,我们采用的是依赖ranger的mask功能进行不同等级的脱敏。在敏感数据等级确定后,我们会通过 HTTP 的方式,将敏感数据的控制规则作为 policy 写入 ranger mask,实际的效果如下:

▼系列 | 漫谈数仓第一篇NO.1 『基础架构』数仓架构▼系列 | 漫谈数仓第二篇NO.2『数仓建模』维度建模▼系列 | 漫谈数仓第三篇NO.3 『数据清洗』ETL之道▼系列 | 漫谈数仓第四篇NO.4『数据应用』BI 选型

▼系列 |漫谈数仓第五篇NO.5『数据应用』OLAP

▼系列 |漫谈数仓第六篇NO.6『数据规范』开发规范

▼系列 |漫谈数仓第七篇NO.7『数据治理』数据质量

▼系列 |漫谈数仓第八篇NO.8『数据治理』元数据管理

▼系列 |漫谈数仓第九篇NO.9『数据治理』数据治理

▼系列 |漫谈数仓第十篇NO.10『实时数仓』实时数仓

下载资料:长按扫码回复数仓

发表评论

登录后才能评论