睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

如何实施数据质量管理(下)

时间:2022-06-25来源:宛童浏览数:281

由于数据质量检核功能涉及生产业务数据,考虑到生产数据的安全性,将数据质量检核系统单独部署,与数据治理平台隔离。通过访问企业级数据服务平台API接口,连接计算平台进行数据检核,异步提取数据到质量平台Hadoop集群环境。

本期,我们将围绕数据质量管理的流程及如何搭建数据质量管理平台展开阐述。可点击下方链接回顾上期内容。

01 如何制定数据质量管理流程

通过分析数据质量相关理论体系,总结出“定义、测量、分析、整改、监控”五步法的质量管理流程,并明确各环节涉及的工作。

流程一:定义

在执行数据质量管控任务之前首先需要确定数据质量的管控范围与检核规则。并非所有的数据都需要进行数据质量管控,在选择范围时一般遵循两大原则:

重要性原则:数据质量管控应首先应用于组织中最重要的数据。企业内部的重要数据包括主数据与基础数据,企业外则主要关注监管数据。此外,一些痛点问题、关键业务、公司变革、核心KPI所涉及的数据也符合重要性原则。

成本效益原则:任何企业活动开展均需要进行成本效益的判断,若某类数据质量提升所带来的效益或减少的损失低于该活动产生的成本,则此类数据可不优先考虑。当然也应注意到,效益分析时经济效益与社会效益同等重要,例如保持高质量的客户数据对于银行来说是一种重要的企业社会责任。

对于监管数据,数据质量的管控范围已由监管组织给定,所以数据管理团队应侧重于明确检核内容,包括该条规则涉及的底层业务、责任部门等。在定义范围与规则后,数据质量提升的工作才能有的放矢。

流程二:测量

测量环节主要利用专业的质量检核工具对定义的规则进行跑批,输出质量问题数据明细。目前逐渐由人工手动撰写代码跑批发展到定时自动跑批,更加及时发现并跟踪质量问题整改情况,节省手动操作的人力。

流程三:分析

在获取质量问题数据明细之后,需对产生的问题进行归因分析,对症下药。质量问题产生的原因可概括为两大类:人为操作导致的质量问题与系统架构设计不合理导致的质量问题。人为操作下又可分为领导力不足、员工培训不到位等原因,系统架构设计不合理下又可分为业务取数逻辑错误、系统界面设计不佳、数据传输问题、模型设计不准确等因素。对于监管数据来说,因监管提出的质量规范与银行业务实际业务不适配,或将导致新的质量问题。

流程四:整改

质量问题整改并非一蹴而就,需要持续跟踪整改情况。定义管控范围和检核规则之后,针对此项问题需开展“测量-分析-整改”的循环工作以持续提升质量水平。整改方式可分为手工整改错误数据、系统开发优化以及向监管组织解释等。监管数据问题一般要求100%得到解决,对于公司内部数据问题的整改,可运用六西格玛质量管理体系评估其数据质量。

流程五:监控

监控环节涉及数据质量水平监控、质量问题整改考核、数据质量报告发布等内容,力求精确、有效的跟踪企业内部数据质量变化,为质量问题整改的推进提供有力保障。

02 如何建立数据质量规则库和工具平台

如何建立数据质量规则库?我们需要明确哪些数据的质量是银行所关心的,因此必须要知道哪些是银行重要系统,哪些数据项是重点关注的数据,哪些指标能够反映经营状况。基于以上几点,可以将以下几类数据项作为数据质量规则库的内容:

监管报送涉及的系统以及需要报送的数据项 高管驾驶舱重点指标加工涉及的系统数据项 业务部门申报的重点关注数据项

客户关键信息涉及的系统数据项

以上这些数据项不仅仅是数据质量重点关注的内容,同时也包含在基础标准中,因此可以将基础标准中的数据项作为数据质量规则库的基础。在基础标准层面明确定义数据质量要求,并且完成源系统的基础标准对标工作,就可以直接建立数据质量规则库。质量规则责任到部门,甚至责任到人,建立可分层执行的质量规则库。

质量规则可以分为以下几层:

贴源层:主要包含数据湖入湖数据,其中EAST报送以及基础标准对应的入湖数据是质量规则重点关注的对象,针对贴源层的检查规则大部分可以在入湖时进行检查,一旦发现质量问题可及时告警;

公共模型层:主要面向计算平台的主题模型中的数据,公共模型层是整个数据中台核心部分,数据中台上其他应用的数据加工都来源于此,因此公共模型层质量规则重点关注数据加工后的一致性、完整性和有效性;

领域模型层:这一层的检核规则主要针对各类指标标签加工结果进行检查,重点关注加工后的数据精确性和准确性;

应用层:应用层的数据质量规则一般由应用前端设置阈值进行实时监控,往往关注数据的异常波动。

通过实践,我们认为将质量规则库分层有以下几个好处:

自上而下,规则统一 权责清晰,利于管理

快速部署,灵活监控

通过建设质量检核平台将以上质量规则进行落地实施,就形成了统一管理的企业级质量规则库,平台内置的质量检核规则主要有以下几种:

完整性:例如内部机构号不允许为空或null; 有效性:例如统一社会信用代码长度必须为1、9、10、18位; 唯一性:例如主键唯一性验证; 一致性:例如客户经理工号必须在员工表里面存在; 时效性:例如根据人力资源系统中的员工入职日期和记录创建时间判断信息维护是否符合时效性要求; 真实性:例如将出生日期与身份证号进行校验,判断其真实性; 精确性:例如利率、汇率字段的精度是否满足业务需求;

连续性:例如公共模型中大部分历史表必须保证数据的连续性,除采用经济型拉链算法形成的历史表。

质量检核平台以数据清洁为目标,以业务需求为驱动,通过质量提升任务形成质量规则库,通过质量检核了解数据源质量、监控异常数据、督促质量改进,将数据质量管理作为一项持续性工作,使之“系统化”“持续化”“常态化”。根据质量规则形成质量度量指标,对整体数据质量水平进行综合评价,披露数据质量问题与短板,促进问题改进。质量评测范围包含数据资产目录、数据标准、数据模型、数据分布、设计质量等。

数据中台作为全行数据的中心,不仅包含全行各个源系统的数据,大部分数据加工工作也在数据中台完成,是最适合进行数据质量检查的系统。因此数据质量检核工作由数据质量检核平台、数据治理平台以及数据计算平台协同完成,治理平台负责提供元数据以及血缘信息,质量检核平台负责数据质量规则管理以及质量检核任务调度,计算平台负责执行质量规则并保存检核结果。

由于数据质量检核功能涉及生产业务数据,考虑到生产数据的安全性,将数据质量检核系统单独部署,与数据治理平台隔离。通过访问企业级数据服务平台API接口,连接计算平台进行数据检核,异步提取数据到质量平台Hadoop集群环境。

质量检核平台的各项功能是依据质量管理办法中的质量管理流程进行设计的,具体功能包括质量提升计划、质量规则库、质量规则执行、质量问题跟踪、数据质量报告等功能模块。

1.质量提升计划:当发现数据质量问题后,由数据管理部门或业务部门了解清楚质量问题出现的系统,问题影响范围和严重程度,明确质量提升目标,制定计划启动日期;

2.质量规则库:供质量规则配置功能,支持自定义配置、按模板配置、批量导入的方式;

3.质量规则执行:支持按周期、按时间点配置调度作业,支持查看调度任务执行情况以及执行日志,可以在线调整任务优先级,干预当前正在执行的检核任务,干预类型包含挂起、重跑、结束执行等;

4.质量问题跟踪:整个质量问题跟踪流程主要有问题分析、问题分发、确认质量提升效果这几个步骤。问题分析不能只停留在发现问题的系统本身,而是需要追根溯源找到数据的源头系统,制定问题解决方案。在问题分发环节需要关注问题解决方案的类型,如果是数据缺失需要补录的情况,则分发到各业务部门,由业务部门组织补录,如果需要修改系统代码,则分发到系统主管业务部门发起系统变更需求。在问题分发完成后,需要定时确认质量提升效果,系统将重新执行检核规则,将整改后的数据与整改前进行比对,确认解决状态;

(截图已做模糊处理)

5.数据质量报告:根据质量规则检核结果生成数据质量报告,包括针对某个问题的专项报告或基于基础标准检查的综合性报告。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询