其他
行业研究丨如何实施数据质量管理(下)
01
如何制定数据质量管理流程
02
如何建立数据质量规则库和工具平台
监管报送涉及的系统以及需要报送的数据项 高管驾驶舱重点指标加工涉及的系统数据项 业务部门申报的重点关注数据项 客户关键信息涉及的系统数据项
贴源层:主要包含数据湖入湖数据,其中EAST报送以及基础标准对应的入湖数据是质量规则重点关注的对象,针对贴源层的检查规则大部分可以在入湖时进行检查,一旦发现质量问题可及时告警; 公共模型层:主要面向计算平台的主题模型中的数据,公共模型层是整个数据中台核心部分,数据中台上其他应用的数据加工都来源于此,因此公共模型层质量规则重点关注数据加工后的一致性、完整性和有效性; 领域模型层:这一层的检核规则主要针对各类指标标签加工结果进行检查,重点关注加工后的数据精确性和准确性; 应用层:应用层的数据质量规则一般由应用前端设置阈值进行实时监控,往往关注数据的异常波动。
自上而下,规则统一 权责清晰,利于管理 快速部署,灵活监控
完整性:例如内部机构号不允许为空或null; 有效性:例如统一社会信用代码长度必须为1、9、10、18位; 唯一性:例如主键唯一性验证; 一致性:例如客户经理工号必须在员工表里面存在; 时效性:例如根据人力资源系统中的员工入职日期和记录创建时间判断信息维护是否符合时效性要求; 真实性:例如将出生日期与身份证号进行校验,判断其真实性; 精确性:例如利率、汇率字段的精度是否满足业务需求; 连续性:例如公共模型中大部分历史表必须保证数据的连续性,除采用经济型拉链算法形成的历史表。
end