概述 #
数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、一致性、准确性、唯一性五个维度进行单列、跨列、单表的分析。
数据质量监控主界面包括以下功能模块:
功能 | 说明 |
---|---|
质检规则 | 该模块用户配置、管理质检规则 |
规则模板 | 规则模板是为了规则复用抽象出的一个概念,该模块管理系统创建和用户自建的规则模板,模板中包含规则的 SQL 定义、规则的比较方式、参数定义等 |
术语&基本概念 #
- 质检规则(Rule):质检规则是数据质检的核心概念,质检规则表述了要对哪些数据源做怎样的质检,如何才算质检通过,如质检不通过,要怎么样通知到用户,总的来说,质检规则分为以下四类核心信息:
- 数据源信息:数据源是质检的对象,系统支持表级和字段级质检规则,需要在配置规则是填入数据源信息,一个质检规则,支持关联多个数据源
- 统计:统计是质检规则的核心,其规定了如何使用什么的指标衡量数据质量,统计部分的输入是数据源信息,输出是统计指标
- 校验:校验是将统计的输出结果与用户期望进行对比,表示质检是否通过,输出模块会更加校验结果判断是否输出告警
- 输出:输出模块主要配置质检校验完成后,根据校验结果对用户进行提醒、发送异常数据等行为
- 质检任务(Task):质检任务是一次具体的调度任务,按对应的质检规则配置对数据源进行质检
- 规则模板(Rule template):规则模板是为了规则复用抽象出的一个概念,模板中包含规则的 SQL 定义、规则的比较方式、参数定义。
新建质检规则 #
配置流程 #
1.进入【数据管理】-【数据质量】-【质检规则】模块
2.点击【+】,新建规则
3.填写规则配置表单
规则参数配置如下表所示:
配置步骤 | 配置项 | 说明 |
---|---|---|
基本信息 | 规则名称 | 由用户填写,质检规则的名称 |
描述 | 描述质检规则的说明,非必填 | |
质检配置 | 规则模板 | 选择质检模板,目前支持模板:字段级模板和表级模板 |
质检范围 | 质检范围可选择全表扫描或按比例抽样。该配置项只支持单个数据源的作为输入的模板 | |
校验方式 | 比较统计结果与用户期望,当不满足条件时将触发告警 | |
输出配置 | 告警方式 | 告警方式支持两种: -企业微信机器人,需要用户填写webhook,支持多个 -邮箱,需要用户填写邮箱 |
运行配置 | 执行频率 | 执行质检任务的频率,支持按小时或按天为周期 |
生效时间 | 首次执行质检任务的时间 | |
触发时刻 | 任务每次触发的具体时间点。若选择的号数大于当前月的自然天数,将以该月最后一天为准。例如:每31号12:00:00;当前月为6月时,将会在6月30号12:00:00触发任务。 |
源字段筛选器配置 #
在选择数据源后,点击筛选器按钮,进入源字段筛选界面
点击【新增条件】-【选择字段】-【选择规则】,可以新增多个条件。配置完条件后,通过表达式编辑条件组合。源字段将根据表达式进行筛选。
筛选器配置说明:
配置类型 | 配置项 | 说明 |
---|---|---|
条件 | 数据源下全部字段 | 目前仅支持选择数值、字符串、时间类型字段。由用户选择筛选字段 |
判断设置 | 对应字段的筛选规则 | 数值类型规则: 全部记录、等于下列任意值、不等于下列任意值、大于、等于大于等于、小于等于、范围在、为空值、非空值 字符串类型规则: 全部记录、等于下列任意值、不等于下列任意值、为空值、非空值 时间类型规则: 全部记录、时间范围在、最近一段时间、为空值、非空值 |
编辑条件组合 | 表达式 | 由用户输入表达式,设定筛选条件的关系 |
当数据源已保存了筛选条件,筛选器显示按钮:
查看规则实例 #
点击质检规则中的详情按钮,可查看规则内容,部分配置参数允许修改。
点击【质检任务】可查看规则运行实例
按数据源查看质检结果 #
用户可在【数据源详情】-【数据质量】中查看该数据源关联的质检规则,以及任务运行情况