首页 亿信华辰大数据问答 数据质量管理之事后补救-数据问题补救
我要提问
写回答

数据质量管理之事后补救-数据问题补救

数据质量管理 共 1 个回答
  • 蒲公渶
    蒲公渶

    2023-01-12

    尽管数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到 100%的数据问题防治,甚至过于严格的数据质量控制还会引起其他数据问题。因此,企业需要不时进行主动的数据清理和补救措施,以纠正现有的数据问题。

    1、清理重复数据
    对经数据质量检核检查出的重复数据进行人工或自动处理,处理的方法有删除或合并。例如:对于两条完全相同的重复记录,删除其中一条;如果重复的记录不完全相同,则将两条记录合并为一条,或者只保留相对完整、准确的那条。

    2、清理派生数据
    派生数据是由其他数据派生出来的数据,例如:“利润率”就是在“利润”的基础上计算得出的,它就是派生数据。而一般情况下,存储派生出的数据是多余的,不仅会增加存储和维护成本,而且会增大数据出错的风险。如果由于某种原因,利润率的计算方式发生了变化,那么必须重新计算该值,这就会增加发生错误的机会。因此,需要对派生数据进行清理,可以存储其相关算法和公式,而不是结果。

    3、缺失值处理
    处理缺失值的策略是对缺失值进行插补修复,有两种方式:人工插补和自动插补。对于“小数据”的数据缺失值,一般采用人工插补的方式,例如主数据的完整性治理。而对于大数据的数据缺失值问题,一般采用自动插补的方式进行修复。自动插补主要有三种方式:

    ● 利用上下文插值修复;
    ● 采用平均值、最大值或最小值修复;
    ● 采用默认值修复。

    当然,最为有效的方法是采用相近或相似数值进行插补,例如利用机器学习算法找到相似值进行插补修复。

    4、异常值处理
    异常值处理的核心是找到异常值。异常值的检测方法有很多,大多要用到以下机器学习技术:
    ● 基于统计的异常检测;
    ● 基于距离的异常检测;
    ● 基于密度的异常检测;
    ● 基于聚类的异常检测。

您可能需要的数据产品
亿信华辰助力政企数字化转型

现在申请试用亿信华辰数据软件,马上可获得:

50+

领导驾驶舱、大屏分析等BI模板

100+

多行业数字化转型解决方案

1500+

海量工具及行业应用学习视频

立即申请试用
customer

在线咨询