GB/T 6380-2019
数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理
发布时间:2019-12-10 实施时间:2020-07-01


数据处理是数据分析的重要环节,而离群值的存在会对数据分析结果产生影响。因此,判断和处理离群值是数据处理的重要步骤。GB/T 6380-2019标准规定了Ⅰ型极值分布样本离群值的判断和处理方法。

首先,该标准定义了离群值的概念。离群值是指样本中与其他观测值相比明显不同的观测值,可能是由于测量误差、数据录入错误或真实存在的异常值等原因导致的。离群值的存在会对数据分析结果产生影响,因此需要进行判断和处理。

其次,该标准规定了离群值的判断方法。对于正态分布的样本,可以使用3σ原则进行判断,即将样本中大于平均值加减3倍标准差的观测值视为离群值。对于非正态分布的样本,可以使用箱线图进行判断,即将样本中小于下四分位数减1.5倍四分位距或大于上四分位数加1.5倍四分位距的观测值视为离群值。

最后,该标准规定了离群值的处理原则。对于判断为离群值的观测值,可以进行删除、替换或保留等处理方式。删除离群值可能会导致样本量减少,影响数据分析结果的可靠性;替换离群值可能会导致数据的失真,影响数据分析结果的准确性;保留离群值可能会导致数据分析结果的偏差,需要根据具体情况进行选择。

在数据分析中,离群值的判断和处理是一个重要的环节。GB/T 6380-2019标准规定了离群值的判断方法和处理原则,为数据分析提供了指导和参考。

相关标准
GB/T 13957-2017 数据质量控制与评价
GB/T 8170-2008 数字字符集编码字符集
GB/T 19074-2017 数据挖掘与分析
GB/T 21415-2008 数据元和数据元组
GB/T 22239-2008 数据库技术