统计学里异常值的概念

问题描述:

统计学里异常值的概念
统计学里有异常值检测,请问这个异常值是正常的观测值还是错误的观测值?
案例:我在做一个预警的实验,数据库中有一组数据值,并且不断接收新的数值,检测到数值异常地大或者异常地小时会发出预警信号,打比方说,水位过高或者过低会预警.请问这里的异常值和统计学里的异常值是一个概念吗?怎么判断这是个异常值呢?

异常值也称离群值,具体地说,判断标准依据实际情况,根据业务知识及实际需要而定.要是一般地说,可以用公式计算:upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5lower adjacent...我提出的算法,只是算法的一种,您提出的两倍标准差的标准,也是一种。毕竟,实践是复杂的,任何一种方法,都不是万能的。两种方法可以结合起来,尤其是依据具体的业务知识。比如人的体温,何为异常,关系到人的健康甚至生命。至于您提到的例子,即1,5,6,8这个数组。其实,是没有现实意义的,或者说,具有负面意义。统计大家Fisher的专著说,统计是研究总体的。显然,大量的个体才构成总体。4个数,不具备推广意义,不具备一般意义。而硬是把这4个数结论推广到一般,可能有害。我的核心意思是,第一,统计方法,只有在大样本基础上才有意义。第二,异常值、奇异值、极端值、离群值,都大体是一个意思,措辞不同,或者说,翻译不同。您是高人,我的浅见只供您参考。