如何用数学方法找出一堆大部分值很相似的数据里少数差异大的数据,比如1,2,3,300,400,3,2,2,2找出300,400
问题描述:
如何用数学方法找出一堆大部分值很相似的数据里少数差异大的数据,比如1,2,3,300,400,3,2,2,2找出300,400
我学计算机的,毕业设计要用到这块,比如1,2,3,300,400,3,2,2,2,3,4,1这些数据中正常数据占大部分,特别大的数据占少部分,怎么用数学模型、公式之类讲这些异常数据挑出来,如果可以,这种方法最多允许占总数据个数多少比例的异常数据,我试过用均值和数据一一来比较,但如果异常数据太大的话,影响了均值.
最好能详细说明这个方法,或者告诉我这个方法哪本书里有,我去图书馆查查
首先,我的数据量并不大,也就十几个
其次,数据是实际测量中采集出来的,随时间的变化而变化,没法给个具体的标准均值和标准偏差最大值.
答
这个一般都用统计的方法,SAS和SPSS里面都专门的去除异常点的程序.
用的原理也是差不多,如果你的数据量很大,你可以直接用统计软件看一下数据在各个区间的分布,如果300,400这些点你认为个数少但是是异常点,你就设置两个参数当做检验异常点的标准均值和标准偏差最大值,如果超过了,就会被判定为异常点.