正态分布的标准差如何计算(越清楚越好)?.就是比如只给你一个正态分布的图,应该怎样估算它的标准差呢?
正态分布的标准差如何计算(越清楚越好)?.
就是比如只给你一个正态分布的图,应该怎样估算它的标准差呢?
已知正态概率密度曲线(即:钟型曲线),估计标准差的方法如下:
先找出平均值:即钟型曲线最高点对应的横坐标;
再找出概率密度曲线的切线的拐点,比如最高点的切线与横坐标轴平行;最高点右边的切线与横轴正向夹角小于180度;再往右走,有一点的切线与横轴夹角达到一个最小值,再向右切线与横轴夹角又增加;前面的最小值点,对应的横坐标与平均值的差值就是标准差的大小。
如果手头有正态概率纸,用其估计标准差的值就更为方便。
如果有原始数据,可用下式计算它的标准差:
先算它的数学期望:
E=(x1+x2+...+xn)/n;
再算它的标准差:
σ=√{Σ(i:1→n) (xi - E)² / n} 。
用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数代表性弱。因而仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。
全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。全距大,则资料中各观测值变异程度大,全距小,则资料中各观测值变异程度小。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。
为了准确地表示样本内各个观测值的变异程度,人们首先会考虑到以平均数为标准,求出各个观测值与平均数的离差,即(),称为离均差。虽然离均差能表达一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即Σ()=0,因而不能用离均差之和Σ()来表示资料中所有观测值的总偏离程度。为了解决离均差有正、有负,离均差之和为零的问题,可先求离均差的绝对值并将各离均差绝对值之和除以观测值n求得平均绝对离差,即Σ||/n。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。先将各个离均差平方,即 ()2,再求离均差平方和,即Σ,简称平方和,记为SS;由于离差平方和常随样本大小而改变,为了消除样本大小的影响,用平方和除以样本大小,即Σ,求出离均差平方和的平均数;为了使所得的统计量是相应总体参数的无偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用*度n-1,于是,我们采用统计量Σ表示资料的变异程度。统计量Σ称为均方(mean square缩写为MS),又称样本方差,记为S2,即
S2= (3—9)
相应的总体参数叫总体方差,记为σ2。对于有限总体而言,σ2的计算公式为:
σ2μ)2/N (3—10)
由于样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差S2的平方根叫做样本标准差,记为S,即:
(3-11)
由于
所以(3-11)式可改写为:
(3-12)
相应的总体参数叫总体标准差,记为σ。对于有限总体而言,σ的计算公式为:
σ= (3-13)
在统计学中,常用样本标准差S估计总体标准差σ。
二、标准差的计算方法
(一)直接法 对于未分组或小样本资料,可直接利用(3—11)或(3-12)式来计算标准差。
【例3.9】 计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差。
此例n=10,经计算得:Σx=5400,Σx2=2955000,代入(3—12)式得:
(g)
即10只辽宁绒山羊产绒量的标准差为65.828g。
(二)加权法 对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:
(3—14)
式中,f为各组次数;x为各组的组中值;Σf = n为总次数。
【例3.10】 利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表3-4)计算标准差。
将表3-4中的Σf、Σfx、Σfx2代入(3—14)式得:
(g)
即某纯系蛋鸡200枚蛋重的标准差为3.5524g。
表3—4 某纯系蛋鸡200枚蛋重资料次数分布及标准差计算表
组别
组中值(x)
次数(f)
fx
fx2
44.15—
45.0
3
135.0
6075.0
45.85—
46.7
6
280.2
13085.34
47.55—
48.4
16
774.4
37480.96
49.25—
50.1
22
1102.2
55220.22
50.95—
51.8
30
1554.0
80497.20
52.65—
53.5
44
2354.0
125939.00
54.35—
55.2
28
1545.0
85317.12
56.05—
56.9
30
1707.0
97128.30
57.75—
58.6
12
703.2
41207.52
59.45—
60.3
5
301.5
18180.45
61.15—
62.0
4
248.0
15376.00
合计
Σf=200 Σfx=10705.1 Σfx2=575507.11
三、标准差的特性
(一)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。
(二)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。
(三)当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。
(四)在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(±S)范围内;约有95.43%的观测值在平均数左右两倍标准差(±2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(±3S)范围内。也就是说全距近似地等于6倍标准差,可用()来粗略估计标准差。
第三节 变异系数
变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。标准差与平均数的比值称为变异系数,记为C·V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
变异系数的计算公式为:
(3—15)
【例3.11】 已知某良种猪场长白成年母猪平均体重为190kg,标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。
此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异系数来比较其变异程度的大小。
由于,长白成年母猪体重的变异系数:
大约克成年母猪体重的变异系数:
所以,长白成年母猪体重的变异程度大于大约克成年母猪。
注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。
规律:图形越矮胖,标准差越大;图形越高瘦,标准差越小
正态分布图是反映数据的集中情况的,
越矮胖,就是数据越不集中,标准差就越大
越高瘦,就说明数据集中在某些数据周围,标准差固然就小