RSS订阅 | 匿名投稿
您的位置:网站首页 > 相关知识 > 正文

统计学——独立性与相关性检验

作者:habao 来源: 日期:2019-9-23 3:41:07 人气: 标签:相关和独立

  统计数据的类型有分类数据、顺序数据和数值型数据。分类数据是对事物进行分类的结果。例如在泰坦尼克号海难的例子中,船上共2208人,其中男性1738人,女性470人。这里,性别是分类变量,有两个类别:男性和女性,男性和女性的人数都是事件结果,以频数的方式表现。

  χ2可以用于测定两个分类变量之间的相关程度。若用fo表示观察值频数,用fe表示期望值频数,则χ2统计量可以写为:

  χ2统计量有如下特征:首先,χ2≥ 0,因为它是对平房结果的汇总;其次,χ2统计量的分布与度有关;最后,χ2统计量描述了观察值与期望值的接近程度。两者越接近,计算出的χ2越小。χ2检验线的计算结果与χ2分布中的临界值进行比较,做出是否原假设的统计决策。度越小,分布就越向左倾斜,随着度的增加,χ

  2分布的倾斜程度趋于缓解,χ2分布将趋近于对称的正态分布。利用χ2统计量,可以对分类数据进行拟合优度检验和独立性检验。a9.2 拟合优度检验

  1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以α = 0.1的显著水平检验存活状况与性别是否有关。解:

  χ2分布表,χ0.12(1) = 2.706,括号中的数字表示度。因为χ2远大于χ0.12,故H0,接受H1,说明存活状况与性别显著相关。

  独立性检验就是分析列联表中行变量和列变量是否相互独立。在独立性检验中,可以采用下式计算任何一个单元中频数的期望值:

  式中,fe为给定单元中的频数期望值;RT为给定单元所在行的合计,CT为给定单元所在列的合计;n为观察值的总个数,即样本量。

  2是按卡方公式计算出的值,n为列联表中的总频数,也即样本量。计算出的φ系数可以控制在0~1这个范围。列相关系数

  2列联表的情况。c系数的计算公式为:当列联表中的两个变量相互独立时,系数c = 0,但它不可能大于1。c系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。

  值为基础,式中的min[(R-1),(C-1)]表示取(R-1),(C-1)中较小的一个。当两个变量完全相关时,V=1;当两个变量相互独立时,V=0。分析原料的质量是否与生产地有关,将500件随机抽取的产品按质量和产地构造列联表如下:

  三种列联表系数的值都较小,因此综合起来可以认为,虽然检验表明原料的等级和地区有一定关系,但这种关系梦见刮大风的密切程度不太高。

  2分布进行独立性检验,要求样本量必须足够大,特别是每个单元中的期望频数不能过小,否则会造成对χ2的高估,从而导致不适当地H0的结论,处理的方法是将较小的fe合并。a第10章 方差分析

  因子。因素的不同表现称为水平或处理。每个因子水平下得到的样本数据称为观测值。进行方差分析时,需要考虑数据误差的来源。数据的误差是用平方和来表示的。反映全部数据误差大小的平方和称为总平方和(SST)

  组内平方和(SSE),也称为误差平方和或残差平方和,它反映了每个样本内各观测值的离散状况;反映组间误差大小的平方和称为组间平方和(SSA),它反映了样本均值之间的差异程度。a方差分析步骤

  由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的度,这一结果称为

  SST的度为n-1,其中n为全部观测值的个数;SSA的度为k-1,其中k为因素水平(总体)的个数;SSE的度为n-k。

  组内方差,记为MSE:MSE = SSE / ( n-k )将上述MSA和MSE进行对比,即得到所需要的检验统计量F。当H0时,二者的比值服从度为k-1、分母度为n-k的F分布,即:

  授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要不懈地积累!

  

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
本文网址:
下一篇:没有资料