本是带全部公式的 《心理统计学》
前言
这门课占35分,结构一般是(9个单选+1个多选+1个简答或综合),不过每年可能不一样,分值权重感觉比测量要大一些,特别是大题,不过大致差不多。 心理统计学在心理学中的重要性不言而喻,如果说实验心理学的建立让心理学成为一门的科学,那么心理统计学可谓是最大的功臣。没有心理统计学提供强有力的科学数据。心理学的理论就仅仅是个理论,上不了台面。世界上只有一个东西不会撒谎,那就是数据,一个理论如果没有强大的数据支持,那么这个理论的可信度也就大打折扣了。所以心理统计学就承担了这么一个工作,为你的理论在数学上提供可靠的科学依据。 总所周知,高等数学是心理学本科的必修课之一,很多人认为心理统计学难学和数学不好有关,虽说心理统计和数学都是和数字打交道。不过,他们确真没多大联系。打个比方,学心理统计学就好比是学电脑,会使用就行(office的使用)。学数学就好比学编程,掌握程序的来龙去脉(编写office的程序)。心理统计学对于心理学是一种工具。学好这个是为了将来运用SPSS这些统计软件做准备的。
(当然,如果你追求更高层次的数理统计,硬要搞清楚这些公式怎么来的,也好,不过最好等考上了,再慢慢研究也不迟)
本宝典也好比是心理统计学这个工具的使用手册,不过还需两件神器:智力正常的人脑+按键正常的计算器(带统计功能) 这部分参考书目如下:
《心理学专业基础综合考试大纲》(2011年版)教育部考试中心 《心理学专业基础综合考试大纲解析》(2011年版)高教
《现代心理与教育统计学》 张厚粲 徐建平 北师大出版社(2004年版) 《心理与教育统计学》 邵志芳 上海科学普及出版社 (2004年版) 《心理学统考重难点手册》 2011第三版 《MJ心理大纲详解》(小白修订版) 白云子 《心理统计常用公式总结》
开始
一、描述统计
所谓描述描述统计,就是描述一组数据的全貌。(集中趋势,离中趋势,相关关系),也是推论统计的基础。 (一)统计图表
我们随便拿来一片实证研究的论文,里面都有统计图和统计表。可以把你整理的数据以最直观的方式呈现给读者,让读者一目了然。
在做统计图和统计表之前要先对你搜集来的资料进行初步的整理,对数据进行排序和统计分
组
1、统计图
统计图一般采用直角坐标系,通常横轴表示自变量(类别),称为分类轴。纵轴表示因变量(次数),称为数值轴。
统计图一般由下面几个部分组成:(这个书上有图,一看便知)张奶奶P29 图号及图题;图目;图尺;图形;图例;图注 次数分布图
根据次数分布表绘制的图,更为直观。 直方图
矩形面积表示连续性随机变量次数分布的图性。没画矩形叫组织图。 次数多边形图
是一种表示连续性随机变量次数分布的线形图
累加次数分布图
根据累加次数分布表绘制而成,分为累加直方图和累加曲线图 2、统计表
统计表一般由下面几个部分组成:(这个书上有图,一看便知)张奶奶P28 表号;标目;数字;表注 次数分布表
简单次数分布表(数据个数和分布范围比较小的时候用)
依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。 分组次数分布表(数据个数和分布范围比较大的时候用) 数据量很大时,应该把所有的数据先划分在若干区间,然后按其数值大小划分到相应区域的组别内,分别统计各个组别中包括的数据的个数,再用列表的形式呈现出来。 编制步骤:
1、求全距,就是最大数和最小数之间的差距。 2、决定组距和组数, 组距(i),任意一组的起点和终点的距离,根据全距来定。全距大,组距也可以大一些,一般取2、3、4、5、10、20等。便于计算。如果先确定了组数,那么全距除以组数后取整也可以。 组数(K),分组数目,要根据数目的多 少来确定,如果数据在100个以上,一般分10—20组。
分组最优关系公式(总体正态): (N为数据个数,K为近似取整) 3、列出分组区间
就是组限,一组起点和终点之间的距离。组限有表述上下限(10—19;20—29)和精确上下限(9.5—19.499;19.5—29.499),一般书写时按照表述上下限,计算和分组时按照精确上下限。
4、登记次数(将数据等级到相应的组别内)
5、计算次数(计算各组次数和总次数并核对,然后写出组中值、次数、频数和百分次数) 相对次数分布表:用频数比率或百分数来表示次数
累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。
双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。 不等距次数分布表:工资级别,年龄分组 其它的统计图表
简单表
只列出统计指标名称 分组表
只有一个分类标志的统计表也叫单向表 复合表
分组标志有两个以上 条形图
主要用于表示离散型数据 圆形图
也叫饼图,用于表示间断性资料 线形图
更多用于表示连续性资料 (二)集中量数
用于描述数据分布中大量数据朝某个方向集中的程度 1、算术平均数
平均数的特点:
在一组数据中每个变量与平均数之差(离均差)的总和等于0
在一组数据中,每一个数都加上一个常数C,则所得的平均数为原来的平均数加常数C
在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以常数C
平均数的意义:
算术平均数是应用最普遍的集中量数,是“真值”最佳的估计值。所谓真值就是观测事物真值的值。当观测次数趋于无穷时,算术平均数趋于真值。 平均数的优缺点: 优点:
1、反应灵敏(任何一个值变动,都能反应出来) 2、计算严密(有确定的公式) 3、计算简单(简单的四则运算) 4、简明易解(概念容易理解)
5、较少受抽样变动的影响(观测样本的大小或个体大小的变化,对计算的影响很小) 缺点:
1、易受极端数据的影响(正因为反应灵敏,所以受极端数据影响大,可以通过剔除极端值的方法解决)
2、若出现模糊不清的数据时,无法计算平均数(如果缺少数据,一般采用中数代替) 书写时,注意比原来测量的数据多一位数字 计算和运用平均数的原则
同质性原则(不同质的数据不能算)
平均数与个体数值相结合的原则(不要忘记结合个体数值给予参考) 平均数与标准差、方差相结合原则(标准差小,平均数的代表性好) 2、中数
中数符号是以Md或Mdn,表示按顺序排列在一起的一组数据中居于中间位置的数,在这组
数据中,有一半数据比它大,一半数据比它小。 计算方法:
一组数据中有重复数值的情况(算法不一样)【我用SPSS算过,其实还是直接算的】 重复数列不在中间时,没关系
重复的数列在中间时,有点难算,我总结了一种方法,保证做对。
无论是奇数偶数都适合,叫画线法,首先将数列排序,然后再中数的位置画一条线,奇数的会穿过数字,偶数的会划在两个数字之间,然后对这个数取精确上下限。标出下限所在的位置和上限所在的位置。最后中数就是精确下限加上这条线分隔的位置的比例(画线位置占了全距的几分之几)。就可以了。
(偶数)举个例子:11,11,11,11,13!13,13,17,17,18
线划在感叹号那,13的精确下限是12.5,叹号的位置是第一个三分之一处,所以就是12.5+0.33=12.83 中数的优缺点: 优点:
计算简单,容易理解 中数概念简单明白 缺点:
不是每个数据都参与计算,不能反映全体
反应不够灵敏,极端值的变化对中数不产生影响 中数受抽样影响较大,不如平均数稳定 中数不能进行代数运算 使用条件: 出现极端数据
分布两端数据或个别数据不清楚 需要快速估计时 3、众数
出现次数最多的那个数。掩盖的信息比揭示的多,一般应用不广泛。 计算方法:(皮尔逊公式需要接近正态,金式公式适合偏态)
众数的优缺点:
优点:概念简单明了,较少受极端数目的影响
缺点:不稳定,受样本变动的影响,反应不够灵敏,并能进行代数运算 使用条件:
快速粗略的寻找一组数据的代表值 当一组数据出现不同质情况时
次数分布中有两极端数目时,除了用中数还可以用众数 当粗略估计次数分布形态时,有时用平均数与众数之差 平均数,中数,众数三者的关系
正态分布中:平均数,中数,众数相等 正偏态分布:Mo < Mdn < M 负偏态分布:M < Mdn < Mo (记住众数最高就行) (三)差异量数
用于描述数据分布中大量数据彼此分散的程度 1、离差和平均差
离差就是离均差,是某一数据与平均数的差,表示每一个观测值与平均数距离的大小,正负号说明了偏差的方向,所以观测值离差的总和总是为0。 平均差就是所以离差绝对值的平均值。平均差充分考虑了每个数值的离中情况,完整的反应了全部数值的分散程度,在反应离中趋势方面比较灵敏,计算方法也比较简单。 计算公式:
2、方差和标准差
方差也叫变异数,均方。作为样本统计量用符号s2表示,作为总体参数用符号σ2表示,是离均差平方后的平均数。
标准差是方差的平方根。作为样本统计量用符号s表示,作为总体参数用符号σ表示。 计算方法: 方差:
标准差:
总标准差的合成 ,
其中
方差和标准差的性质和意义
性质:方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。方差分析就是利用方差的这个特点。并进一步说明各种变异对总结过的影响 标准差是方差的平方根,不可以进行代数运算,但有如下特点:
每一个观测值都加一个相同的常数C之后,计算得到的标准差等于原来的标准差 每一个观测值都乘以一个相同的常数C,所得到的标准差等于原标准差乘以这个常数 以上两点结合如果先乘以一个常数,再加上一个常数,所得到的标准差等于原标准差乘以这个常数 意义:
方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明次数分布的离散程度越大。它们是统计描述与统计推断分析中最常用的差异量数。 标准差的特点:
优点:反应灵敏;公式严密;计算容易;适合代数运算;受抽样变动小,简单明了 确定:易受极端数据影响 3、变异系数
变异系数又称差异系数,他是一种相对量数。 适用条件:
两个或两个以上样本所使用的观测工具不同,所测的特质不同
两个或两个以上样本使用的是同种观测工具,所测的特质相同,但样本间水平差异较大 计算方法:
使用须知:测量数据必须等距;测量工具具备绝对零;由于尚无有效的检验方法,目前不能进行推理统计。
(四)相对量数 1、百分位数
百分位数是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。第P个百分位数就是指在其值P的数据以下,包括分布中全部数据的百分之p。 2、百分等级
指一个分数在整个数据分布中所处的百分位置 3、标准分数
标准分数(Z分数):以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数,离平均数有多远,表示原始分数在平均数以上或以下几个标准差的位置,从而明确该分数在团体中的相对位置。
简而言之,标准差解决了一个大问题,分数经过标准化就可以放在一起比较了。高考分数就是经过标准化以后,所以可以直接相加。 计算方法:
,其中 X 为原始数据, 为平均数, S 为标准差
把原始分数转换成标准分数,就是把单位不等距和缺乏明确参照点的分数转换为以标准差为单位,以平均数为参照点的分数 标准分数的性质:
标准分数无单位,以标准差为单位,以平均数为参照点的分数
转换得到的标准分数可以是正值也可以是负值,所有原始分数的Z分数之和为0,,Z分数的平均数也为0.
将原始分数,转换为标准分数,是线性转换,不改变原有的分数的性质和分布。标准分数的形态和原分布相同。
若原始分数呈正态分布,则转换得到的均值为0,标准差为1的标准正态分布 标准分数的优点:可比性;可加性;明确性;稳定性 标准分数的应用:
比较几个分属性质不同的观测值在各自分布中的相对位置
计算不同质的观测值的总和或平均值,以表示在团体中的相对位置 表示标准测验分数
异常值的取舍(正负3个标准差以外的数据) 常用变式
T分数:T=10*Z+50 平均数:50 标准差:10
CEEB分数:CEEB=100*Z+500平均数:500 标准差:100
智商:IQ=15*Z+100(韦氏智力量表)平均数:100 标准差:15 (五)相关量数
前面讲的都是单变量数据资料的分布特征,相关则是用于描述双变量数据相互之间的关系。 相关就是变量间的不精确,不稳定的相互关系。 相关系数:相关关系强度的指标。作为样本的统计量用r表示,作为总体参数一般用ρ表示。是和平均数,标准差一样应用广泛的统计量。取值范围是[-1,1]。我们这里讲的相关是线性相关。当然即使是线性相关为0仍可能存在曲线相关。 1、积差相关
使用条件:两个呈线性关系的正态连续变量(正态,双变量,成对,连续,大样本) 计算方法: ,其中
N 为成对数据的数目, S x 、 S y 分别为 X 和 Y 的标准差
(变式) 原始数据:
计算积差相关系数的差法公式
关于平均数估计的方法,因为计算机的普及,这种方法已不再使用,考试应该也不会考 2、等级相关
使用条件:这是非参数相关方法,要求两个变量至少有一个是顺序水平。也就是积差相关不满足的,您就用这个。但是注意,凡符合积差相关的不用等级相关。这个精度低些。 计算方法:
,其中 D 为各对偶等级之差
直接用等级序数计算: ,其中 R X 、 R Y 分别为二变量各等级数 有相同等级时:
3、肯德尔等级相关
当要同时研究三个或三个以上变量的一致性或相关性时,可以使用肯德尔和谐系数 使用条件:至少是顺序水平 形式:
多个评定者对一组被试或评定等级的一致性 同一个评定者对同一组被试多次评定 计算方法: 有相同等级:
肯德尔U系数
适用于对K个评价者的一致性进行统计分析,处理的问题和W系数是一样的,知识所处理的资料不一样。还记得实验心理学的对偶比较法么,就是用该方法来计算相关系数 计算方法:
4、点二列相关与二列相关
当两列变量,一列是等比或等距数据,另一列是类别变量。要求这样的相关就需用到者两种方法
所谓二分变量指取值只有两种变量。包括客观二分变量和人为二分变量 客观二分变量:如性别,只有男女两种
人为的二分变量:如考试成绩分为及格和不及格。如果及格线是65分,有些人的成绩就会由及格变为不及格。所以说这种变量是人为的。 点二列相关
使用条件:一列总体正态,至少等距数据,另一列是客观的二分变量 计算方法:
,其中 是两个二分变量对偶的连续变量的平均数,
p 、 q 是二分变量各自所占的比率, p+q=1 , S t 是连续变量的标准差 二列相关
使用条件:一列总体正态,至少等距数据,另一列是人为的二分变量
,其中 S T 与 是连续变量的标准差与平均数, y 为 P 的正态曲线的高度 5、Φ相关
适用条件:当两个互相关联着的变量分布都是真正的二分变量时 计算方法:
后记
描述统计是推论统计的基础,所以必须认真看,认真背。有人问,要不要背公式,我认为基础公式必须牢记于心,就好像你上战场打仗,很好,但是却没子弹一般尴尬。掌握了统计原理,还怕背几个公式。其实也不多的。统计一旦考大题那可是30分那,所以千万不可掉以轻心。
介绍: 弗兰西斯·高尔顿(Francis Galton,1822年2月16日—1911年1月17日),查尔斯·达尔文的表亲(高尔顿为达尔文的表兄),是一名英格兰维多利亚时代的文艺复兴人、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和基因学家。 高尔顿一生中发表了超过340篇的报告和书籍,他在1909年被授与爵士。他在1883年率先使用「优生学」(eugenics)一词。在他于1869年的著作《遗传的天才》(Hereditary Genius)中,高尔顿主张人类的才能是能够透过遗传延续的。此外,他在统计学方面也有贡献,高尔顿在1877年发表的关于种子的研究结果中指出了回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是回归一词的起源。在此后的研究中高尔顿第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。同时他也发表了关于指纹的论文和书籍,被认为对于现代利用指纹进行犯罪搜查方面有很大的贡献。
二、推断统计(核心)
科学研究的目的是,通过对样本数据的研究来推测总体,并对推断的正确性如何进行概率检验。他的基础是概率论。 (一)推断统计的数学基础 1、概率
后验概率:出现概率与观测概率的比值稳定在一个常数P上 先验概率:直接计算的比值,是真实的概率,而不是估计值 经过多次观测时,后验概率基本接近先验概率 概率的基本性质:任何一个随机事件的概率都是非负的;在一定条件下必然发生的必然事件的概率为1;在一定条件下,不可能事件的概率为0
概率的加法定理:互不相容事件之和等于两个事件概率之和
概率的乘法定理:两个事件发生的概率等于两事件概率的乘积 2、正态分布
正态分布呈倒挂的钟形,两头小,中间大;正态分布的点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯。平均数μ和标准差σ决定着曲线的位置和形状:σ越大,曲线越是“低阔”;σ越小,曲线越是“高窄”。 标准正态分布
平均数为0,标准差为1的正态分布,就是标准正态分布。
3、二项分布
二项分布是指仅有两种不同性质结果的概率分布。 二项分布的形态
离散型分布,概率直方图是阶跃式 p=q的时候,对称。否则出现偏态 n趋于无穷大时,二项分布趋于正态 二项分布的平均数: 标准差:
一般认为,当p<q,np≥5(或p>q,nq≥5),二项分布接近正态 4、t分布
特点:钟形,单峰对称。与正态分布相比,中间低而陡峭,两边高而平坦。平均数为0 t分布与标准差无关,而与n-1(自由度df)有关,随自由度得变化而变化,当自由度趋于无穷时,t分布趋于正态分布,且方差为1。我们认为自由度大于30,可近似正态分布。自由度是t分布中随机变量的数目。 5、F分布
特点:正偏态分布,他的分布曲线随分子,分母的自由度不同而不同,当两个自由度都趋近于无穷时,F分布趋于正态分布。F总为正值,因为是两个方差的比率。当分子自由度为1时,F值与分母自由度相同概率的t值的平方相等。F分布常用于有关方差的研究当中。 6、样本平均数分布
总体分布为正态,方差未知时,样本平均数的分布为t分布
总体分布非正态,其方差又未知时,如果n>30,认为是近似正态分布 7、抽样原理与抽样方法 抽样原理
随机化是抽样研究的基本原则,随机抽样可以控制掉大多数额外变量。 我们都说通过样本来推测总体,那什么样的样本才能推测出总体呢,当然是具有代表性的样本喽,怎么找到具有代表性的样本呢,那就需要运用抽样原理与抽样方法 简单随机抽样
抽取时,总体的每个个体应有的、等概率被抽取的可能。比如抽签法和随机数字法。 优点:最符合随机原则,分析抽样误差比较简明
缺点:总体很大时,操作困难。忽略总体已有的信息,降低样本代表性。 等距抽样
也叫系统抽样,是在简单随机抽样中,每隔一段取一个。 优点:简便易行
缺点:如果总体具有周期性变化,则不能用。 分层随机抽样
按照总体已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。 优点:充分利用了总体的信息,样本代表性及推论的精确性更好 分阶段抽样 如果总体很大,样本很小,中间层次有较多单位,但并无过大区别,也可采取分阶段的方法。 (二)参数估计
1、点估计、区间估计与标准误
点估计:是用样本统计量来估计总体参数,因为样本统计量为数轴上的一点值,估计的结果也以一个点的数值表示,所以称为点估计。
良好估计量的标准:无偏性,有效性,一致性,充分性 区间估计:就是根据估计量以一定可靠程度推断总体参数所在区间范围,他是用数轴上一段
距离表示未知参数可能落入的范围,它虽不具体指出总体参数等于什么,但能指出未知总体参数落入某一区间的概率有多大。
置信区间:在某一置信信度时,总体参数所在的区域或区域长度。 显著性水平:指估计总体落在某一区间的时,犯错误的概率。 区间估计的原理:样本分布理论
标准误:反应样本均数之间的变异,是多个样本平均数的标准差。用来衡量抽样误差,标准误越小,样本对总体就越有代表性。推断总体也就越可靠。 平均数分布的标准误: (总体方差已知时) 2、总体平均数的估计
总体平均数的估计方法大致有三种,对比如下:(小白修订版整理) 正态法(Z) 已知 t分布法 未知 近似正态法(Z’) 条件 总体正态,n不论大小;或总体非正态,n≥30 总体不论正态与否,n≥30 标准误 求得置信区间 * 注: 未知,n<30时,必需用t分布法 3、标准差与方差的区间估计 标准差分布的区间估计
根据抽样分布理论,n>30时,样本标准差分布近似正态分布,且 ,则有:
方差分布的区间估计
由于样本方差与总体方差之比的分布呈χ2分布,因此有:
(df=n-1)
在对标准差的总体进行估计时,可先对其方差进行估计(用χ2),求得方差置信区间后,再开平方。其正平方根,便是标准差的相当于方差置信水平的置信区间。 (三)假设检验 1、假设检验的原理
在统计学,通过样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异,这种推论过程称作假设检验。假设检验包括参数检验(总体分布已知)和非参数检验(总体分布未知)
假设检验的基本思想是概率性质的反证法。 假设检验的过程简而言之,就是三步走: 1、确定研究假设H1
2、确定与研究假设对立的假设,虚无假设(H0),将H0作为直接检验的假设 3、进行检验,H0真H1假或H0假H1真
费舍曾说过:每一实验的存在,仅仅是为了给事实一个反驳虚无假设的机会。
注意:假设检验是依据小概率原理来推翻原假设的,也就是在统计学上成立。是百分之99或百分之95的情况下成立的。
假设检验的两类错误(后来应用于信息论的信号检测论)
击中率+漏报率=100% 虚报率+正确否定率=100% 输 入
有信号(H1) 噪音(H0)
反应(注意:在这里H0是无信号,H1是有信号) 接受H1(拒绝H0)
击中 虚报(α错误)
接受H0(拒绝H1) 漏报(β错误) 正确拒绝
其实很简单,我们用反证法进行假设检验的时候,所作出的推断不可能百分之一百正确,那么我们就们就可能犯错误。一项研究,如果我们的一项研究其实是假的,但是检验出来是真的,那么虚报了,犯了I类错误(拒绝了真的虚无假设H0),如果是真的,但是检验出来是假的,那么就是漏报了,犯了II类错误(接受了假的虚无假设H0) 那么看着上图我们来看看α和β的关系
α+β≠1;其他条件不变时,α和β,一个增加,另一个必然减少。但是样本容量增大,则他们同时变小。
我们需要的是在样本容量一定的情况下,同时减少两种错误。一般我们控制I类错误,所以就将犯I类错误的概率α称为假设检验的显著性水平。
单侧检验(既强调大小又强调方向)与双侧检验(强调大小不强调方向) 2、样本与总体平均数差异的检验(表格来自小白修订版,已经完美了!)
检验方法 Z检验 t检验 Z’检验
总体情况
已知
标准误
检
验值
正 态
未知 已知 未知
非正态且n≥30
3、两样本平均数差异的检验
既然是两个样本的话,那么就存在(样本彼此间无关,往往是组间的),相关(样本彼此间存在关联,往往是组内的)
两个总体都是正态分布,两个总体方差都已知 样本的平均数差异检验用Z检验:
相关样本间平均数差异的检验也是Z检验
两个总体都是正态分布,两总体方差未知
方差齐性,样本的平均数差异检验用样本t检验(求联合方差) ;
( )
方差不齐性,样本的平均数差异检验用柯兰克-柯克斯t检验(了解就好) 相关系数未知的相关样本的平均数差异检验用t检验
其中D为每一对对应数据之差 ( ,n为对子数)
相关系数已知的相关样本的平均数差异检验用t检验 : ( )
两个总体都是非正态分布
当n1和n2都是大样本(大于等于30)时,不管方差是否齐性,都可用近似Z’检验:
4、方差齐性检验
通常求F值得时候,将较大的样本方差放在分子,较小的样本方差放在分母
5、相关系数的显著性检验
由于当ρ=0时(近似正态)和当ρ≠0时(不是正态),的分布相差很大,所以要分开检验 积差相关的显著性检验
当ρ=0时,总体上并无相关,用t检验 其中
当ρ≠0时,总体上是相关的,先通过查表将r和ρ转化为费舍Zr和Zρ然后进行Z检验。
(四)方差分析(重点)
1、方差分析的原理与基本过程
使用条件:总体正态分布,变异间相互,各实验出的方差要一致 方差齐性检验,采用哈特莱最大F比率法(上面有)
一般Z检验和t检验只能比较两组数据的平均数差异的显著性,而方差分析可以比较多组平均数差异的显著性检验,还向下兼容,是个多面手。 我们现在讲的方差分析是单因素方差分析,也就是只有一个自变量的方差分析。比较它们不同水平之间的显著性。
方差分析的基本原理是方差的可分解性。方差分析把实验数据的总变异分解成若干不同的来源分量。要想两组数据差异显著,很明显,就是两个数据之间的变化要比两个数据内部的变化要大才行,所以只需要组间的变异显著大于组内就可以了。这就很好办了。因为总变异=组内变异+组间变异。把它们三个算出来就OK了。
注意:这里的平方和指观测数据与平均数据离差的平方总和 总平方和=组内平方和+组间平方和
很多人就奇怪了,这不是方差分析么?怎么是平方和呢?
别着急,还记得方差是离均差平方和的平均数么?放心,再除以样本容量就是方差了。 当然不能直接除以n,因为自由度df才是总体方差的无偏估计量,那么就是 总方差=组内方差+组间方差(这里方差一般叫均方)
那么比较组间变异和组内变异,就变成了,比较组间方差和组内方差了。由于他们只比应该用F检验来进行的,下面的又到大家熟悉的内容了 下面是计算方法: 平方和的计算式 总平方和: 组间平方和: 组内平方和: 自由度的分解
总自由度: 组间自由度: 组内自由度: 变异的分解 总变异: 组间变异: 组内变异:
结论:如果F<1,说明数据的总变异中,组内的只占很少一部分。F=1,组间变异还不是够大。F>1而且落入F分布的临界区域才表面差异显著。 2、完全随机设计的方差分析
看懂了上面的,接下来就容易多了。只要把变异搞清楚就可以了。这个是被试间设计,这里的变异只有组间和组内,所以直接按照上面算就行了。 3、随机区组设计的方差分析
这个好多人说不懂,区组就是按区分组的意思,每个区组的被试都是同质的,同一区组的被试接受所以实验处理。也叫组内设计,这样就把个别差异的影响也考虑在内,最后可以将这种变异分离出来以提高效率。就把组内变异=区组变异+误差项变异。那么组间变异只要显著大于误差项变异就可以认为差异显著了。另外区组变异显著大于误差项变异说明区组效应显著,分组是有必要的。
最后,要是考到了方差分析千万别忘记了最后还有个方差分析表要写!!! 4、协方差分析
关于这部分内容据《重难点手册》上说是来自左任侠的《教育与心理统计学》华师大1982年,有兴趣的同学可以去看看,我找了没找到。 协方差分析是方差分析与回归的综合使用法,是方差分析的引申与扩大,其目的是为了控制误差。如果你认真看实验心理学的话,在额外变量的控制中,就有用协方差分析的方法来控制误差。
原理是,因为实验中很多被试在测试时都不在同一个起始位置(如阅读速度,有的人天生阅读快,有的人天生阅读慢),这时我们可以现根据回归,使各被试都校正到同一初始位置,然后再进行方差分析。 5、多因素方差分析
这个内容,几乎凡是实验处理,都会用到的。计算应该不会考大题,因为不用电脑的话估计个把小时还算不出来。就算考了,也没几个做得出来。所以知道原理和简单的计算就可以了 所谓多因素方差分析是对多个自变量之间进行显著性检验,这里面我们不但要研究各个因素内各水平之间有无显著性差异(主效应),还要研究因素之间是否有相互作用(交互作用) 后面其实好办,还是进行变异分析。
SS处理间:指所有由实验处理引起的变异。 SSA:A因素的处理效应。 SSB:B因素的处理效应。 SSAB:AB间的交互作用。
SS处理内:随机区组设计中,处理平方和被进一步分解为区组效应和残差平方和两部分 SS区组:区组效应;
SS残差:即误差变异,其均方用作其他均方F检验时的误差项。 一般记到这个公式:SS总= SSA+SSB+SS(AB)+SSE 6、事后检验
方差分析只告诉你那些水平之间到底显著还是不显著,要是不显著也没事,一旦显著了,你总得知道是谁和谁发生显著关系的吧,这就需要进行事后检验。注意可不能用t检验或者z检验哦,这样会导致反α类错误的概率增加。所以就要使用多重比较的方法进行显著性检验,目前比较流行的是N-K检验法(也叫q检验)这个一般不太可能考大题。 (五)统计功效与效果量
看了这么多,我们也学了不少检验的方法,但是我们往往在检验过后只知道检验的结果,显著或不显著,但是却不知道,检验的效果怎么样。这时候大纲的这个考点就展现出魅力了。一份论文最终的结果有没有说服力,不单单是一个差异显著就完事了,最好还要说明这个差异有多么,显著。 1、统计功效
击中率+漏报率=100% 虚报率+正确否定率=100% 输 入
有信号(H1) 噪音(H0)
反应(注意:在这里H0是无信号,H1是有信号) 接受H1(拒绝H0)
击中 虚报(α错误)
接受H0(拒绝H1) 漏报(β错误) 正确拒绝
从这个图我们很容易就看出了,要想效果好,这个击中率就必须提高。击中率是1-β,它反映着正确辨别真实差异的能力,统计学把它称为统计功效。 2、效果量
效果量是反应统计检验效果大小的指标。一般用d表示。 是一种比率,本质上等同于信号检测论中的 (辨别力指数),计算公式为: 样本: ; 相关样本:
(六)一元线性回归方程
1、一元线性回归方程的建立、检验及应用 还记得前面讲到的相关关系么,相关关系是一种不稳定不确定的相互关系。线性回归是对相关关系的进一步研究。这里就是要确定相关关系之间的数学模型,使之更好的为我所用。实验心理学了其实也讲过回归,当然这两个还是有点区别的,回归指的是极端数据向平均数据靠拢的趋势,比如两个高个子的结婚,小孩可能比两人矮而趋近人类种族的平均身高。后来回归被用于描述这种不确定的关系
一元线性回归方程(两个变量间的线性相关)
回归方程建立的方法
1、做散点图观察是否能成一条直线 2、设回归方程
3、选用适当方法,求出a,b 4、将a,b代入后得到回归方程 平均数法(粗略,几乎不用)【我用这个算过彩票,无果】 最小二乘法
由于做散点图,任意两点就可以画出一条直线,多以有很多条,必须找一条代表性最好。 简而言之就是要使误差的平方和最小
最后求出来的方程叫y对x的一元线性回归方程 回归模型的检验 有效性的高低指标 测定系数,是回归离差平方和在总离差平方和中所占的比例,是回归方程的有效性高低的指标。就是R的平方 显著性检验
就是对于回归系数b进行显著性检验,如果b是显著的,同样也表明所建的回归方程是显著的,或者说X与Y之间存在显著的线性关系。一般用t检验
( )
从上述公式可以看出,知道相关系数就可以对回归系数进行显著性检验 回归方程的应用
回归分析的目的,就是在测定自变量X与应变量Y的关系为显著性相关后,借助拟合的较优回归模型来预测在自变量X为一定值时因变量Y的发展变化。运用建立的回归模型进行估计和预测是它主要的应用。
点预测:就是将确定自变量x的值直接代入回归模型,得到y值
区间预测:是以一定概率为保证,预测当自变量x取一定值x时,因变量y的可能范围。 2、可化为一元线性回归方程的曲线方程 对数函数
令 ,则曲线转化为:
指数函数 或 ( )
对方程两端求对数,得: 令 , ,则方程转化为:
幂函数 ( )
对方程两端取对数,得: 令 , , ,得:
双曲线函数
令 ,得:
(七)卡方检验
前面讲到的数据,都是通过测量所得的计量数据,但是心理研究有很多是计数数据,我们这时就可以使用卡方检验,当然这时一种非参数的检验方法。 使用条件:
分类相互排斥,互不包容 观测值相互
期望次数的大小至少在5个以上 1、拟合度检验 用途:主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,由于它检验的内容仅涉及一个因素多项分类的计数资料也算是单因素检验。 这里主要是考虑某总体分布和某种分布相符合,不涉及总体参数的问题。所以卡方检验的本质就是检验实测次数与期望次数是否一致
计算方法:先根据样本的分布情况求出理论次数。 自由度=分类项数-用到统计量的个数
我们查表时,得到的概率是双侧概率,但是因为卡方总为正值,所以看上去像单侧。 如果小样本的话(期望次数的小于5个)应该进行校正 耶茨连续性校正公式:
2、性检验
用途:主要用于两个或两个以上因素多项分类的计数资料分析(血型与性格是否有关系),多用于我们说的RXC表(列联表)的格式。 1、提出假设
2、理论次数的计算
3、卡方检验
4、自由度的确定
其中 为该格的次数; 为该格所在行的总次数; 为该格所在列的总次数 如果是四格表(2×2列联表)的话,可以用更简单的公式一步求解。 样本
列联表中若某格的理论次数小于5,一般需要进行叶茨校正:
相关样本
列联表中若某格的理论次数小于5,同样需要校正:
(八)非参数检验
如果说参数检验是正规军的话,非参数检验可算是预备役了,也就是参数检验不行时,在上。一般参数检验都有严格的要求,不是正态分布,就是方差齐性啥的。而非参数检验则没有严格要求。
优点:特别适合顺序变量,特别适合小样本,计算很快。
缺点:未能利用数据的全部信息,将数据转换成顺序变量时会丢失一部分信息,精度不高。而且不能处理交互作用。
1、样本均值差异的非参数检验 秩和检验法
用法:与参数检验样本t检验相对应 两样本容量均小于10
将两样本数据混合,从小到大排序,求秩次;
对容量较小的样本求秩和,记为T;
查表,若T≤T1或T≥T2则两样本差异显著;若T1 用途:对应着两样本平均数之差的t检验,用中数作为集中趋势的量度 计算:将两个样本数据混合从小到大排列 求混合排列的中数 分别找出每一样本中大于混合中数及小于混合中数的数据个数,列成四个表 对四个表进行卡方检验(怎么检验?刚刚还讲过卡方检验,别说不知道。) 克-瓦氏单向方差分析 用途:对应于方差分析的完全随机设计 计算方法: 当组数k=3,ni≤5时 将所有数据混合,排序,求出各个水平的秩和,记为 计算H值: 查表,查H表 当组数k=3,ni>5时 算法同上,算出H值,再用张P357的校正公式进行校正后查卡方表。但是如果未校正时已达显著,则可以不使用校正公式 2、相关样本均值差异的非参数检验 符号检验法 用法:相关样本显著性t检验对应,也是以中数作为集中趋势的量度 计算方法: 当对子数N≤25 1、对于没对数据之差,不计大小,只记符号。正号的记为n+,负号的记为n-,0不用管。数值较小的记为r,n+加n-等于N。 2、根据N与r查符号检验表,若r大于表中临界值,则差异不显著,即接受虚无假设(又是与一般参数检验相反,要特别注意)。 可以看出n+与n-差的越多,越显著。 当对子数N>25 分成的正负号的分布符合二项分布,且大样本时服从正态分布,故可用Z检验 根据二项分布: 符号等级检验法 用途:和上面的是一样的,但是从名字上也可以看出,不但考虑了符号,还考虑了等级,所以有着更高的精度 计算方法: 当对子数N≤25 1、把相关样本对应数据之差值按绝对值从小到大作等级排列 2、在各个等级前面添上原来的正负号 3、分别求出带正号的等级和(T+)与带负号的等级和(T-),取两者之中较小的记作T。 4、根据N查附表,当T值大于临界值时表明差异不显著,小于临界值时说明差异显著 当对子数N>25 一般认为T分布接近正态分布,可以用Z检验 弗里德曼两因素等级方差分析 用途:对应于方差分析的随机区组设计 流程:先把每一个个体的K个观测值的大小赋予相应等级,以这些等级为基础,计算卡方值作为检验统计量 计算方法: 1、将每一区组的K个数据(K个实验处理数)从大到小排除等级 2、每种实验处理n个数据等级和,以Ri表示 3、代入公式 若K=3且n≤9,或K=4且n≤4,则查 表; 若K=3且n>9,或K=4且n>4,查df=K-1的χ2表。 (九)多元统计分析初步 如果说多因素方差分析还有可能出计算题的话,那么下面这些几乎是不可能出计算的,姑且不说有多少本科生上过这个内容,就算上过也未必做得来,更不要说还有大量的跨考生了。所以对他们做些了解就可以了。 1、多元线性回归分析 我们前面看到的一元线性回归,其实一个因变量只受到了一个自变量的影响,变化是按照就是一条直线。但是你也知道,一件事的产生往往是由很多原因导致的,所以往往大量情况时多个自变量影响一个因变量,这就是多元线性回归,往往是曲线。 多元线性回归模型的一般式为: 2、主成分分析 主成分分析实际上就是一种数据简化技术,由于在数据评价中常常会用到多个指标,但是指标越多,就越难以评价,所以我们希望能把多个指标转换成少数几个综合指标。这就是主成分分析。这些综合指标称为主成分。主要目的是降维,一般而言保留的主成分尽量少点,最好只有一个。 3、因素分析 是处理多变量数据的一种统计方法,他可以揭示多变量之间的关系,其主要目的是从为数众多的可观测的变量中概括和综合除少数几个因子,用较少的因子变量来最大程度地概括和解释原有的观测信息,从而建立起简洁的概念系统,揭示出事物之间本质的联系。 附:假设检验总表(来源于小白修订MJ大纲解析) 多组样本的比较 数据类型 单样本问题 样本比较 相关样本比较 样本 重复测量 相关问题 总体正态分等距型 布 单样本t/z检验 样本t/z检相关样本t检样本方重复测量方Pearson积验 验 差分析 差分析 差相关 转化为顺序型 Spearman等级相关 Φ相关 分布形态未大样本下相应大样本下相应大样本下相应知 的t/z检验 的t/z检验 的t检验 转化为顺序型 弗里德曼双向等级方差分析 顺序型 符号检验法 曼-惠特尼U检维尔克松T检克-瓦氏单验 χ2性检验 验 符号检验法 向方差分析 命名型 χ2匹配度检验 χ2性检验 后记 心理统计学,只要弄清楚一般的特点和原理,知道什么情况下使用什么公式就足够应付统考了。平时一定要多做些题目,不要光背不练,光背不练,就是白背了。统计,学起来就像笔版所说的,关键是要培养统计思想。有了这种思想再难的题咱也不怕了。最后一点就是要把统计和实验心理学的实验设计捆绑在一起以应对综合题。 介绍 张厚粲现任北京师范大学心理系教授,博士生导师,校务委员,北京师范大学珠海分校教育学院首席教授,身兼参事,全国政协委员,中国心理学会常务理事,全国教育科学规划委员会学科评议组成员,教育考试研究会副会长和国际心理科盟(IUPsyS)副等多种重要职务。主编了我国最早的《心理与教育统计学》教材,率先开设“心理测量”课程,并应用心理统计和心理测验的理论是中国心理学界的领头人之一,具有很高的学术水平及影响。学识渊博,学术思想活跃,富于开创精神,科研成果斐然。在振兴中国心理科学,推动高等师范学校心理学科和建设上做出许多开创性的工作。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务