医学统计学:是运用统计学原理和方法研究生物医学资料的搜索 整理 分析和推断的一门学科 医学统计学的主要内容1.医学研究统计设计2.分布理论3.统计描述4.参数估计和假设检验5.相关于回归。 同质:性质相同的事物。 变异:由于一种或多种不可控制因素(已知或未知的)以不同程度,不同形式作用于物体的综合表现。 总体:根据研究目的确定的同质的研究对象的全体(集合)。 个体:构成总体的最基本观察单位。 样本:从总体中随机抽取的部分研究对象。样本中所包含的个体数称为样本含量。 随机分为1.抽样随机2.分组随机3.实验顺序随机。 随机变量(变量):由于个体的特征或指标存在个体差异,观察结果的测量前不能准确预测。 统计量:样本所算出的统计指标或特征值。 极差:又称全距,用R表示,是数据集中最大值与最小值之差。 变异系数(cv):亦称离散系数,为标准差与均数只比,常:CV=s/x 统计推断 医学研究往往是从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断 抽样误差:从某总体中随机抽取一个样本来进行研究,而所的样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异称为抽样误差。抽样误差的两个基本条件:1.抽样研究2.个体变异。 标准误:反映均数抽样误差大小的指标,是样本抽样误差的标准差。 系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差 随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的 准确度(accuracy)或真实性(validity) :观察值与真值的接近程度,受系统误差的影响( 可靠度(reliabiliy)—— 也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差的影响
正态分布:又称高斯分布,是一条中间高,两头低,左右完全对称地下降,但永远不与横轴相交的钟形曲线。点估计 是直接用样本统计量作为对应的总体参数的估计值 区间估计 是按一定的概略或可信度用一个区间估计总体参数所在范围。医学参考值范围 :指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。
最常用的是95%参考值范围。95%的可信区间:如果从同一总体中重复抽取100个样本,将可能有95个可信区间包括总体均数,有5个可信区间未包括总体均数。直线回归:在描述两变量间的关系时,若散点图呈直线趋势或有直线相关关系,可进行直线回归分析。参数:根据总体分布特征而计算的总体数值。统计量:根据样本的分布特征而计算得到的数值。病死率:某期间内,某病患者中患某病死亡的频率。
1、★医学统计学工作基本步骤:统计设计;收集资料.;整理资料;分析资料2、★统计分析包括:统计描述、统计推断3、频数分布的两个重要特征:集中趋势和离散趋势4、正态分布的两个参数:均数;标准差。5、★频数表的用途:揭示计量资料的分布类型;揭示计量资料的分布特征;便于发现特大值和特小值;便于进一步进行统计分析★常见的统计资料的类型有:计量资料;计数资料;等级资料7、★t检验的应用条件是:①正态分布:当样本含量较小时,要求样本来自正态总体。②方差齐性:两样本均数比较时,要求两总体方差相等。 U检验的应用条件是:①大样本(如n>50);②小样本,σ已知且样本来自正态总体。8、★.描述分类变量常用的指标有率、构成比、相对数。9、率是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,常用来描述某种现象发生的频率大小或强度 构成比是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,常用来描述某一事物内部各组成部分所占的比重或分布。
10、★四格表卡方专用公式应用条件n≥40,且Tmin≥5 研究事物或现象间的线性关系用相关分析,研究事物或现象间的线性数量依存关系用回归分析。12、是反映两变量线关系间相关的密切程度与相关方向的指标。取值范围为-1≤r≤1★回归系数b 意义是:X 每增加(减)一个单位,Y 平均改变b个单位 ★从总体中抽取样本,一定要遵循科学原则:代表性; 随机性 ;可靠性编制频数表的步骤: 确定全距;确定组距; 确定组段;正字化记.。
1.计量资料统计分析中,常用的集中趋势指标有哪些?适用条件有何不同?
算术均数、几何均数、中位数,统称为平均数,均反映集中趋势。算术均数应用:主要适用于对称分布,尤其适合正态分布资料。几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。在医院中主要用于抗原(体)滴度资料。中位数:、适合条件:a、极偏态资料b、有不确定的数据(有>或<)c、有特大值或特小值d、分布不明的资料
2. ★离散趋势的指标及适用范围
极差适用条件:除了两端有不确定数据之外,均可计算极差。四分位数间距:用于描述偏态分布资料。方差和标准差:用于描述正态分布计量资料的离散程度。变异系数适用条件:a、均数相差较大,b、单位不同
3. ★★★标准差和标准误的联系和区别有哪些?
①概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差, 越小,均数的可靠性越高;②用途不同:标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误用于估计参数的可信区间,进行假设检验等。 与样本含量的关系不同: 当样本含量 n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0
联系: 标准差、标准误均为变异指标,当样本含量不变时,标准误与标准差成正比。
4. ★★简述非参数检验的适用范围?
分布未知未知的计量资料;等级资料;有不确定的数值;各总体方差不齐。
5. ★★Ⅰ型错误和Ⅱ型错误的区别和联系?
区别 Ⅰ型错误(弃真) :拒绝实际成立的H0,型错误的概率记为α。(1-a)即置信度:重复抽样时,样本区间包含总体参数(μ)的百分数。当p≤α而拒绝H0时,只能犯Ⅰ型错误,不可能犯Ⅱ型错误。Ⅱ型错误(存伪) : 不拒绝实际不成立的H0,Ⅱ型错误的概率记为β。(1-β)即把握度(或检验效能):两总体确有差别,被检出有差别的能力。当p≥α而拒绝H0时,只能犯Ⅱ型错误,不可能犯Ⅰ型错误。
联系 对同一资料,α与β反方向变化,若要同时减小α与β,唯一的办法是增加样本含量。
6. ★★★正态分布的特征?
①. 在x= μ 处最高, 以 μ为中心的对称分布 ②左右完全对称下降,但不与横轴
相交. ③两个参数决定位置和变异④.曲线下面积分布有规律
3. 能否说假设检验的p值越小,比较的两个总体指标间差异越大?为什么?
答:不能,因为P值的大小与总体指标间差异大小不完全等同。P值的大小除与总体差异大小有关,更与抽样误差大小有关,同样的总体差异,抽样误差大小不同,所得的P也会不一样,抽样误差大小实际工作
3. 方差分析的基本思想是什么?
答:方差分析的基本思想就是把全部数据的总变异分解成两个或多个组成部分,注意不同设计类型的总变异分解有所不同,但其中都包括随机误差部分,分别将各部分的变异
与随机误差进行比较,通过F值及相应的P值来判断均数间的差别是否具有统计学意义。中主要反映在样本量大小上。
方差分析的主要用途和条件?基本步骤?
答案:用途:(1)进行俩个或俩个以上样本均数的比较。(2)可以同时分析一个,俩个或多个因素对实验结果的作用和影响。(3)分析多个因素的作用及多个因素之间的交互作用。(4)进行俩个或多个样本的方差齐性检验等。
条件:要求各样本为随机样本,各样本来自正态总体,各样本所代表的总体方差齐性或相等。
基本步骤:(1)计算总变异(2)计算各部分变异(3)计算各部分变异的均方(4)计算统计量F值(5)确定P值,推断结论
7. ★何谓假设检验,一般步骤?
假设检验:是对总体做出某种假定,然后根据样本信息推断总体是否成立的一类统计学方法总称。假设检验有三个基本步骤:① 建立假设和确定检验水准, ② 选择检验方法和计算检验统计量 ③ 确定P 值和做出统计推断结论
8. ★假设检验注意事项 ?
①假设检验的前提是要有严密的抽样设计,保证样本是从同质总体中随机抽取。并且,组间的均衡性和资料的可比性应予特别注意,除了对比的因素外,其它影响结果的因素应尽可能相同或基本相同。②选用的检验方法应符合其应用条件。③正确理解差别有无统计
意义的涵义。④ 结论不能绝对化。 ⑤正确选用单侧还是双侧检验。⑥报告结论时,应列出现有样本检验统计量值,说明采用的单侧还是双侧检验,并列出P值的确切范围。
9. ★应用相对数时的注意事项
①计算相对数时分母不能太小②分析时不能以(构成)比代(替)率③总率(平均率)的计算:不能直接相加求和④资料的可比性:两个率要在相同的条件下进行. 研究方法相同、研究对象同质、观察时间相等、地区、民族、年龄、性别等。⑤率也有抽样误差,要进行假设检验
10. ★什么是率的标准化?标准组的选择原则是什么?标准化的注意事项?
当比较的两组资料内部各小组率明显不同,且各小组观测例数的构成比也明显不同时,直接比较两个合计率是不合理的。因为期内部构成比不同,往往影响合计率的大小,需要统一的内部构成进行调整后计算标准化率,使其具有可比性,这种方法称为率的标准化。
标准组的选择原则:①任意一组;②两组之和;③有代表性的人口
标准化的注意事项:①标准不同得到的标化值②内部各小组比较时,可不标化
③标化后的数值不再反映实际水平,反映相对水平。
④标化率也存在抽样误差,要进行假设检验。
12. ★★★直线相关与直线回归的联系和区别?
区别(1) 资料:相关分析要求X、Y服从双变量正态分布 ;回归分析要求Y为正态随机变量,X为选定变量 (2) 应用:研究事物或现象间的线性关系用相关分析;研究事物或现象间的线性数量依存关系用回归分析。(3) 意义:r是反映两变量线关系间相关的密切程度与相关方向的指标;b 意义是:X 每增加(减)一个单位,Y 平均改变b个单位 (4) 计算: b=Lxy/Lxx, (5) 取值范围:-∞联系(1)一致: r与b的正负号一致。(2)假检验等价: tr=tb(3)回归解释相关
判断直线回归的效果:(1)散点图:回归效果好,散点呈直线趋势。(2)确定系数r2指的是应变量Y的总变异中归因与X的部分,若r2=1则SS回归。。。=0则各点严格遵守函数关系。(3)标准估计误差即剩余标准差Syx,它越小,回归效果越好。(4)残差(Y-X),即实测值Y与预测值X之差,反映了X对Y的影响之外的一切因素对Y的变异影响,也就是在总平方和中无法用X解释的部分。
14.制定参考值步骤:(1)从正常人总体中抽样(2)控制测量误差(3)判定是否需要分组确定参考值范围(4)决定单侧还是双侧(5)选择合适的百分上限(6)对资料的分布进行正态性检验(7)根据资料的分配类型选定恰当的方法进行参考值范围的估计。
卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。
8. 简述t分布的特征。
答:(1)单峰分布,以0为中心,左右两侧对称。 (2)t分布曲线不是一条曲线,而是一簇曲线。其分布曲线的形态变化与自由度 υ(υ与n有联系,这里υ=n-1)有关。 ( 3)自由度υ越大,t分布越接近于正态分布;当自由度υ逼近∞,t分布趋向于标准正态分布。
简述实验设计的基本原则。 答:一、对照原则:(1)安慰剂对照(2)空白对照(3)实验对照(4)标准对照(5)自身对照二、随机化原则:(1)随机抽样(2)随机分配(3)实验顺序随机 三、重复原则
1,正态分布的特点?
答案:频数分布以均数为中心,左右基本对称,靠近均数俩侧的频数较多,而俩侧距均数较远时,频数逐渐减少。
2,t分布曲线的特征?
答案:t分布曲线是单峰分布,以0为中心,左右俩侧对称,曲线的中间比标准正态曲线低,,俩侧翘得比标准正态曲线略高。当样本含量越小,t分布与u分布差别越大;当v逐渐增大时,t分布逐渐逼近于u分布,当v=00时,t分布就完全成为u分布。
3,应用相对数应注意的问题?
答案:(1)计算相对数时分母一般不宜过小。(2)分析时不能以构成比代替率。(3)对观察单位数不等的几个率,不能直接相加求其总率。(4)应当注意不能用构成比的动态分析代替率的动态分析。(5)在比较相对数时应注意可比性。(6)对样本率的比较应随机抽样,并做
假设检验。
4,非参数统计的适用条件?
答案:(1)等级资料。(2)偏态分布资料。(3)分布不明的资料。(4)各组方差明显不齐,且不易通过变换达到齐性。(5)组内个别观察值偏离过大的资料。(6)开口分组资料
5,直线相关与回归的区别?
答案:(1)在资料需求上,相关分析要求俩变量X与Y均为服从正态分布的随机变量,即俩者都不能预先指定;回归分析要求Y是正态随机变量,而X可以不是正态随机变量而是一确定值。(2)在意义上,相关反映俩变量的相关关系;回归反映俩变量间的依存关系。(3)在应用上,说明俩变量的相关程度及相关方向用相关;说明俩变量的依存变化的数量关系用回归。
7,标准差和标准误的区别?
答案:(1)标准差:表示个体变量值的变异速度大小;计算变量值的频率分布范围;可对某一个变量值是否在正常范围内作出初步判断;用于计算标准误。(2)标准误:表示样本均数抽样误差的大小;计算总体均数的可信区间;可对总体均数的大小作出初步判断;用于进行假设检验。