一、 绪论
总体与样本
医学研究的“总体”都是无限总体;总体中抽取部分样本(有限总体),可用于推断总体特征。
参数与统计量
- 参数:描述总体特征的统计学指标(未知)
- 统计量:依据样本量计算出的特征指标(已知)
总体->样本->统计量->参数
误差
- 系统误差:固定因素,可以消除或控制
- 测量误差:不可避免,但有规律,可多次测量减弱
- 抽样误差:由于个体差异,引起的样本统计量与总体参数之间的差异;不可避免,可以增大样本量来减弱,可以用统计方法分析
统计研究设计
- 观察性研究:
- 横断面研究:了解疾病或暴露的现患情况及分布特征
- 队列研究:观察暴露组和非暴露组随时间发生疾病的情况;分为前瞻性和回顾性队列研究
- 病例对照研究:比较病例组和对照组的暴露情况
- 实验性研究:
统计分析方法
统计描述
运用统计指标(均数、标准差、率、统计表和统计图)对数量特征和分布规律进行客观描述和表达,不涉及样本推断总体的问题。
统计推断
在一定置信度或概率保证下,根据样本信息推断总体特征。
包括参数估计(用样本指标推断总体相应的指标)和假设检验(由样本之间的差异,推断总体之间是否可能存在差异)。见第六章。
二、 定量数据的统计描述
频数分布
- 两个重要特征:集中趋势、离散趋势
- 分布类型:对称分布、偏态分布(正偏态分布——右拖尾、负偏态分布——左拖尾)
集中趋势
算数平均
适用于对称分布资料、正态或近似正态分布的资料
直接法: Xˉ=n∑Xi
加权法:
将个观察值编制频数表,算出各组中值 X=2上限+下限
Xˉ=∑f∑fX
几何平均
适用于原始数据呈偏态分布、经过对数变换后近似正态分布的资料;或观察值呈近似倍数关系的资料。
医学上:血清抗体滴度、血清凝集效价等
直接法: G=nX1X2…Xn=lg−1n∑lgx
加权法: G=lg−1n∑lgx
中位数
直接法: M=X2n+1 or 2X2n+X(2n+1)
频数表法: M=L+fi(2n−∑fL)
L 是中位数所在组的下限, i 是本组组距, f 是本组频数, ∑fL 为上一组累计频数。
离散趋势
全距(极差 R)
一组观察值中最大值与最小值之差,反映个体差异的范围。
与变异度呈正相关,易受个别数据的影响,稳定性较差。
百分位数与四分位数间距
百分位数: 将观察值从小到大排列,第 x 百分位数记作 Px
Px=L+fxi(n⋅x%−∑fL)
- P25,P75 四分位数间距
- P2.5,P97.5 医学参考值范围
- 百分位数可用于任何频数分布的资料,尤其是明显呈偏态分布的资料,但靠近两端的百分位数仅在样本量较大时才比较稳定。
四分位数间距: IQR=P75−P25=M(P25,P75)
- QL=Q1=P25
- Q2=P50
- QU=Q3=P75
方差与标准差
用于对称分布(特别是正态分布)的资料,表示观察值分布的离散程度。
总体:
- 方差:σ2=N∑(X−μ)2
- 标准差:σ=N∑(X−μ)2
样本:
- μ 未知,用样本均数 Xˉ 代替
- 样本含量n?用n−1(自由度)代替N
- 样本标准差:S=n−1∑(X−Xˉ)2=n−1∑X2−n(∑X)2
- 加权法:S=∑f−1∑fX2−∑f(∑fX)2
变异系数
CV=XˉS×100%
- CV越大,观察值的离散程度越大,反之越小。
- CV无度量单位,可以比较度量单位不同的观察值的离散程度。
- CV也可用于比较均数相差悬殊的观察值的离散程度。
小结
- 对称分布,正态分布:Mean±SD
- 明显偏态或分布不明显:Median(Range/IQR)
三、 正态分布与医学参考值范围
正态分布特征
f(X)=σ2π1e−2σ2(X−μ)2
记作
X∼N(μ,σ2)
- μ 是随机变量的均值,描述其集中趋势。μ增大,曲线右移
- σ2 是随机变量的方差,描述其离散程度。σ越大,数据分布分散,曲线矮胖
标准正态分布
u变换:令 u=σX−μ
则一般正态分布 X∼N(μ,σ2) 转为标准正态分布 u∼N(0,1)
f(u)=2π1exp(−2u2),−∞<u<∞
医学参考值范围
正态分布法
常用 u 值:1.96
如制定 95% 参考值范围(双侧),uα/2=u0.05/2=1.96
百分位数法
分别计算 P2.5 和 P97.5
四、 定性数据的统计描述
相对数
两个有关联的绝对数/统计指标之比。
率 Rate
率=可能发生某现象的观察单位总数实际可能发生某现象的观察单位数×K
通常是指固定时间内发生的频率,如出生率、死亡率、发病率等。
平均人口数=2上期末人口数+本期末人口数 or 期中人口数
患病率(PR)=发病率(IR)×病程(D)
构成比 Proportion
构成比=同一事物各构成部分的观察单位总数事物内部某一部分的观察单位数×100%
强调整体和局部的比例关系。
相对比 Relative Ratio
相对比=乙指标甲指标
如:性别比;医院诊床比;体重指数;变异系数;相对危险度(RR),比值比(OR)……
RR=非暴露组观察单位总数暴露组发病或死亡单位数=P0P1
OR=对照组的暴露比数病例组的暴露比数=b/da/c=bcad
标准化
P′=N∑NiPi
五、 统计表与统计图
统计表(三线表)
结构:标题、横标目、竖标目、数值
复合表:标目有2个以上层次。
统计图
结构:标题、图域、标目、图例、刻度
半对数图
纵坐标采用对数尺度,横坐标不变,可以反映相对增长量(倍数),正确呈现二者变化速度。
箱式图
多用于比较两组或多组数据的平均水平和变异程度,适用于描述偏态分布的资料。
text------- <---最大值
|
|-----| <---P75
| |
|-----| <---P50
| |
|-----| <---P25
|
------- <---最小值
- 异常值:P75+1.5Q,P25−1.5Q
- 极端值:P75+3Q,P25−3Q
散点图
用点的密集程度和变化趋势表示两指标的直线、曲线关系。
同一个点的横坐标和纵坐标表示同一个研究对象的两个指标值。
直条图和直方图的区别
直条图的横轴是分类变量,直方图的横轴是数值分组变量(连续)
六、 参数估计与假设检验
抽样误差
从同一个总体中反复多次随机抽取容量相等的若干份样本,样本的统计量之间是不同的,抽样误差必然存在。
样本均数的抽样分布特点
围绕着总体均数,中间多、两边少,服从正态分布
均数的标准误(SE)
是样本均数的标准差,是描述均数抽样误差大小的指标。
σxˉ=nσ
- 增大样本量 n 可以降低抽样误差;
- SE越小,用样本均数推断总体均数越可靠;
- 若随机变量 X∼N(μ,σ2) 则样本均数 Xˉ∼N(μ,σxˉ2)
- 实际应用中,总体标准差 σ 未知,用样本标准差 S 估计样本均数的标准误
Sxˉ=nS
率的标准误
样本率的标准差称为率的标准误。
若随机变量 X∼B(n,π) ,则样本率 p=nX 的总体参数为 π ,标准误为
σp=nπ(1−π)
总体概率 π 未知时,用样本率 p 近似地代替 π 得到率标准误的估计值为
Sp=np(1−p)
参数估计
由样本统计量估计总体参数,常见方法有点估计和区间估计。
点估计
用样本均数 Xˉ 作为总体均数 μ 大概点值估计。
区间估计
按一定的概率 100(1−α)% 估计总体均数所在的范围,亦称可信区间(CI)(如果没有特别说明,一般作双侧的区间估计)
α 常取 0.05 或 0.01 ,则 CI 是 95% 或 99%
总体均数的可信区间估计
若总体标准差已知
- 样本均值为 Xˉ,根据中心极限定理,Xˉ∼N(μ,σXˉ2),其中 σXˉ=nσ
- 则 z=σ/nXˉ−μ∼N(0,1) 服从标准正态分布。
- 取 95%CI,则 z=z2α=1.96
- 所以 μ 的 95%CI=(Xˉ−1.96×nσ,Xˉ+1.96×nσ)
若总体标准差未知
n<50 时,用样本标准差 S 代替 σ ,则 S/nXˉ−μ 服从自由度为 ν=n−1 的 t 分布。
μ=(Xˉ−t2α,n−1SXˉ,Xˉ+t2α,n−1SXˉ)
t 分布的中心为 0,总体标准差 >1
自由度 ν 越大,t 分布越接近标准正态分布
n>50 时,t 分布逼近标准正态分布,则 z 可以直接用 1.96(95%CI) 或 2.58(99%CI) 近似。
μ≈(Xˉ−zSXˉ,Xˉ+zSXˉ)
率的可信区间估计
π=(p−z2αSp,p+z2αSp)
七、t检验
要求:方差齐性(见医学统计学2-方差分析-F检验)
假设检验
假设
- H0 原假设:零假设或无效假设(差异在可接受范围内);
- H1 备择假设:与零假设相互对立,通常是我们希望看到的结果。
I、II类错误与检验水准
- I 类错误:拒绝了实际上成立的 H0
- α 检验水准:表示允许犯 I 类错误的最大允许概率(人为规定),常设为 0.05(双侧)
- II 类错误:接受了实际上不成立的 H0
- β 检验水准:表示允许犯 II 类错误的最大允许概率,常设为 0.2(双侧)
P值的计算
- 检验统计量:t=估计值的SE估计值−假设检验值(对估计值与假设检验值的差异的标准化转换)
- P 值:在 H0 成立条件下,出现现有样本统计量以及更极端情况的概率,根据大小做出拒绝/不拒绝 H0 的统计推断
- t≤tα/2,ν⟹P≤α 时,可以拒绝 H0,即 H1 成立
- t>tα/2,ν⟹P>α 时,不能拒绝 H0
单样本t检验
适用于:推断样本所来自的总体均数 μ 与普遍的总体均数 μ0 有无差别。
t=S/nXˉ−μ0,ν=n−1
- 零假设(H0):样本均值 = 总体均值(μ=μ0)
- 备择假设(H1):
- 双侧检验:μ=μ0,P(∣t∣>观测值) = 两端尾部面积之和
- 单侧检验:μ>μ0 或 μ<μ0,P(t>观测值) 或 P(t<观测值) = 一端尾部面积
配对样本t检验
适用于:
- 同一受试对象实验前后比较;
- 同一样品两种方法检验效果比较;
- 配对的两种受试对象分别接受两种处理后的数据比较。
目的:控制可能存在的非处理因素。
基本原理:假设两种处理效应相同,则服从正态分布的各对数据间的差值 d 的总体均数 μd=0
等同于:差值样本均数 dˉ 与总体均数 0 的单样本 t 检验。
t=Sd/ndˉ−0,ν=n−1
两独立样本检验
适用于:
- 两组随机分成的观察对象分别给予不同的处理;
- 比较某一指标在不同特征人群中是否相等。
目的:检验两样本各自代表的总体均数 μ1 与 μ2 是否相等。
若两样本含量均较大,使用z检验
z=SE(X1ˉ−X2ˉ)X1ˉ−X2ˉ=n1S12+n2S22X1ˉ−X2ˉ
注:此处用到前置知识:对于独立随机变量,差的方差等于方差之和,即
Var(A−B)=Var(A)+Var(B)
∴SE(A−B)=SE(A)2+SE(B)2
两样本率的z检验
z=p^(1−p^)(n11+n21)p^1−p^2
其中:
p^1,p^2 = 两组样本比例
p^=n1+n2x1+x2 = 合并比例(x为成功次数)
若两样本含量较小,使用t检验
要求:样本来自正态分布总体,且两总体方差相等。
t=SE(X1ˉ−X2ˉ)X1ˉ−X2ˉ
其中
SE(X1ˉ−X2ˉ)=Scn11+n21
Sc2 称为合并方差,是对总体方差的估计,且有
Sc2=n1+n2−2∑X12−n1(∑X1)2+∑X22−n2(∑X2)2
自由度 ν=n1+n2−2