医学统计学复习(2)

26 年 1 月 6 日 星期二 (已编辑)
4526 字
23 分钟

八、 方差分析

F 检验

基于 FF 分布的假设检验分布,比较方差或模型整体显著性。

FF 分布由两个独立的卡方分布除以各自自由度后相除得到:

F=χ12/df1χ22/df2F=\frac{\chi_1^2/df_1}{\chi_2^2/df_2}

FF 值越大,说明两组方差差异越显著。

方差齐性检验

用于检验两组或多组数据的 总体方差 是否相等。

F=s12s22(s12>s22)F=\frac{s_1^2}{s_2^2}(s_1^2>s_2^2)

FF 分布表,若 F>Fdf1=df2=n1,α=0.05F>F_{df_1=df_2=n-1,\alpha=0.05},则 拒绝 方差齐性假设。

方差分析

用于多个均数比较,简称 ANOVA。

要求:

  1. 各样本是相互独立的随机样本;
  2. 各样本来自正态总体
  3. 各处理组总体方差相等。

均方 MS: 平方和处以自由度,表示平均变异。SS 作为平方和,是变异的总量。

目的: 检验定量资料(数值变量)中两个或两个以上 总体均数间 差别是否有显著性。

核心思想:变异分解

  • 总变异:全部侧量值 XijX_{ij} 与总体均数 Xˉ\bar{X} 间的差异
  • 组间变异:各组的均数 Xiˉ\bar{X_i} 与总体均数 Xˉ\bar{X} 间的差异
  • 组内变异:每组的 jj 个原始数据与该组的均数 Xiˉ\bar{X_i} 间的差异
SS=SS组间+SS组内\text{SS}_总=\text{SS}_{组间}+\text{SS}_{组内}     i,j(XijXˉ)2=i=1K(XiˉXˉ)2+i,j(XijXiˉ)2\implies\sum_{i,j}{(X_{ij}-\bar{X})^2}=\sum_{i=1}^K{(\bar{X_i}-\bar{X})^2+\sum_{i,j}{(X_{ij}-\bar{X_i})^2}} ν=ν组间+ν组内\nu_总=\nu_{组间}+\nu_{组内}     N1=(K1)+(NK)\implies N-1=(K-1)+(N-K)

变异来源:

  • 组间变异:
    • 处理因素的不同水平对实验结果的影响 (希望看到的变异)
    • 随机误差 (不可避免)
  • 组内变异:
    • 随机误差 (不可避免)

因此,通过分解数据的总变异,比较 组间差异是否显著大于组内差异 ,可以回答处理因素对实验结果是否有影响的问题。

完全随机设计的多个样本均数比较

H0H_0:组间变异等于组内变异,此时 处理因素无显著影响

F=MS组间MS组内=SS组间/ν组间SS组内/ν组内F=\frac{\text{MS}_{组间}}{\text{MS}_{组内}}=\frac{\text{SS}_{组间}/\nu_{组间}}{\text{SS}_{组内}/\nu_{组内}}
  • F1F\approx 1H0H_0 成立;
  • F1F\gg1H0H_0 不成立。

C=(X)2NC=\frac{(\sum X)^2}N

SS=i,j(XijXˉ)2=i,jXi,j2C\text{SS}_总=\sum_{i,j}(X_{ij}-\bar{X})^2=\sum_{i,j} X_{i,j}^2-C SS组间=i=1K(XiˉXˉ)2=i=1K(Xi)2niC\text{SS}_{组间}=\sum_{i=1}^K{(\bar{X_i}-\bar{X})^2}=\sum_{i=1}^K{\frac{(\sum X_i)^2}{n_i}}-C

SS组内=SSSS组间\text{SS}_{组内}=\text{SS}_总-\text{SS}_{组间}

故,题目已知 N,K,ni,Xi,Xi2N,K,n_i,\sum X_i, \sum X_i^2 ,可以求得 FF 的值。

随机区组设计的方差分析

随机区组设计,也叫配伍组设计,指的是将受试对象按性质(控制因素)相同或相近组成 bb区组,每个区组中的 kk受试对象分别随机分配到 kk处理组中。

临床场景:患者病情严重程度不同,按病情分层(区组),每层内随机分配治疗方案。

H0H_0区组间/处理组间总体均数相等。

  • 原则:区组差别,区组差别
  • 作用:能进一步控制个体差异。 SS=SS处理+SS配伍+SS误差\text{SS}_总=\text{SS}_{处理}+\text{SS}_{配伍}+\text{SS}_{误差} ν=ν处理+ν配伍+ν误差\nu_总=\nu_{处理}+\nu_{配伍}+\nu_{误差}
变异来源SS\text{SS}ν\nuFF
x2C\sum{x^2}-CN1N-1
处理组间i=1k(jxij)2bC\sum_{i=1}^k{\frac{(\sum_j x_{ij})^2}b}-Ck1k-1MS处理MS误差\frac{\text{MS}_{处理}}{\text{MS}_{误差}}
区组间j=1b(ixij)2kC\sum_{j=1}^b{\frac{(\sum_i x_{ij})^2}k}-Cb1b-1MS配伍MS误差\frac{\text{MS}_{配伍}}{\text{MS}_{误差}}
误差SSSS处理SS配伍\text{SS}_总-\text{SS}_{处理}-\text{SS}_{配伍}νν处理ν配伍\nu_总-\nu_{处理}-\nu_{配伍}

以临床实验为例:

  • 区组:病情严重程度
    • F区组=MS区组MS误差>F(ν区组,ν误差)拒绝H0F_{区组}=\frac{\text{MS}_{区组}}{\text{MS}_{误差}}>F(\nu_{区组},\nu_{误差})\rightarrow\text{拒绝}H_0 ,则说明病情严重程度确实影响治疗效果
    • 若显著则分层成功控制了混杂因素,提高了检验效能;不影响处理效应。
  • 处理:治疗方案
    • F处理=MS处理MS误差>F(ν处理,ν误差)拒绝H0F_{处理}=\frac{\text{MS}_{处理}}{\text{MS}_{误差}}>F(\nu_{处理},\nu_{误差})\rightarrow\text{拒绝}H_0 ,则说明至少有两种治疗方案效果不同
    • 是研究者最关心的结果,决定了处理是否比先前更为有效。

注: 多重比较会导致犯第一类错误的概率增大: α=1(10.05)m\alpha'=1-(1-0.05)^m

九、 卡方检验

用于检验分类变量间的关联性独立性

四格表资料的卡方检验

研究独立组间数据是否存在差异/变量是否存在关联。

治愈未治愈合计
新药组aabba+ba+b
对照组ccddc+dc+d
合计a+ca+cb+db+dnn

Pearson 卡方公式

χ2=(AT)2T,ν=1\chi^2=\sum\frac{(A-T)^2}T,\nu=1

其中,AA 为实际频数,TT 为理论频数,ν=1\nu=1 为自由度。

理论频数计算公式

Tij=ni+n+jnT_{ij}=\frac{n_{i+}n_{+j}}n

其中,ni+n_{i+}n+jn_{+j} 分别是相应行和列的周边合计数

专用公式

χ2=(adbc)2n(a+b)(c+d)(a+c)(b+d)\chi^2=\frac{(ad-bc)^2n}{(a+b)(c+d)(a+c)(b+d)}

校正公式

χ2=(AT)20.5T\chi^2=\sum\frac{(A-T)^2-0.5}T χ2=(adbcn2)2n(a+b)(c+d)(a+c)(b+d)\chi^2=\frac{(|ad-bc|-\frac{n}2)^2n}{(a+b)(c+d)(a+c)(b+d)}

Fisher 确切概率法

  1. 获得初始四格表的 aTa|a-T_a|PP
  2. 在四格表边缘合计固定不变情况下,不断减小 aa 的值,得到一系列的四格表;
  3. 算出第 ii 个四格表四个格子数据各种组合的概率 PiP_i 同时得到 aTa|a-T_a|
  4. 若表 iiaTa|a-T_a|\geq 初始表的值,则可以算入总 PP 值中。 Pi=(a+b)!(c+d)!(a+c)!(b+d)!a!b!c!d!n!P_i=\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!} P=aiTaiaTaPiP=\sum_{|a_i-T_{a_i}|\geq|a-T_a|}{P_i}

规定:

  1. n40,T5n\geq40,\forall T\geq5 时,不需要校正;
  2. n40,1<T5n\geq40,\exists 1<T\leq5 时,用校正公式;
  3. n<40 OR T<1n<40\text{ OR }\forall T<1 时,用 Fisher\text{Fisher} 确切概率法。

配对四格表资料的卡方检验

适用于同一组对象在干预前后的比较,研究其干预效果。不能用来做独立性检验。

后测:是后测:否合计
前测:是aabba+ba+b
前测:否ccddc+dc+d
合计a+ca+cb+db+dnn

McNemar 检验方法

χ2=(bc)2b+c,ν=1\chi^2=\frac{(b-c)^2}{b+c},\nu=1

(b+c)<40(b+c)<40 时,使用校正公式

χc2=(bc1)2b+c,ν=1\chi_c^2=\frac{(|b-c|-1)^2}{b+c},\nu=1

R×C 列联表的卡方检验

用于多个样本率或多个构成比的比较。其计算公式为

χ2=n(Aij2ni+n+j1),ν=(R1)(C1)\chi^2=n(\sum\frac{A_{ij}^2}{n_{i+}n_{+j}}-1),\nu=(R-1)(C-1)

约束条件:

  1. Aij1\forall A_{ij}\geq 1
  2. T5T\ge5 的格子数至少达到 80%80\%(确保大样本)

注意:

  1. H1H_1 只能认为各总体率有总的区别,不能说明任两个总体率之间有区别;
  2. 与分类变量的顺序无关,对于有序表不宜使用 χ2\chi^2 检验。

十、 非参数检验

适用于:

  1. 不假定总体分布的资料;
  2. 有序分类变量的资料;
  3. 总体方差不齐的资料。

秩 Rank: 按一定大小顺序编排后的排名,相同的值采用平均秩。

Wilcoxon 符号秩和检验

适用于:单样本、配对样本。

建立假设检验

  • H0H_0:假设配对样本效应相同,则每对变量的差值总体以 00 为中心对称分布,差值中位数 Md=0M_d=0
  • H1H_1:配对效应有差别,差值的总体中位数 Md0M_d \neq 0

检验步骤

  1. 正负分开,分别按差值绝对值由小到大编秩

  2. 差值为 00 则丢弃,同时样本例数 1-1

  3. 绝对值相等,符号相反则取平均秩次符号相同取平均或顺次排列

  4. 分别求正负秩次之和 T+T_+ TT_-,取其中任意值为统计量 TT

  5. n50n\leq 50 时,可以查 TT 界值表

    • TT 在范围内,则双侧 p>0.05p>0.05
    • TT 在范围外,则 p<0.05p<0.05
    • 若等于上下限,则 p=0.05p=0.05
  6. n>50n>50 时,无法查表,做近似正态检验

    Z=TμT0.5σTZ=\frac{|T-\mu_T|-0.5}{\sigma_T}

    其中

    μT=n(n+1)4,σT=n(n+1)24\mu_T=\frac{n(n+1)}4, \sigma_T=\sqrt\frac{n(n+1)}{24}
  7. 当相同秩次出现过多时,ZZ 偏小,应该进行校正。

    Zc=Tn(n+1)40.5n(n+1)(2n+1)24(t3t)48Z_c=\frac{|T-\frac{n(n+1)}4|-0.5}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum(t^3-t)}{48}}}

Wilcoxon 两独立样本秩和检验

适用于:两组独立样本(数值、等级型)

建立假设检验

  • H0H_0:两独立样本来自分布相同的总体。此时两样本的平均秩次 T1n1,T2n2\frac{T_1}{n_1},\frac{T_2}{n_2} 相等或很接近。
  • H1H_1:两样本代表的总体分布位置有差异。

检验步骤

  1. 正负分开,分别按差值绝对值由小到大编秩

  2. 较小秩和 T=min(T+,T)T=\min(T_+,T_-)

  3. n110,n2n110n_1\le 10, n_2-n_1\le 10 时,查 TT 临界表;

  4. 超过范围,做近似正态检验

    Z=TμT0.5σTZ=\frac{|T-\mu_T|-0.5}{\sigma_T}

    其中

    μT=n1(n1+n2+1)2,σT=n1n2(n1+n2+1)12\mu_T=\frac{n_1(n_1+n_2+1)}2, \sigma_T=\sqrt\frac{n_1n_2(n_1+n_2+1)}{12}
  5. 当相同秩次出现过多时,同样应该进行校正。这里就不写了。

多个独立样本的 H 检验

适用于:多组独立样本(数值、等级型)

又称 Kruskal-Wallis\text{Kruskal-Wallis} 检验。

建立假设检验

  • H0H_0:多组独立样本代表的总体分布相同。
  • H1H_1:多组独立样本代表的总体分布位置有差异。

检验步骤

  1. 将多组数值从小到大统一编秩,将各组分别相加得到每组秩和 Ri(i=1k)R_i(i=1\dots k)
  2. 计算检验统计量 HH H=12N(N+1)i=1kRi2ni3(N+1)H=\frac{12}{N(N+1)}\sum_{i=1}^k{\frac{R_i^2}{n_i}-3(N+1)}
  3. 存在结(相同秩次)时(假设第 jj 个结的重复次数为 tjt_jHc=H1tj3tjN3NH_c=\frac{H}{1-\sum{\frac{t_j^3-t_j}{N^3-N}}}

十一、 线性回归与相关

线性相关

协方差

Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]
  • 协方差 >0>0 时,(X,Y)(X,Y) 分布在区域(1)(3),它们正相关; 正相关

  • 协方差 <0<0 时,(X,Y)(X,Y) 分布在区域(2)(4),它们负相关; 负相关

  • 协方差 =0=0 时,它们的分布不相关。 不相关

Pearson 积差相关系数

rr,表示两数值变量的相关方向(正负)和密切程度(绝对值)

rx,y=Cov(X,Y)Var(X)Var(Y)r_{x,y}=\frac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

其中

Var(X)=E[(XE[X])2]Var(X)=E[(X-E[X])^2]

这一操作剔除了量纲影响,使其范围限制在 [1,1][-1,1] 之间。

相关性的正负与强度

r\|r\|相关性强度
(0,0.3](0,0.3]较差
(0.3,0.6](0.3,0.6]中度
(0.6,0.8](0.6,0.8]较高
(0.8,1](0.8,1]很高

相关系数的显著性与假设检验

  1. 建立假设:
    • H0H_0:假设总体相关系数 ρ=0\rho=0,在此情况下 r|r| 的出现是偶然情况。
    • H1H_1:在 ρ=0\rho=0 情况下,仅凭抽样波动几乎不可能得到 r|r| 这样极端的值,因此拒绝 H0H_0
  2. 计算统计量:这里以 tt 检验较为普遍 t=r0Srt=\frac{|r-0|}{S_r} 其中 Sr=1r2n2S_r=\sqrt{\frac{1-r^2}{n-2}}rr 的标准误,自由度 ν=n2\nu=n-2
  3. 求出临界值 tα/2,νt_{\alpha/2,\nu} 得到 PP 的关系。

Spearman 秩相关

适用于:

  1. 不服从双变量正态分布的资料
  2. 原始数据用等级表示的材料

分析步骤:

  1. 将变量编秩 RX,RYR_X,R_Y
  2. 算出等级相关系数 rsr_s

线性回归

简单线性回归方程

Y^=a+bX\hat{Y}=a+bX

XX 是自变量(解释变量),YY 是因变量(结果变量),Y^\hat{Y} 是给定 XXYY 的估计值(均值)。

bb 是回归系数。

残差平方和

残差 e=YY^e=Y-\hat{Y} 残差平方和

Q=i=1n(YiYi^)2=i=1n(YbXi)2Q=\sum_{i=1}^n{(Y_i-\hat{Y_i})^2}=\sum_{i=1}^n({Y-bX_i)^2}

通过最小二乘法得出使平方和最小的 bb

b=Cov(X,Y)Var(X)=(XXˉ)(YYˉ)(XXˉ)2b=\frac{Cov(X,Y)}{Var(X)}=\frac{\sum{(X-\bar{X})(Y-\bar{Y})}}{\sum{(X-\bar{X})^2}}

线性回归中总变异的分解

变异来源SSSSν\nuFF
(YYˉ)2\sum{(Y-\bar{Y})^2}n1n-1
回归(Y^Yˉ)2=Cov2(X,Y)Var(X)\sum{(\hat{Y}-\bar{Y})^2}=\frac{Cov^2(X,Y)}{Var(X)}11MS回归MS残差\frac{MS_{回归}}{MS_{残差}}
残差SSSS回归SS_总-SS_{回归}n2n-2

线性回归与相关应用的注意事项

自变量 XX 既可以是随机变量(称为 Ⅱ 型回归模型,两个变量都服从正态分布),也可以是给定的量(称为 I 型回归模型,在 XX 取值固定时 YY 服从正态分布)。

如果 YY 不服从正态分布,在进行回归分析前,应先进行变量的变换以使因变量符合回归分析的要求。

十二、 多元线性回归

多元线性回归

Yi^=b0+b1X1+b2X2++bmXm\hat{Y_i}=b_0+b_1X_1+b_2X_2+\cdots+b_mX_m

ii 表示第 ii 组观测值,观测组的数量 nn 应该 远大于 参数数量 mm

残差平方和

Q=i=1n(YiYi^)2=i=1n[Yi(b0+b1Xi1+b2Xi2++bmXim)]2Q=\sum_{i=1}^n{(Y_i-\hat{Y_i})^2}=\sum_{i=1}^n[{Y_i-(b_0+b_1X_{i1}+b_2X_{i2}+\cdots+b_mX_{im})]^2}

目标是最小化 QQ,用最小二乘法逐步得出 b0mb_{0\dots m}

模型检验-F检验

变异来源SSSSν\nu
(YiYiˉ)2\sum{(Y_i-\bar{Y_i})^2}n1n-1
回归(Yi^Yiˉ)2\sum{(\hat{Y_i}-\bar{Y_i})^2}mm
残差QQnm1n-m-1
F=SS回归/mSS残差/(nm1)F=\frac{SS_{回归}/m}{SS_{残差}/(n-m-1)}

复相关系数和决定系数

复相关系数 RR 表示回归方程中的全部自变量 XX 与因变量 YY 的相关密切程度。

R=SS回归SS,0R1R=\sqrt{\frac{SS_{回归}}{SS_{总}}},0\le R \le1

决定系数 R2R^2 (回归平方和在总平方和的比重)越接近 11 拟合效果越好。

偏回归系数检验

为了保证每一个自变量都与因变量存在线性关系。

假设

  • H0H_0bj=0b_j=0 变量 XjX_jYY 线性无关。
  • H1H_1bj0b_j\ne 0

检验步骤:

  • 方差分析-F检验法

    剔除 jj 以后重新得到回归方程。

F=(SSSS(j))/1SS/(nm1)F=\frac{(SS_{回}-SS_{回(-j)})/1}{SS_{残}/(n-m-1)}
  • t检验法

    tj=bjSE(bj)t_j=\frac{b_j}{SE(b_j)}

    其中

    SE(bj)=MS残差i=1n(XijXjˉ)2(1Rj2)SE(b_j)=\sqrt{\frac{MS_{残差}}{\sum_{i=1}^n{(X_{ij}-\bar{X_j})^2(1-R_j^2)}}}

    Rj2R_j^2 是将 xjx_j 作为因变量,其余 k1k-1 个自变量作为预测变量进行回归得到的 R2R^2

    Rj2=(Xj^Xjˉ)2(XjXjˉ)2=SS回归jSSjR_j^2=\frac{\sum{(\hat{X_j}-\bar{X_j})^2}}{\sum{(X_j-\bar{X_j})^2}}=\frac{SS_{回归j}}{SS_{总j}}

(二者完全等价)

标准化回归系数

bj=bj(SjSY)b_j'=b_j(\frac{S_j}{S_Y})

标准化回归系数越大,该自变量对因变量的贡献越大。

多元逐步回归

解决问题:只保留有统计学意义的自变量。

  1. 向前选择法:从一个自变量开始,对回归平方和最大的自变量做 F 检验,每次引入一个具有统计学意义的自变量,由少到多,直到不具有统计意义的因素不可以引入;
  2. 向后选择法:先建立一个包含所有自变量的回归方程,对偏回归平方和最小的变量做 F 检验,如果不显著就剔除
  3. 逐步选择法:每次向前引入一个新自变量后,重新对已选入的自变量进行检查,引入与剔除交替进行。要求检验水准 α选入α剔除\alpha_{选入}\le \alpha_{剔除}

多元线性回归的注意事项

应用条件:“LINE”

  • Linear:具有线性关系
  • Independent:各观测值相互独立
  • Normal:残差 ee 服从正态分布
  • Equal variance:方差齐性(对于任一组自变量,因变量方差相同)

十三、 Logistic 回归分析

Logistic 回归

因变量为分类变量,概率为 P[0,1]P\in [0,1]

Odds=P1POdds=\frac{P}{1-P} logit(P)=ln(Odds)=ln(P1P)(,+)\text{logit}(P)=\ln(Odds)=\ln(\frac{P}{1-P}) \in(-\infty,+\infty)
Logistic 曲线

经过 logit 变换, Logistic 回归模型可以表示为如下线性形式:

ln(P1P)=β0+β1X1++βmXm\ln(\frac{P}{1-P})=\beta_0+\beta_1X_1+\cdots+\beta_mX_m     P=11+exp[(β0+β1X1++βmXm)]\implies P=\frac1{1+\exp[-(\beta_0+\beta_1X_1+\cdots+\beta_mX_m)]}

Odds Ratio

  • 定义OR=exp[βj(c1c0)]OR=\exp[\beta_j(c_1-c_0)] 表示在其他条件不变的情况下,某个自变量(特征)每增加一个单位时,目标事件发生几率(odds)的变化倍数。
  • 公式:如果c1=1c_1 = 1, 代表暴露组,c0=0c_0 = 0,代表非暴露组,则 OR=exp(βj)OR=\exp(\beta_j)
    • OR=1OR = 1:该特征对事件发生没有影响。
    • OR>1OR > 1:该特征增加事件发生概率(保护因素)。
    • OR<1OR < 1:该特征降低事件发生概率(风险因素)。

最大似然估计 MLE

对于第 ii 个观测的似然:

 Li(β)=PiYi(1Pi)1Yi\ L_i(\beta)=P_i^{Y_i}(1-P_i)^{1-Y_i}

其中 Pi=11+exp[(β0+β1Xi1++βmXim)]P_i=\frac1{1+\exp[-(\beta_0+\beta_1X_{i1}+\cdots+\beta_mX_{im})]}

总似然函数(nn 个独立观测):

L(β)=i=1nPiYi[1Pi]1YiL(\beta)=\prod_{i=1}^n{P_i^{Y_i}[1-P_i]^{1-Y_i}}

目的:找到使得 L(β)L(\beta) 最大的 β\beta,用来估计该模型的参数。

似然比检验 LRT

基于最大似然估计,检验新旧模型的拟合优度,判断新增加的参数是否显著改善了模型。

基本思想:如果简化模型已经足够好,完整模型的似然值不会显著增高。

λ=2ln(L简化L完整)\lambda=-2\ln(\frac{L_{简化}}{L_{完整}})

分布:假设简化模型的参数个数为 ll,完整模型的参数个数为 pp,则 λ\lambda 近似服从 ν=pl\nu=p-lχ2\chi^2 分布。

λχα,ν2\lambda \ge \chi_{\alpha,\nu}^2 :则表示新加入的 ν\nu 个自变量对回归有显著的贡献。

Wald 检验

基于最大似然估计,将各参数 βj\beta_j 的估计值 bjb_j00 比较,检验 βj=0\beta_j=0 是否成立。可以用于判断某个参数是否显著地不为某个特定值(通常为0)。

对于大样本资料,

z=bj0SE(bj) or χ2=(bj0SE(bj))2z=\frac{b_j-0}{\text{SE}(b_j)} \text{ or } \chi^2=(\frac{b_j-0}{\text{SE}(b_j)})^2

服从标准正态分布或 ν=1\nu=1 的卡方分布。

变量筛选

使用逐步回归法筛选自变量(似然比检验),确定选入水准 α\alpha、筛出水准 α\alpha_出

条件 Logistic 回归

在设计阶段对可能构成混杂的因素进行控制,每个病例匹配1至多个对照,是针对配对病例对照研究的一种分析方法。

Logistic 回归应用及注意事项

应用:可以估计某一因素不同水平下的 ORjOR_j 以及近似相对危险度 RRjRR_j

指标定义公式
OR (Odds Ratio)暴露组患病几率与非暴露组患病几率的比值a/bc/d=adbc\frac{a/b}{c/d}=\frac{ad}{bc}​
RR (Relative Risk)暴露组患病概率与非暴露组患病概率的比值a/(a+b)c/(c+d)\frac{a/(a+b)}{c/(c+d)}​

混杂因素的判断标准:

  1. 与暴露因素相关联;
  2. 与结局独立相关;
  3. 不是暴露因素导致结局的中间变量

十四、 生存分析

基本概念

生存时间: 从规定的观察起点到某重点事件出现所经历的时间间隔;

删失数据: 不知道确切生存时间的数据,右删失数据称为截尾数据 t+t^+

生存数据特点:

  1. 同时考虑生存结局和生存时间;
  2. 生存时间可能有删失数据和截尾数据;
  3. 生存时间往往不服从正态分布。

死亡概率: 死于某段时间的可能性大小

q=某年内死亡数某年初观察例数q=\frac{某年内死亡数}{某年初观察例数}

当存在删失数据时,分母改成校正观察例数:

期初校正观察例数=期初观察数12删失例数期初校正观察例数=期初观察数-\frac12删失例数

相对应,有生存概率 p=1qp=1-q

生存率/生存函数: 观察对象的生存时间 TT 大于某时刻 tt 的概率,用 S^(t)\hat{S}(t) 表示:0S^(t)10≤ \hat{S}(t) ≤1,其定义为

S^(t)=P^(T>t)=t时刻存活例数观察总例数\hat{S}(t)=\hat{P}(T>t)=\frac{t 时刻存活例数}{观察总例数}

若有删失数据:需要分段计算生存概率 pj^(j=1,2,,i)\hat{p_j}(j=1,2,\cdots,i)

S^(ti)=p1^p2^pi^=S^(ti1)pi^\hat{S}(t_i)=\hat{p_1}\hat{p_2}\cdots\hat{p_i}=\hat{S}(t_{i-1})\hat{p_i}

风险函数: 生存时间已达到 tt 的观察对象在时刻 tt 瞬时死亡率,用 h(t)h(t) 表示,其定义为

h(t)=limΔt0P(tT<t+ΔtTt)Δth(t)=\lim_{\Delta t \to0}\frac{P(t\le T < t+\Delta t|T\ge t)}{\Delta t}

生存曲线及比较

Kaplan-Meier 生存率曲线

  1. 将生存时间 tit_i 按从小到大排序(删失数据在完全数据之后)
  2. 列出 [ti,ti+1)[t_i,t_{i+1}) 的复发数 did_i 删失数 cic_i
  3. 计算复发概率 qi^=dini\hat{q_i}=\frac{d_i}{n_i} 生存概率 pi^=1qi^\hat{p_i}=1-\hat{q_i}
  4. 计算生存率 S^(ti)=S^(ti1)pi^\hat{S}(t_i)=\hat{S}(t_{i-1})\hat{p_i}
  5. 计算生存率的标准误 SE[S^(ti)]=S^(ti)tjtidjnj(njdj),j=1,2,,i\text{SE}[\hat{S}(t_i)]=\hat{S}(t_i)\sqrt{\sum_{t_j\le t_i}\frac{d_j}{n_j(n_j-d_j)}},j=1,2,\cdots,i

它不依赖于生存时间服从任何特定的分布假设,而是直接基于实际观察到的生存数据(如删失数据)来估计生存函数,因此是一种 非参数的估计方法

Log-rank 检验

又称时序检验,属于非参数检验,不指定生存时间服从特定分布。

H0H_0:不同组别在时间-事件数据不存在显著差异

则在 H0H_0 成立时:根据 tit_i 时的死亡率,可以计算出各组的理论死亡数。

检验统计量 χ2\chi^2 近似服从自由度 ν=g1\nu=g-1χ2\chi^2 分布。

χ2=[dkiTki]2Vki,k=1,2,,g\chi^2=\frac{[\sum d_{ki}-\sum T_{ki}]^2}{\sum V_{ki}},k=1,2,\cdots,g

其中,

  • dkid_{ki} 是各组在时间 tit_i 上的实际死亡数;
  • Tki=nkidiniT_{ki}=\frac{n_{ki}d_i}{n_i} 是各组在时间 tit_i 上的理论死亡数;
  • VkiV_{ki} 是第 kk 组的方差估计值。

Breslow 检验

χ2=[widkiwiTki]2wi2Vki,k=1,2,,g\chi^2=\frac{[\sum w_id_{ki}-\sum w_iT_{ki}]^2}{\sum w_i^2V_{ki}},k=1,2,\cdots,g
  • wi=niw_i=n_i 比 Log-rank 多了一个权重。

Cox 回归

风险函数

h(t,X)=h0(t)exp(β1x1+β2x2++βmxm)h(t,X)=h_0(t)\exp(\beta_1x_1+\beta_2x_2+\cdots+\beta_m x_m)
  • 给定协变量 xx(如年龄、性别、治疗方案等)

  • 在时间 tt 仍然存活的前提下

  • 在接下来瞬间发生事件(如死亡、复发等)的瞬时风险

  • h0(t)h_0(t):基准风险函数,是在所有协变量均为 00 时的风险函数;所有个体的基准风险函数相同

        ln(h(t,X)h0(t))=β1x1+β2x2++βmxm\implies \ln(\frac{h(t,X)}{h_0(t)})=\beta_1x_1+\beta_2x_2+\cdots+\beta_m x_m

风险比 Hazard Ratio

表示协变量 XjX_j 每增加一个单位时,风险函数 h(t,X)h(t,X) 变化的倍数。

HR=exp[βj(c1c0)]\text{HR}=\exp[\beta_j(c_1-c_0)]

其中,c1c_1c0c_0 分别表示自变量 XjX_j 的两个取值。

协变量效应始终 与时间无关

作用:

  • =1=1:无作用
  • >1>1:危险因子(意义:暴露于该因素会提高事件发生概率)
  • <1<1:保护因子(意义:暴露于该因素会降低事件发生概率)

文章标题:医学统计学复习(2)

文章作者:Reqwey

文章链接:https://reqwey.xyz/posts/%E5%8C%BB%E5%AD%A6%E7%BB%9F%E8%AE%A1%E5%AD%A62[复制]

最后修改时间: