医学统计学复习（1）

一、绪论

总体与样本

医学研究的“总体”都是无限总体；总体中抽取部分样本（有限总体），可用于推断总体特征。

参数与统计量

参数：描述总体特征的统计学指标（未知）
统计量：依据样本量计算出的特征指标（已知）

总体->样本->统计量->参数

误差

系统误差：固定因素，可以消除或控制
测量误差：不可避免，但有规律，可多次测量减弱
抽样误差：由于个体差异，引起的样本统计量与总体参数之间的差异；不可避免，可以增大样本量来减弱，可以用统计方法分析

统计研究设计

观察性研究：
- 横断面研究：了解疾病或暴露的现患情况及分布特征
- 队列研究：观察暴露组和非暴露组随时间发生疾病的情况；分为前瞻性和回顾性队列研究
- 病例对照研究：比较病例组和对照组的暴露情况
实验性研究：
- 临床试验
- 动物实验
- 社区干预实验

统计分析方法

统计描述

运用统计指标（均数、标准差、率、统计表和统计图）对数量特征和分布规律进行客观描述和表达，不涉及样本推断总体的问题。

统计推断

在一定置信度或概率保证下，根据样本信息推断总体特征。

包括参数估计（用样本指标推断总体相应的指标）和假设检验（由样本之间的差异，推断总体之间是否可能存在差异）。见第六章。

二、定量数据的统计描述

频数分布

两个重要特征：集中趋势、离散趋势
分布类型：对称分布、偏态分布（正偏态分布——右拖尾、负偏态分布——左拖尾）

集中趋势

算数平均

适用于对称分布资料、正态或近似正态分布的资料

直接法： $\bar{X}=\frac{\sum{X_i}}{n}$

加权法：

将个观察值编制频数表，算出各组中值 $X=\frac{\text{上限+下限}}{2}$

\bar{X}=\frac{\sum{fX}}{\sum{f}}

几何平均

适用于原始数据呈偏态分布、经过对数变换后近似正态分布的资料；或观察值呈近似倍数关系的资料。

医学上：血清抗体滴度、血清凝集效价等

直接法： $G=\sqrt[n]{X_1X_2\dots X_n}=\lg^{-1}{\frac{\sum{\lg{x}}}{n}}$

加权法： $G=\lg^{-1}{\frac{\sum{\lg{x}}}{n}}$

中位数

直接法： $M=X_{\frac{n+1}2} \text{ or } \frac{X_{\frac{n}2}+X_{(\frac{n}2+1)}}2$

频数表法： $M=L+\frac{i}f(\frac{n}2-\sum{f_L})$

$L$ 是中位数所在组的下限， $i$ 是本组组距， $f$ 是本组频数， $\sum{f_L}$ 为上一组累计频数。

离散趋势

全距（极差 R）

一组观察值中最大值与最小值之差，反映个体差异的范围。

与变异度呈正相关，易受个别数据的影响，稳定性较差。

百分位数与四分位数间距

百分位数： 将观察值从小到大排列，第 $x$ 百分位数记作 $Px$

P_x=L+\frac{i}{f_x}(n\cdot x\%-\sum{f_L})

$P_{25},P_{75}$ 四分位数间距
$P_{2.5},P_{97.5}$ 医学参考值范围
百分位数可用于任何频数分布的资料，尤其是明显呈偏态分布的资料，但靠近两端的百分位数仅在样本量较大时才比较稳定。

四分位数间距： $IQR=P_{75}-P_{25}=M(P_{25},P_{75})$

$Q_L=Q_1=P_{25}$
$Q_2=P_{50}$
$Q_U=Q_3=P_{75}$

方差与标准差

用于对称分布（特别是正态分布）的资料，表示观察值分布的离散程度。

总体：

方差： $\sigma^2=\frac{\sum{(X-\mu)^2}}N$
标准差： $\sigma=\sqrt{\frac{\sum{(X-\mu)^2}}N}$

样本：

$\mu$ 未知，用样本均数 $\bar{X}$ 代替
样本含量 $n$ ？用 $n-1$ （自由度）代替 $N$
样本标准差： $S=\sqrt{\frac{\sum{(X-\bar{X})^2}}{n-1}}=\sqrt{\frac{\sum{X^2}-\frac{(\sum{X})^2}{n}}{n-1}}$
加权法： $S=\sqrt{\frac{\sum{fX^2}-\frac{(\sum{fX})^2}{\sum{f}}}{\sum{f}-1}}$

变异系数

CV=\frac{S}{\bar{X}}\times100\%

CV越大，观察值的离散程度越大，反之越小。
CV无度量单位，可以比较度量单位不同的观察值的离散程度。
CV也可用于比较均数相差悬殊的观察值的离散程度。

小结

对称分布，正态分布： $\text{Mean}\pm \text{SD}$
明显偏态或分布不明显： $\text{Median(Range/IQR)}$

三、正态分布与医学参考值范围

正态分布特征

f(X)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(X-\mu)^2}{2\sigma^2}}

记作

X\sim N(\mu,\sigma^2)

$\mu$ 是随机变量的均值，描述其集中趋势。 $\mu$ 增大，曲线右移
$\sigma^2$ 是随机变量的方差，描述其离散程度。 $\sigma$ 越大，数据分布分散，曲线矮胖

标准正态分布

$u$ 变换：令 $u=\frac{X-\mu}{\sigma}$

则一般正态分布 $X\sim N(\mu,\sigma^2)$ 转为标准正态分布 $u\sim N(0,1)$

f(u)=\frac{1}{\sqrt{2\pi}}\exp{(-\frac{u^2}2)},-\infty<u<\infty

医学参考值范围

正态分布法

常用 $u$ 值： $1.96$

如制定 $95\%$ 参考值范围（双侧）， $u_{\alpha/2}=u_{0.05/2}=1.96$

百分位数法

分别计算 $P_{2.5}$ 和 $P_{97.5}$

四、定性数据的统计描述

相对数

两个有关联的绝对数/统计指标之比。

率 Rate

率=\frac{实际可能发生某现象的观察单位数}{可能发生某现象的观察单位总数}\times K

通常是指固定时间内发生的频率，如出生率、死亡率、发病率等。

平均人口数=\frac{上期末人口数+本期末人口数}2 \text{ or } 期中人口数

患病率(PR)=发病率(IR)\times病程(D)

构成比 Proportion

构成比=\frac{事物内部某一部分的观察单位数}{同一事物各构成部分的观察单位总数}\times 100\%

强调整体和局部的比例关系。

相对比 Relative Ratio

相对比=\frac{甲指标}{乙指标}

如：性别比；医院诊床比；体重指数；变异系数；相对危险度（RR），比值比（OR）……

RR=\frac{暴露组发病或死亡单位数}{非暴露组观察单位总数}=\frac{P_1}{P_0}

OR=\frac{病例组的暴露比数}{对照组的暴露比数}=\frac{a/c}{b/d}=\frac{ad}{bc}

标准化

P'=\frac{\sum{N_i}}NP_i

五、统计表与统计图

统计表（三线表）

结构：标题、横标目、竖标目、数值

复合表：标目有2个以上层次。

统计图

结构：标题、图域、标目、图例、刻度

半对数图

纵坐标采用对数尺度，横坐标不变，可以反映相对增长量（倍数），正确呈现二者变化速度。

箱式图

多用于比较两组或多组数据的平均水平和变异程度，适用于描述偏态分布的资料。

text

------- <---最大值
   |
|-----| <---P75
|     |
|-----| <---P50
|     |
|-----| <---P25
   |
------- <---最小值

异常值： $P_{75}+1.5Q,P_{25}-1.5Q$
极端值： $P_{75}+3Q,P_{25}-3Q$

散点图

用点的密集程度和变化趋势表示两指标的直线、曲线关系。

同一个点的横坐标和纵坐标表示同一个研究对象的两个指标值。

直条图和直方图的区别

直条图的横轴是分类变量，直方图的横轴是数值分组变量（连续）

六、参数估计与假设检验

抽样误差

从同一个总体中反复多次随机抽取容量相等的若干份样本，样本的统计量之间是不同的，抽样误差必然存在。

样本均数的抽样分布特点

围绕着总体均数，中间多、两边少，服从正态分布

均数的标准误（SE）

是样本均数的标准差，是描述均数抽样误差大小的指标。

\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}

增大样本量 $n$ 可以降低抽样误差；
SE越小，用样本均数推断总体均数越可靠；
若随机变量 $X \sim N(\mu,\sigma^2)$ 则样本均数 $\bar{X} \sim N(\mu,\sigma_{\bar{x}}^2)$
实际应用中，总体标准差 $\sigma$ 未知，用样本标准差 $S$ 估计样本均数的标准误 $S_{\bar{x}}=\frac{S}{\sqrt{n}}$

率的标准误

样本率的标准差称为率的标准误。

若随机变量 $X\sim B(n,\pi)$ ，则样本率 $p=\frac{X}{n}$ 的总体参数为 $\pi$ ，标准误为

\sigma_p=\sqrt{\frac{\pi(1-\pi)}n}

总体概率 $\pi$ 未知时，用样本率 $p$ 近似地代替 $\pi$ 得到率标准误的估计值为

S_p=\sqrt{\frac{p(1-p)}n}

参数估计

由样本统计量估计总体参数，常见方法有点估计和区间估计。

点估计

用样本均数 $\bar{X}$ 作为总体均数 $\mu$ 大概点值估计。

区间估计

按一定的概率 $100(1-\alpha)\%$ 估计总体均数所在的范围，亦称可信区间(CI)（如果没有特别说明，一般作双侧的区间估计）

$\alpha$ 常取 $0.05$ 或 $0.01$ ，则 CI 是 $95\%$ 或 $99\%$

总体均数的可信区间估计

若总体标准差已知

样本均值为 $\bar{X}$ ，根据中心极限定理， $\bar{X}\sim N(\mu,\sigma_{\bar{X}}^2)$ ，其中 $\sigma_{\bar{X}}=\frac{\sigma}{\sqrt{n}}$
则 $z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$ 服从标准正态分布。
取 $95\%\text{CI}$ ，则 $z=z_{\frac{\alpha}2}=1.96$
所以 $\mu$ 的 $95\%\text{CI}=(\bar{X}-1.96\times\frac{\sigma}{\sqrt{n}},\bar{X}+1.96\times\frac{\sigma}{\sqrt{n}})$

若总体标准差未知

$n<50$ 时，用样本标准差 $S$ 代替 $\sigma$ ，则 $\frac{\bar{X}-\mu}{S/\sqrt{n}}$ 服从自由度为 $\nu=n-1$ 的 $t$ 分布。

\mu=(\bar{X}-t_{\frac{\alpha}2,n-1}S_{\bar{X}},\bar{X}+t_{\frac{\alpha}2,n-1}S_{\bar{X}})

$t$ 分布的中心为 $0$ ，总体标准差 $>1$

自由度 $\nu$ 越大， $t$ 分布越接近标准正态分布

$n>50$ 时， $t$ 分布逼近标准正态分布，则 $z$ 可以直接用 $1.96(95\%\text{CI})$ 或 $2.58(99\%\text{CI})$ 近似。

\mu\approx(\bar{X}-zS_{\bar{X}}, \bar{X}+zS_{\bar{X}})

率的可信区间估计

\pi=(p-z_{\frac{\alpha}2}S_p,p+z_{\frac{\alpha}2}S_p)

七、t检验

要求：方差齐性（见医学统计学2-方差分析-F检验）

假设检验

假设

$H_0$ 原假设：零假设或无效假设（差异在可接受范围内）；
$H_1$ 备择假设：与零假设相互对立，通常是我们希望看到的结果。

I、II类错误与检验水准

I 类错误：拒绝了实际上成立的 $H_0$
$\alpha$ 检验水准：表示允许犯 I 类错误的最大允许概率（人为规定），常设为 $0.05$ （双侧）
II 类错误：接受了实际上不成立的 $H_0$
$\beta$ 检验水准：表示允许犯 II 类错误的最大允许概率，常设为 $0.2$ （双侧）

P值的计算

检验统计量： $t=\frac{估计值-假设检验值}{估计值的SE}$ （对估计值与假设检验值的差异的标准化转换）
$P$ $P$ 值：在 $H_0$ $H_{0}$ 成立条件下，出现现有样本统计量以及更极端情况的概率，根据大小做出拒绝/不拒绝 $H_0$ $H_{0}$ 的统计推断
- $t\le t_{\alpha/2,\nu} \implies P\le\alpha$ 时，可以拒绝 $H_0$ ，即 $H_1$ 成立
- $t>t_{\alpha/2,\nu} \implies P>\alpha$ 时，不能拒绝 $H_0$

单样本t检验

适用于：推断样本所来自的总体均数 $\mu$ 与普遍的总体均数 $\mu_0$ 有无差别。

t=\frac{\bar{X}-\mu_0}{S/\sqrt{n}},\nu=n-1

零假设（ $H_0$ ）：样本均值 = 总体均值（ $μ = μ_0$ ）
备择假设（ $H_1$ $H_{1}$ ）：
- 双侧检验： $μ ≠ μ_0$ ， $P(|t| > 观测值)$ = 两端尾部面积之和
- 单侧检验： $μ > μ_0$ 或 $μ < μ_0$ ， $P(t > 观测值)$ 或 $P(t < 观测值)$ = 一端尾部面积

配对样本t检验

适用于：

同一受试对象实验前后比较；
同一样品两种方法检验效果比较；
配对的两种受试对象分别接受两种处理后的数据比较。

目的：控制可能存在的非处理因素。

基本原理：假设两种处理效应相同，则服从正态分布的各对数据间的差值 $d$ 的总体均数 $\mu_d=0$

等同于：差值样本均数 $\bar{d}$ 与总体均数 $0$ 的单样本 $t$ 检验。

t=\frac{\bar{d}-0}{S_d/\sqrt{n}},\nu=n-1

两独立样本检验