
第03章 计算原理与计算公式
3.1 生存分析基本概念
3.1.1 生存时间
生存时间(survival time )可以广泛地定义为从规定的观察起点到某一给定终点事件出现的时间。终点事件可以是某种疾病的发生、某种处理(治疗)的反应、病情的复发或死亡等。为方便起见,本节叙述时以疾病确诊作为观察起点,死亡为终点事件。根据观察结束时,是否观察到终点事件,可将生存数据分为以下两种类型:
(1)完全数据 随访研究中,对某些观察对象如观察到了死亡结局(须死于所研究疾病),从某病确诊到死亡所经历的时间,称为生存时间的完全数据(complete data )。完全数据所提供的关于生存时间的信息是完整的。
(2)截尾数据 随访研究中,观察期内由于某种原因对某些观察对象未能观察到死亡结局,并不知道确切的生存时间,称为生存时间的截尾数据(censored data )。
产生截尾数据的原因大致有:①失访,即病人未继续就诊或因搬迁而失去联系等;②至随访研究结束时病人仍存活;③病人死于其它原因。不论截尾数据的产生原因为何,截尾生存时间的计算均为规定的起
点至截尾点所经历的时间。截尾数据常在其右上角标记“+”,表示真实的生存时间未知,只知道比观察到的截尾时间要长。
含有截尾数据是生存资料的主要特点。另外,生存时间的分布也与常见资料的统计分布(常假定符合正态分布)有明显不同,如呈指数分布、Weibull 分布、对数正态分布、对数logistic 分布或Gamma 分布,因此需要有能分析这类数据的特殊统计分析方法。
3.2.2 生存概率与生存率
生存概率(survival probability )表示某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。如一年生存概率p 表示该年年初尚存人口存活满一年的可能性。
某年年初人口数
某年活满一年人数=p (3-1) 生存率(survival rate )指观察对象经历个单位时段后仍存活的可能性。生存率常随时间逐渐下降,又称生存函数(survival function )。资料中无截尾数据时计算生存率的公式如下:
k t 观察总例数
例数个单位时段末仍存活的k k k t t T P t S =>=)()(ˆ (3-2) 若含有截尾数据,须分时段计算。假定观察对象在各个时段的生存事件独立,应用概率乘法定理,则宜采用如下的公式计算:
(3-3) k
k k k k p t S p p p t T P t S ⋅=×××=>=−)(ˆ)()(ˆ121L 式中(1,2,…,k )为各分时段的生存概率。
i p =i 3.3.3 风险函数
风险函数(hazard function )表示生存时间已达t 的个体,在到t t t Δ+这一很小的时间区间内死亡概率的极限,即生存时间已达的个体在时刻的瞬时死亡率。
t t t t T t t T t P t h t Δ≥Δ+<≤=→Δ)
(lim )(0 (3-4)
3.3.4 概率密度函数
死亡概率密度函数(probability density function )表示一个体死于(t ,)小区间的概率极限,即t 时刻的瞬时死亡率。
t t Δ+ t
t t t P t f t ΔΔ+=→Δ)中死亡)个体在区间(,(lim )(0 (3-5) 生存分析中常用生存函数、风险函数和概率密度函数描述生存过程。这三种函数在数学上是等价的,如果给定其中一种函数,另两种函数即可推导得出。
3.3.5 生存曲线与中位生存期
生存曲线(survival curve )是以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。
中位生存期(median survival time )又称半数生存期,表示恰有50%的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;反之,中位生存期越短,预后越差。估计中位生存期常用图解法或线性内插法。
3.2 Kaplan-Meier 法简介
【例3-1】某医师收集11例脑瘤患者甲疗法治疗的生存时间(周),试估计治疗后不同时间的生存率、生存曲线及中位生存期。
甲疗法组 5 7+ 13 13 23 30 30+ 38 42 42 45+
Kaplan-Meier 法(以下简称KM 法)由Kaplan 和Meier 于1958年首先提出,又称乘积限法(product-limit method )。该法利用概率乘法定理计算生存率。以例3-1为例,其生存率计算见表3-1。
表3-1 甲疗法组生存率计算过程
时间(周) 死亡数 期初例数 生存概率 生存率 生存率标准误
i t i d i n i i i i n d n p /)(−= )(ˆi t S )](ˆ[i
t S SE 5 1 11 10/11=0.9091 0.9091 0.0867 7+ 0 10 10/10=1.0000 0.9091×1.0000=0.9091 0.0867 13 2 9 7/9=0.7778 0.9091×0.7778=0.7071 0.1429 23 1 7 6/7=0.8571 0.7071×0.8571=0.6061 0.1541 30 1 6 5/6=0.8333 0.6061×0.8333=0.5051 0.1581
30+ 0 5 5/5=1.0000 0.5051×1.0000=0.5051 0.1581 38 1 4 3/4=0.7500 0.5051×0.7500=0.3788 0.1613
42 2 3 1/3=0.3333 0.3788×0.3333=0.1263 0.1163 45+ 0 1 1/1=1.0000 0.1263×1.0000=0.1263 0.1163
Greenwood 生存率标准误近似计算公式
∑=−=i j j j j j
i i d n n d t S t S SE 1)()(ˆ)](ˆ[ (3-6)
式中j 要求为完全数据的顺序号。假定生存率近似服从正态分布,则总体生存率的(1-α)置信区间为:
(3-7) )](ˆ[)(ˆ2/i
i t S SE u t S ⋅±α3.3 寿命表法简介
【例3-2】 收集374名某恶性肿瘤病人随访资料,取时间区间均为1年,整理结果见表3-2前4栏,试计算各年生存率。
表3-2 某恶性肿瘤病人随访资料与生存率计算过程
确诊后 期内死亡 期内截尾 期初 期初有效 生存概率 生存率 生存率 年数 数 数 病例数 例数 标准误
i t i d i c i n ′i n i p )1(ˆ+i t S )]1(ˆ[+i
t S SE 0~ 90 0 374 374.0 0.7594 0.7594 0.0221
1~ 76 0 284 284.0 0.7324 0.5562 0.0257 2~ 51 0 208 208.0 0.7548 0.4198 0.0255 3~ 25 12 157 151.0 0.8344 0.3503 0.0248 4~ 20 5 120 117.5 0.8298 0.2907 0.0239 5~ 7 9 95 90.5 0.9227 0.2682 0.0235 6~ 4 9 79 74.5 0.9463 0.2538 0.0233 7~ 1 3 66 64.5 0.9845 0.2499 0.0233 8~ 3 5 62 59.5 0.9496 0.2373 0.0232 9~10 2 5 54 51.5 0.9612 0.2281 0.0232 注:生存时间长于10年者47例
寿命表法除需计算期初有效例数外,其余同KM 法。假定截尾可发生在各区间内任一时间,按截尾者平均每人观察了该区间宽度的一半,则每个截尾者可视为1/2有效例数,所以期初有效例数应为期初观察例数i n i n ′减去/2,即i c 2/i i i c n n −′=,其中c i 为第i 个区间的截尾例数。
3.4 生存曲线齐性检验简介
log-rank 检验基本思想是当(各组各时点生存率均相等)成立时,根据时点的死亡率,可计算出各组的理论死亡数,则统计量计算公式为 0H i t 2
χ []g gi gi i V T d w 2
2)(−Σ=χ 1−=g ν (3-8)
式中和分别表示各组在时间点上的实际死亡数和理论死亡数,为第g 组理论死亡数的方差估计值, gi d gi T i t g V g T ∑−−−=i i i i i gi i gi i g d n d n n n n n w V )1
1(2
,n i 为时点的期初例数,n gi 为第g 组时点的期初例数。为权重,对log-rank 检验,i t i t i w 1=i w 。当比较的两总体生
存曲线呈比例时,检验效能最大;i i n w =则对应Gehan 检验(1965)或Wilcoxon 检验,该检验给实际死亡数与理论死亡数的早期差别更大的权重。
更多推荐
生存,时间,生存率
发布评论