DCA算法原理

DCA算法原理

我们先来理解简单的几个概念,只有理解了这些专有词汇,才能够把大数据分析与临床的实际应用结合起来,毕竟发文章只是一种展示科学的一种方式,更高的目标是实施到临床中,挽救更多人的性命,这是一种使命,也是一种责任吧。看定义,如下:

P:给真阳性患者施加干预的受益值(比如用某生化指标预测某患者有癌症,实际也有,予活检,达到了确诊的目的);

L:给假阳性患者施加干预的损失值(比如预测有癌症,给做了活检,原来只是个增生,白白受了一刀);

Pi:患者i有癌症的概率,当Pi > Pt时为阳性,给予干预。

所以较为合理的干预的时机是,当且仅当Pi × P >(1 -- Pi) ×
L,即预期的受益高于预期的损失。推导一下可得,Pi > L / ( P + L
)即为合理的干预时机,于是把L / ( P + L )定义为Pi的阈值,即Pt。

但对二元的预测指标来说,如果结果是阳性,则强制Pi=1,阴性则Pi =
0。这样,二元和其他类型的指标就有了可比性。

然后我们还可用这些参数来定义真阳性(A)、假阳性(B)、假阴性(C)、真阴性(D),即:

A:Pi ≥ Pt,实际患病;

B:Pi ≥ Pt,实际不患病;

C:Pi < Pt,实际患病;

D:Pi < Pt,实际不患病。

我们有一个随机抽样的样本,A、B、C、D分别为这四类个体在样本中的比例,则A+B+C+D
= 1。那么,患病率(π)就是A + C了。

你可能感兴趣的