先讲一个案例,几年前,保罗被他的初级保健医生琼斯医生诊断为高血压。琼斯医生建议保罗尝试药物治疗,他先给保罗开了利尿剂,但保罗的血压依旧很高,药物没起作用。
几周后,琼斯医生又开了第二种药物,钙通道阻滞剂,但效果依然不理想。
这些结果使琼斯医生困惑不已。虽然过去的 3 个月保罗每周都会来复诊,他的血压略有下降,但仍然很高。没有下一步治疗方案,不但保罗很焦虑,琼斯医生也很苦恼,尤其保罗年纪不算大,而且身体一向健康。琼斯医生寻思着要尝试第三种药物。
就在这时,保罗碰巧搬到了一个新城市,在那里他咨询了另一位初级保健医生史密斯医生。保罗向史密斯医生讲述了他一直以来与高血压抗争的经历。
史密斯医生立即回答说:“买一个家用血压计,在家测测看血压值是多少。我认为你根本没有高血压。你可能只是得了白大褂综合征——一进医生办公室,你的血压就升高!”
保罗照办了,果然,他在家时的血压是正常的。从那以后一直很正常。史密斯医生告诉保罗白大褂综合征这件事一个月后,即便是在医生的办公室,保罗的血压也都很正常了。
《噪声》
这个案例来自诺贝尔经济学奖得主丹尼尔・卡尼曼新作《噪声》。在《噪声》一书中,卡尼曼揭示了人类判断中的行为缺陷。
令人震惊的是在我们最为信任的医疗领域,同样存在可怕的“噪声”,而如何才能减少噪声、避免错误的诊断?我们需要首先探讨医疗领域中的噪声从何而来。
医生的主要任务就是做出诊断——判断病人是否患病了,如果患病了,还要鉴定出是哪种疾病。诊断往往需要做出某种判断。
许多人都知道,当医生做判断时,他们可能会有噪声,而且可能会出错;标准做法是建议患者再咨询另外一位医生,获取第二诊疗意见。有一些医院,第二诊疗意见是必须要给出的。
当第二诊疗意见与首诊意见产生分歧时,噪声就出现了——当然,我们可能不清楚哪个医生是正确的。一些病人(包括保罗)会惊讶地发现第二诊疗意见与首诊意见的分歧非常大。
令人惊讶的不是医疗领域存在噪声,而是其数量之巨。值得注意的是,医学中的噪声并不局限于的诊断性判断中的噪声,治疗也可能存在噪声。如果患者的心脏存在问题,医生们对最佳治疗方案的判断存在惊人的差异。
地平线之旅
有大量的文献都是关于医学界存在噪声的。当存在噪声时,一位医生可能明显是正确的,另一位可能明显是错误的并且可能受到某些偏差的影响。正如我们料想的那样,技能在其中发挥了关键作用。
“技能的差异可以解释诊断决策中44%的变异”,培训和甄选对于减少误差、消除噪声和偏差至关重要,医疗界也是如此。
在某些专业领域,如放射学和病理学,医生对噪声的存在一清二楚。例如,放射科医生将诊断差异称为“阿喀琉斯之踵”。
目前尚不清楚到底为什么放射学和病理学领域的噪声如此受关注,可能因为这些领域的噪声确实比其他领域要多,也可能因为这些领域的噪声更容易被记录下来。我们猜想易于记录可能是更重要的原因。
在医学领域,人与人之间的噪声,或者说评估者信度(interrater reliability),通常用 kappa 统计量来衡量。kappa 值越高,噪声越小。
kappa 值为 1 表示评估者的评估完全一致;kappa 值为 0,则意味着评估者之间的一致性就跟猴子往诊断列表上投飞镖差不多。
在某些医学诊断领域中,用该系数测量得到的信度是“微小”或者“糟糕”,这意味着该领域的噪声非常高。大部分时候,该系数测出的信度是“一般”,这当然更好了,但这依然表明存在着明显的噪声。
在诊断乳腺增生病变时,一致性同样是“一般”。当医生根据核磁共振成像扫描结果判断椎管狭窄程度时,一致性也是“一般”。这些发现很值得反思。
我们说过,在某些领域,医学中的噪声水平非常低。但在一些技术性要求非常高的领域,医生们还远没有实现零噪声。
患者是否会被确诊患有癌症等严重疾病,可能就像在抽奖,结果取决于他要看的是哪位医生。
放射科医生通过乳房 X 线检测来诊断乳腺癌,这种诊断存在很大变异性。一项大型研究发现,不同的放射科医生,其诊断结 果的假阴性率为 0%(每次的诊断都是正确的)~ 50% 以上(在 超过一半的情况,放射科医生错误地将乳腺癌患者的 X 线片诊 断为正常)。
同样,假阳性率也为 1% ~ 64%(这意味着在将近 2/3 的时间里,放射科医生将未患乳腺癌的人的 X 线片诊断为患有癌症)。
这些存在于不同人之间的噪声是现在的主要研究方向,但也有一些关于情境噪声的发现。有时候,放射科医生再次评估同一张片子时会给出不同的意见,也就是说与自己原有的意见不一致,但比与他人意见不一致的情况要少。
在重新评估血管造影显示的血管阻塞程度时,22 名医生与自己原有意见不一致的可能性为 63% ~ 92%。在那些标准模糊和判断复杂的领域中,评估者信度可能非常差。
这些研究对这种情境噪声没有明确的解释。但另一项不涉及诊断的研究发现了医学中情境噪声的一个简单来源,这一发现值得患者和医生牢记。简言之,医生在清晨比接近傍晚时更可能要求患者做癌症筛查。在一天的晚些时候就诊的患者接受指南推荐的癌症筛查的可能性更小。
我们如何解释这些发现?一种可能的答案是医生们在遇到患有复杂疾病的患者后,他们的问诊进度不可避免地会落后,这些病情复杂的患者需要的诊断时间比常规的 20 分钟要长。由于压力和疲劳,一些医生为了赶上他们的时间进度,跳过了对预防性健康措施的讨论。
噪声更小的医生:指南的价值
接下来我们将着重讨论一个决策卫生策略:诊断指南。有关医学中的噪声,以及医生、护士和医院采取的各种补救措施,这被认为是一种行之有效的方法。
在一种极端情况下,一些问题和疾病的诊断基本上是机械的,没有做出判断的余地。其他一些情况下,诊断虽然不是机械性的,却很简单直接:任何受过医学训练的人都可能得出同样的结论。
还有一些情况下,比如说肺癌专家,他们专业性虽不能完全消除噪声,但能使噪声数量最少。
但在另外一些极端情况下,一些病例给了医生很大的判断空间,并且诊断的相关标准太宽泛,这会导致噪声巨大,且难以降低。正如我们将看到的,大部分精神病学诊断就属于这种情况。
什么能降低医学领域的噪声?正如我们前面提到的,培训可以提高技能,而高超的技能当然对减少噪声有帮助。汇总多个专家的判断也能减少噪声。算法是一个特别有发展前景的手段,医生们现在正在使用深度学习算法和人工智能来减少噪声。
目前最好的算法,其诊断的准确性优于最好的病理学家。而人工智能可以通过乳房 X 线检测癌症,其表现几乎和放射科医生一样出色。
但我们谈论的人类的判断指南,因为医学领域的情况能够充分说明,在某些实践应用中指南能够确保产生良好甚至极好的结果,而在其他应用实践中会产生更复杂的结果。也许诊断指南中最著名的例子,是 1952 年由产科麻醉师弗吉尼亚·阿普加(Virginia Apgar)发明的阿普加评分(Apgar score)。
过去,评估新生儿是否处于危险之中曾是医生和助产士需要在临床上做出的判断。阿普加评分给了他们一个标准化的指南。
要注意的是,心率是评分中唯一一个严格计数的项目,其他项目都涉及判断的成分。但是,由于判断被分解为单独的元素,每个元素都很容易评估,即使是那些仅受过一点点训练的医师们,在评估时也不太可能产生很大的分歧,因此阿普加评分产生的噪声很小。
阿普加评分展示了指南是如何发挥作用的,以及为什么指南会降低噪声。与规则或算法不同,有了指南仍需判断:决策不是直接的计算。阿普加评分的每一个项目上都可能存在分歧,因此在最终结论上也可能存在分歧。然而,指南成功地减少了噪声,因为它在预先定义好的维度上将一个复杂的决策分解成了许多简单的子判断。
临床医生是根据几条预测性线索来判断新生儿的健康状况。情境噪声可能在其中发挥作用:就在某一天,或者就在某种情绪状态下,临床医生可能会关注一些相对不那么重要的预测因素,或忽略一些重要的预测因素。
阿普加评分能够将医生的注意力集中在 5 个已经过实践检验的重要维度上。然后,评分清晰地描述了该如何评估每个线索,这大大简化了根据每条线索做出判断的过程,从而降低了噪声。
最后,阿普加评分还规定了如何机械性地给各个预测因素赋权,并产生所需的总体判断;而人类临床医生在给这些线索赋权时会存在差异。关注重要的预测因子,简化预测模型,以及进行机械性汇总——所有这些都降低了噪声。类似的方法已被用于许多医学领域,并且取得了很多成功的例子。
根据《网络安全法》实名制要求,请绑定手机号后发表评论