提示: 手机请竖屏浏览!

预测未来——大数据、机器学习与临床医学
Predicting the Future — Big Data, Machine Learning, and Clinical Medicine


Ziad Obermeyer ... 其他 • 2016.09.29
相关阅读
• 在医疗领域实施机器学习——解决伦理学挑战 • 机器学习与医学预测——跨越过度期望的顶峰之后

当今时代,“大数据将转变医学”的说法已不是什么新闻。然而,我们必须牢记,数据本身是无用的。要使数据有用,我们需要对其进行分析、解读并依据数据而采取相应措施。如此看来,算法——而非数据集——会带来变革。因此,我们认为必须把注意力转移到机器学习领域中新的统计工具上,机器学习在21世纪对任何行医者都将至关紧要。

首先,重要的是了解何种系统并非机器学习。医学中大多数基于计算机的算法都是“专家系统”——在一确定主题上编码知识的规则集,这些规则集用于引出关于特定临床状况的结论,如探查药物相互作用或判断获取的图像是否合适。专家系统的工作方式和一个理想的医学生一样:他们接受了医学的普遍原理,并将其应用于新的患者。

相反,机器学习处理问题像一位医生通过住院医师阶段成长进步那样,从数据中学习规则。算法从患者水平观察开始,探究数量巨大的变量,并寻找能够可靠预测结局的变量组合。在某种意义上,该过程与传统回归模型的过程相似:有结果、协变量,以及将二者关联的统计函数。然而,机器学习的闪光点在于处理数量巨大的预测因素——有时预测因素比观察项目明显多——并以非线性的和高度互动的方式将其结合起来1。机器学习的这种能力允许我们使用新类型数据。无法想象我们以往可以对这些庞大容量或复杂的数据做统计分析。

设想一张X线胸片。一些放射学特征可能预测一个重要结局,如死亡。在一个标准统计模型中,我们可能使用对X线片的解释——“正常”“肺不张”“渗出”——作为变量。但是,为什么不能让数据为自己说话呢?利用计算能力的神速进展,X线片背后的数字像素矩阵可以转变成数以百万计的个体变量。算法随之开始工作,将像素群集成线条和形状,最终得到骨折线、实质不透光性及更多信息。甚至传统的保险索赔数据也能承担一种新使命:利用诊断代码追踪患者病史中错综复杂的动态影像,这比用于标准统计模型中共存条件下的静态变量要丰富得多。

当然,让数据为自己代言可能会有问题。算法可能为某种预测而“过度拟合”数据中的偶然相关性,或者多种共线性的、相关性的预测可能产生不稳定估计。任何一种可能性都可能导致对模型准确性过于乐观的估计,并夸大其在真实世界中的表现。这些问题情况严重,必须通过在真正独立的验证数据集上检测模型来解决,这些数据集来自不同人群或时期,且在模型构建中未起任何作用。通过这样的方式,模型拟合阶段中的问题,无论出于什么原因,在验证阶段都将表现为劣效。这一原则非常重要,以至于许多数据科学竞赛中,只有在团队上传了其建立在另一个公开的数据集上的最终算法后,验证数据才公布。

另一个关键问题是输入数据的数量和质量。机器学习算法的胃口非常大,往往需要数以百万计的观察才能达到可接受的效能水平2。此外,数据收集中的偏差也可能对效能和可推广性两者都产生实质性影响。例如,乳酸盐可能是一个良好的死亡风险预测因子,但是只有一个小的、不具有代表性的患者样本检测了他们的乳酸水平。私人公司花费巨量资源汇聚高质量、无偏倚的数据来支持他们的算法,电子健康记录(EHR)或索赔数据库中现有的数据需要认真标注和处理才能变得可用。

最后,机器学习不解决观察数据集中因果推断的任何根本问题。算法可能擅长于预测结局,但预测因子不是病因3。常识性缺陷提醒我们不要把相关性和因果性混为一谈;实际上,当研究人员开始在统计模型中列入数以百万计的变量时,这些常识性缺陷甚至变得更加重要。

机器学习在解决大多数科学中的复杂问题时已经无处不在,且不可或缺。在天文学领域,算法筛分来自望远镜观测的数以百万计的图像以分类星系和发现超新星。在生物医学领域,机器学习可以从基因序列中预测蛋白质结构和功能,根据患者的临床状况和微生物谱特征确定其最佳饮食。同样的方法将在医学上开辟崭新的可能性。一个引人注目的例子是算法可以直接从大脑阅读皮质活动,将一位瘫痪者的运动皮质信号传输到手部肌肉,并恢复其运动控制4。如果没有机器学习处理实时的、高分辨率的生理学数据,这些进展将无法想象。

将数据转变成知识的能力将日益瓦解医学的至少三个领域。首先,机器学习将显著提高医务人员判断患者预后的能力。目前的预后模型,例如急性生理学和慢性健康估测(Acute Physiology and Chronic Health Evaluation [APACHE])评分和序贯性器官衰竭估计(Sequential Organ Failure As­sessment[SOFA])评分,局限于仅有的少数变量,因为人们必须输入和测定得分。但是,数据反而可以从EHR或理赔数据库被直接引入,允许模型使用数以千计的丰富的预测变量。这样做会带来更好的预测吗?我们正在进行的工作是使用机器学习来预测转移癌患者的死亡,该工作的早期证据提供了一些指征:我们可以精确识别死亡率接近100%的大的患者亚组以及死亡率低到10%的其他亚组。预测受细粒度的信息的推动,这些信息跨越多个器官系统:感染、未得到控制的症状、轮椅,使用以及其他更多信息。较好的预估可以改变危重患者的预先护理计划,这些患者面临许多取决于生存期长短的痛苦决定。我们预测在未来5年内预后算法将付诸实施——尽管前瞻性验证还需要几年时间收集数据。

第二,机器学习将取代放射科医生和病理解剖学家的许多工作。这些医生把主要精力放在解读数字图像上,而这些图像可容易地被直接提交给算法。海量图像数据集,结合计算机视觉的最新进展,将驱动机器学习性能快速提升,且机器准确度很快将超越人类的准确度。实际上,放射学已经部分处于这种状况:算法已经能够取代放射科医生复查乳腺X线照片5,且不久将超过人类准确度。患者安全的倡议活动将越来越多地提倡使用算法,而不是医生来读片——毕竟算法不需要睡眠,它的清醒度在凌晨2点和上午9点是一样的。算法也将监测和解读生理数据流,取代麻醉和重症护理的各个方面。这些颠覆性进展的时间尺度是年,而非十年。

第三,机器学习将会提高诊断的准确性。美国国家医学院(Institute of Medicine最近一篇报告强调了诊断错误的警报频度,且缺乏干预措施以降低误诊。算法不久将能够进行鉴别诊断,建议高价值的检测,并减少检测的滥用。由于以下三种原因,这类颠覆将在未来10年更缓慢地发生:首先,许多临床状况的诊断标准不明确(如脓毒症、类风湿性关节炎)——不像放射学和病理学中的二元判断(如恶性或良性)——使得训练算法更加困难。其次,高价值的EHR数据通常以非结构化格式存储,不经层层预处理算法无法访问。最后,我们需要建立模型并针对每一个诊断分别验证这些模型。

临床医学总是要求医生处理大量数据,从宏观水平的生理和行为数据到实验室和影像学检查,以及越来越多的“组学”数据。好的医生具备处理这种复杂性的能力,这总能使他们与其他医生截然不同。机器学习将成为寻求真正了解其患者的临床医生不可或缺的工具。由于患者病情和医疗技术变得越来越复杂,机器学习的作用将不断增多,临床医学也将受到挑战并同它一起成长。和其他行业一样,这种挑战在医学领域也将创造赢家和输家。但我们乐观地认为,以生命及患病史塑造了算法的患者将在机器学习改造临床医学的过程中成为最大的赢家。

    Disclosure forms provided by the authors are available at NEJM.org.

    From the Department of Emergency Medicine, Harvard Medical School and Brigham and Women’s Hospital, and the Department of Health Care Policy, Harvard Medical School, Boston (Z.O.); and the Department of Medical Ethics and Health Policy, Perelman School of Medicine, and the Department of Health Care Management, Wharton School, University of Pennsylvania, Philadelphia (E.J.E.).


译者:江立生,上海交通大学医学院附属仁济医院心内科

校对:许清芳,职业翻译


作者信息

Ziad Obermeyer, M.D., and Ezekiel J. Emanuel, M.D., Ph.D.

 

参考文献

1. Mullainathan S, Spiess J. Machine learning: an applied econometric approach. J Econ Perspect (in press)

2. Halevy A, Norvig P, Pereira F. The unreasonable effectiveness of data. IEEE Intell Syst 2009;24(2):8-12

3. Kleinberg J, Ludwig J, Mullainathan S, Obermeyer Z. Prediction policy problems. Am Econ Rev 2015;105:491-495

4. Bouton CE, Shaikhouni A, Annetta NV, et al. Restoring cortical control of functional movement in a human with quadriplegia. Nature 2016;533:247-250

5. Gilbert FJ, Astley SM, Gillan MGC, et al. Single reading with computer-aided detection for screening mammography. N Engl J Med 2008;359:1675-1684

服务条款 | 隐私政策 | 联系我们