人工智能在诊断疾病方面可能有效

发布日期：2019-10-01 来源：未知　浏览量: 次

人工智能在诊断疾病方面可能有效

根据首次系统综述和荟萃分析，人工智能(AI)似乎可以以与医疗保健专业人员相似的准确度检测医学影像中的疾病，综合了《柳叶刀数字健康》杂志上发表的科学文献中的所有可用证据。。

尽管如此，只有极少数的研究具有足够的质量可纳入分析之中，并且作者警告说，称为深度学习的AI技术的真正诊断能力-使用算法，大数据和计算能力来模拟人类学习和智能-由于缺乏直接比较人机性能的研究，或在真实临床环境中验证AI性能的研究而仍不确定。

“我们审阅了超过20,500篇文章，但其中不到1%的文章在设计和报告上足够强大，以至于独立评论者对他们的主张充满了信心。此外，只有25项研究从外部验证了AI模型(使用来自不同医学图像人口)，只有14项研究实际上使用相同的测试样本对AI和健康专业人员的表现进行了比较，”来自英国伯明翰大学医院NHS基金会信托基金的Alastair Denniston教授解释说。

“在少数几项高质量的研究中，我们发现深度学习确实可以像卫生专业人员一样准确地检测出从癌症到眼科疾病的各种疾病。但是必须指出的是，人工智能并没有大大超越人类的诊断能力。”

借助深度学习，计算机可以检查成千上万张医学图像以识别疾病模式。这为提高诊断的准确性和速度提供了巨大的潜力。深度学习模型在诊断测试中的性能优于人类的报告引起了极大的兴奋和争论，并且美国食品药品管理局已经批准了30多种用于医疗保健的AI算法。

尽管强烈的公众利益和市场力量推动了这些技术的快速发展，但人们仍对研究设计是否偏向于机器学习以及研究结果在多大程度上适用于现实世界的临床实践提出了担忧。

为了提供更多证据，研究人员对所有研究进行了系统的综述和荟萃分析，比较了深度学习模型和健康专业人员在2012年1月至2019年6月发布的医学影像检测疾病中的表现。他们还评估了研究设计，报告和临床价值。

系统评价总共包括82篇文章。分析了69篇文章的数据，其中包含足够的数据以准确计算测试性能。荟萃分析包括来自25篇文章的汇总估计值，这些估计值在独立的图像子集中验证了结果。

对来自14个研究的数据进行分析后，在同一样本中将深度学习与人类的表现进行了比较，结果发现，深度学习算法最多可以正确检测出87%的疾病，而医疗保健专业人员可以达到86%。

与医疗保健专业人员(91%)相比，深度学习算法(93%的特异性)能够准确排除没有疾病的患者的能力也相似。

重要的是，作者注意到分析中包括的AI诊断研究的方法和报告方面的一些限制。深度学习经常以不反映临床实践的方式单独进行评估。例如，只有四项研究为健康专业人士提供了其他临床信息，他们通常将这些信息用于临床实践中的诊断。此外，在真实的临床环境中进行的前瞻性研究很少，作者说，要确定诊断的准确性，需要对患者进行高质量的比较，而不仅仅是数据集。报告不佳也很普遍，大多数研究没有报告缺失的数据，这限制了可以得出的结论。

“使用新的，可能挽救生命的诊断程序的需求与以高质量的证据开发以使患者和卫生系统在临床实践中受益的方式之间存在着内在的张力，”美国加利福尼亚大学的刘晓轩博士说。英国伯明翰。“从我们的工作中得出的一个重要教训是，与医疗保健的任何其他部分一样，在人工智能中，好的研究设计很重要。没有它，您就很容易引入偏见，使您的结果产生偏差。这些偏见可能导致夸大对良好绩效的要求。对于那些不能转化为现实世界的AI工具，这些研究的良好设计和报告是确保对患者进行AI干预安全有效的关键部分。”

伦敦Moorfields眼科医院的Livia Faes博士补充说：“关于AI算法如何改变患者预后的证据，需要与随机对照试验中的替代诊断测试进行比较。”“到目前为止，几乎没有任何这样的试验可以采用AI算法做出的诊断决策来观察对患者真正重要的结局发生了什么，例如及时治疗，出院时间甚至存活率。”

美国宾夕法尼亚大学的泰莎·库克(Tessa Cook)博士在一篇链接评论中写道，是否可以将AI与在数据“混乱，难以捉摸和不完美”的现实世界中工作的人类医师进行有效比较。她写道：“也许更好的结论是，将AI与人类医师进行比较的狭窄的公共机构，AI并不比人类差，但数据稀疏，可能尚为时过早。

相关新闻:
玉林医疗开启人工智能诊断时代