人工智能在医疗领域的应用有着巨大潜力,可以改善患者治疗、减轻医院和临床医生的行政负担,以及优化医疗流程等。然而,在临床环境中引入新技术,特别是人工智能时,也会面临一系列挑战。麻省理工学院日前发布了一项研究,深入探讨了在美国医院系统中实施生成式人工智能遇到的一系列问题,为我们提供了一个全面而深刻的视角。
两组概念,三个区别
过去的研究强调,当临床工作人员参与不足时,技术的应用会遇到障碍;当专家被要求与新技术系统互动时,信任和安全也会面临挑战。另一个主要挑战是如何与传统系统,特别是电子病历(EHR)系统集成。
事实上,过去在医疗系统中推广新技术的尝试往往会导致意想不到的后果,例如增加医生和临床团队的管理负担。此外,尽管有几个成功的案例,但在医疗保健系统中大规模实地实施人工智能软件的数量仍然相对较少。
麻省理工学院的这项研究,首先明确了一组概念:
传统的人工智能模型和算法,称为狭义人工智能(Narrow AI ,以下简称NAI);
最近的生成式人工智能模型和算法(Generative,以下简称GAI)。
虽然这两种应用在技术上都属于预测算法,但这两种工具具有不同的技术特点,因而适用于不同的用例、不同的用户体验以及对机构的不同影响。
两者之间至少有三个主要区别:
首先,NAI模型和算法通常是为特定的预测任务(例如通过乳房X光检测癌症)而构建的。相比之下,GAI工具通常基于大型语言模型(LLM),能够执行各种各样的任务,例如搜索、摘要和文本生成任务(例如,患者访问记录摘要)。
其次,NAI模型和算法通常是根据目标预测任务的特定的标注数据集开发的。另一方面,与广泛的功能相对应,GAI工具需要更大更广的数据集。
第三,与通常非常结构化的NAI模型的输出不同,GAI模型的输出通常是复杂和非结构化的。
该研究从技术、组织和认知三个角度研究了医疗系统中NAI和GAI应用所面临的挑战。
一是技术挑战:数据异质性与保真度问题
尽管AI的性能取得了显著进步,但其在医疗系统中的实际应用仍面临技术挑战。
首先,医疗保健的流程环境要求新技术能够与传统IT系统,尤其是电子病历系统有效整合。然而,由于临床医生记录和存储数据的方式各不相同,患者记录中的文本数据可能无法用于训练NAI和机器学习(ML)模型,导致数据异质性问题。
GAI工具虽然有望解决数据异质性问题,但它们在生成文本回复和摘要时可能会利用不相关的数据,造成所谓的“幻觉”,即数据保真度问题。例如,大型语言模型(LLM)在总结病人笔记时可能会引入不准确的信息,这对于依赖精确数据进行治疗决策的医疗行业来说是一个严峻的挑战。
由于这一问题,早期,GAI在医院的集中应用仅仅被部署在风险相对较低的环境中,在这些环境中,准确性和数据真实性并不太重要。例如,在生成病历摘要的应用中,医护人员可以使用完整的病历,因此即使病历摘要包含不准确的内容,也起码会保留"基本事实"。在回复患者咨询的场景中,如果临床医生选择使用 GAI进行回复,系统会提示他们在发送前可以对信息进行编辑,这些都是保障措施。
二是管理挑战:从转变内部设计到关注外部环境
再次强调GAI有别于 NAI的三个关键技术特征:①庞大的数据和计算需求使本地设计和开发变得不切实际;②灵活性强,使分散的用户转向分散控制,以及从内部的监控和流程改进转向外部。
从开发角度,GAI解决方案的开发越来越依赖于 IT 部门成员的在采购和部署方面的专业知识,而不是临床业务部门领导和AI开发人员在临床和技术知识。因此领导者需要处理这些利益相关群体之间的关系。
例如,在纽约大学朗贡分校,IT部门的领导最初采用了 Epic 和微软开发的收件箱信息解决方案,来起草对患者的回复。该界面不允许个人用户设计自己的提示。草稿始终存在缺陷,限制了其预期效益,而 Epic 的改进也相当缓慢。结果医护人员需要花费大量时间阅读和编辑冗长的回复,这与他们自己撰写回复所需的时间不相上下。如果靠AI开发人员来改进,将使成本大幅上升,因此纽约大学朗贡分校开始为“医疗保健特定任务”开发自己的LLM,并使用其专有的健康记录和临床笔记数据集。这个例子说明了医疗系统 GAI解决方案市场整合的普遍问题。
从实施角度,由于GAI解决方案与NAI相比具有更大的灵活性,终端用户只需接受少量培训,就能熟练使用 GAI解决方案,而不依赖 AI开发人员集中参与。例如,在纽约大学朗贡分校,登记部门的行政主管用户甚至可以自己开发面向患者的登记聊天机器人,而AI开发者仅仅支持了用户的基本技能和安全指导,帮助促进自下而上的解决方案开发和共享,支持了这种分散式的实施。
在维护环节,快速变化的外部软硬件技术和法规可能会影响人工智能模型的性能,因此医疗机构的领导者需要将重点从监控内部运营转向关注外部环境,以提高模型性能和服务质量。例如,朗贡分校的领导还与政府事务团队合作,提高政府机构不断制定治理政策的意识。
三是认知挑战:技能萎缩与误判
在医护人员层面,NAI和GAI的引入凸显了人机交互风险,包括技能萎缩、对AI信任的误判以及信息超载。
例如,临床医生可能过度依赖AI模型来管理出院事宜,导致他们的专业技能萎缩。
此外,如今的 GAI工具通常利用神经网络和深度学习,即使是开发人员也无法理解,这与过去可以被人类操作员追踪的基于明确规则的系统不同。GAI模型的不透明性放大了信任误判的风险。在低风险应用中,这可能不是问题。但在诊断应用中,GAI的用户必须解释输出结果的有效性,而LLM的黑箱性质可能会带来挑战。
GAI工具的灵活性也带来了额外的挑战。对于人类操作员来说,很难理解 GAI工具在哪些方面会产生可靠的结果,而在哪些方面则不会。例如,即使LLM在早期响应病人信息的试验中产生了可靠的结果,但随着时间的推移,它可能会被证明是不适应的。人工智能系统通过对新数据的自我监督不断更新行为,从人类操作员的角度来看,这大大增加了不可预测性。
一些开放性问题和新方向
该研究提到,以上三个方面的不同挑战,是基于医院人工智能早期部署和实验的最新证据,以及电子病历等新技术影响下的长期证据。通过这些证据能够总结出GAI新应用所面临的潜在挑战,但要评估这些挑战在实践中将如何体现,以及在何种条件下体现还为时尚早。这项研究既是为医疗机构领导者提供的潜在障碍地图,也是一套假设,有待未来在部署 GAI应用的医院进行实证研究时加以检验。因为每个挑战中都体现着新的研究方向。
首先,在将 GAI引入临床流程时,存在着潜在幻觉,以及缺乏可解释性相关的风险。那么医院将采用哪些策略来管理这些风险?他们将如何衡量这些风险是否值得承担,尤其是当医院可能面临着生产率提高的高概率,以及临床错误的低概率时。
第二,GAI的引入对不同技能水平的工作人员的影响也是一个值得研究的问题。来自非医疗领域的早期实验室和现实证据表明,当引入 GAI工具时,低技能工人获益最大,这与以往的软件技术形成了鲜明对比,以往的软件技术往往偏向于高技能人才。那么在医疗领域,技能最低的工作人员是否会从 GAI的引入中获益最多,这仍然是一个悬而未决的问题。即使技能最低的人在 GAI的帮助下业绩提高最多,体验到生产率的边际增长,但可能不会从GAI中看到工资或职业发展优势。
第三,过去的研究表明,引入高质量自动化可能会导致技能萎缩。如果自动化程度过高,而对人类操作员的认知要求较低,那么人类独立完成任务和识别潜在错误的能力就会降低。在医疗保健领域,还没有明确的证据表明技能萎缩或绩效挑战与引入GAI有关。不过,这是一个有待验证的假设,各机构在衡量新的 GAI应用对其员工的影响时,需要对风险进行管理。
注:文章来源于网络,如有侵权,请联系删除