谷歌AI通过图灵测试，24个指标超越人类医生-上海聚慕医疗器械有限公司

日前，Ｇｏｏｇｌｅ　Ｒｅｓｅａｒｃｈ　和　Ｇｏｏｇｌｅ　ＤｅｅｐＭｉｎｄ　的　ＡＩ　团队开发了一款基于大语言模型的人工智能系统，　ＡＭＩＥ（Ａｒｔｉｃｕｌａｔｅ　Ｍｅｄｉｃａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ　Ｅｘｐｌｏｒｅｒ），针对诊断对话进行了优化。ＡＭＩＥ采用了一种强化学习算法中的「自我博弈」方法，可以在一个模拟环境中自我对弈，通过自动反馈机制，可在各种疾病、医学专科和环境中进行扩展学习。ＡＭＩＥ已通过图灵测试。该研究于　２０２４　年　１　月　１１　日发布在　ａｒＸｉｖ　预印平台。

微信图片_20240117095848.png

研究人员基于真实世界数据集训练ＡＭＩＥ，这些数据集包括医学推理、医学总结和真实世界的临床对话。但同时也面临着挑战，一方面，现有的真实世界数据往往无法捕捉到大量的医疗条件和场景，这阻碍了数据的可扩展性和全面性。另一方面，从真实世界对话记录中获得的数据往往是嘈杂的，包含含糊不清的语言（包括俚语、行话、幽默和讽刺）、中断、不合语法的语句和不明确的引用。

为了解决这些局限性，研究人员设计了一个基于自演的模拟学习环境，让聊天机器人训练自己“对话”。该环境具有自动反馈机制，用于模拟医疗环境中的诊断性医疗对话，从而在多种医疗条件和环境中扩展ＡＭＩＥ的知识和能力。

研究人员利用现有的现实世界数据集（例如电子健康记录和转录的医疗对话）对基础　ＬＬＭ　进行了微调。为了进一步训练模型，研究人员要求　ＬＬＭ　扮演患有特定病症的人，以及富有同理心的临床医生，旨在了解患者的病史并设计潜在的诊断。

团队设计了一个框架，来评估诊断对话的过程，包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。通过一项随机、双盲交叉研究，以客观结构化临床检查（ＯＳＣＥ）的方式与经过验证的患者参与者进行基于文本的咨询，将　ＡＭＩＥ　的表现与初级保健医生（ＰＣＰ）的表现进行了比较。

该研究包括来自加拿大、英国和印度临床提供者的　１４９　个病例场景、２０　个与　ＡＭＩＥ　进行比较的初级保健医生（ＰＣＰ），以及专科医生和患者参与者的评估。研究人员观察到ＡＭＩＥ在模拟诊断对话中的表现至少与初级保健医生不相上下。根据专科医生的说法，ＡＭＩＥ的诊断准确性更高，在３２个指标中的２８个指标上表现更优。根据参与研究的患者的说法，ＡＭＩＥ在２６个指标中的２４个指标上表现更优，包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺等。

谷1.png

谷2.png

谷3.png

ＡＭＩＥ表现出了充分的潜力，但目前该工具仍处于纯粹的实验阶段，还没有在真正的患者身上进行过测试。该团队在论文里也注明了该工具的局限性，应谨慎使用。

论文的合著者　Ａｌａｎ　Ｋａｒｔｈｉｋｅｓａｌｉｎｇａｍ　表示，下一步是进行更详细的研究，从而评估潜在的偏见，并确保该系统对不同人群是公平的。Ｇｏｏｇｌｅ　团队也在研究对临床医疗问题系统测试的道德要求。未来还有许多重要的限制因素需要解决，包括在真实世界限制条件下的实验表现，以及对健康公平与公正、隐私、稳健性等重要主题的专门探索，以确保技术的安全性和可靠性。

注：文章来源于大健康派，如有侵权，请联系删除

上一篇：医保平台，可以卖药了！

下一篇：海南：建立医保数据要素确权定价流通交易体系

新闻栏目

相关推荐