当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 想向 ChatGPT 询问您孩子的症状吗?再想一想——只有 17% 的时间是正确的

作者:精品下载站 日期:2024-12-13 17:44:45 浏览:12 分类:涨姿势

想向 ChatGPT 询问您孩子的症状吗?再想一想——只有 17% 的时间是正确的


AI 聊天机器人从 100 个历史病例的样本中对 72 个儿科病例提供了错误的诊断,同时还对另外 11 个被认为过于广泛而无法正确的诊断提供了诊断。

[涨姿势] 想向 ChatGPT 询问您孩子的症状吗?再想一想——只有 17% 的时间是正确的

一项新研究发现,人工智能 (AI) 聊天机器人 ChatGPT 在儿科诊断方面非常不准确。

正如许多家长可能会查阅 WebMD 等网站来检查孩子正在经历的症状一样,他们也可能会想咨询 ChatGPT。但研究人员发现,人工智能聊天机器人(由 OpenAI 制作的名为 GPT-3.5 的语言模型提供支持)未能正确诊断其检查的 83% 的儿科病例。他们于 1 月 2 日在JAMA Pediatrics杂志上发表了他们的研究结果。 

他们的研究是第一个评估 ChatGPT 诊断儿科病例能力的研究,之前的一项研究于 2023 年 6 月 15 日发表在 JAMA 杂志上。之前的研究表明,一种名为 GPT-4 的新语言模型只能正确诊断 39% 的挑战性医疗病例,包括涉及成人和儿童的病例。

在这项新研究中,研究人员通过 ChatGPT 对来自《美国医学会儿科杂志》和《新英格兰医学杂志》(NEJM) 的 100 个患者病例进行了挑战,要求聊天机器人“列出鉴别诊断和最终诊断”。鉴别诊断是指可能解释一个人的症状的可能的医疗状况,在评估所有这些可能性后,医生会得出最终诊断。 

 相关:有偏见的人工智能会使医生的诊断不太准确

这些儿科病例发表在 2013 年至 2023 年间的期刊上。

为了验证研究结果,两名医学研究人员将人工智能生成的诊断与临床医生在每个病例中做出的诊断进行了比较。他们为每个人工智能生成的响应分配了正确、错误或“未完全捕获诊断”的分数。 

高度不准确 

ChatGPT 为 100 个病例中的 72 个提供了错误的诊断,100 个结果中的 11 个被归类为“临床相关,但范围太广,不能被视为正确的诊断”。

在其中一个挑战 ChatGPT 错误诊断的案例中,一名患有自闭症的青少年表现出皮疹和关节僵硬的症状。尽管最初的医生诊断该青少年患有坏血病(一种由严重缺乏维生素 C 引起的疾病),但 ChatGPT 的诊断结果是免疫性血小板减少性紫癜。后者是一种自身免疫性疾病,会影响血液凝固,导致瘀伤和出血。由于对食物质地或口味敏感,自闭症患者的饮食可能非常严格,这可能使他们容易缺乏维生素。

另一个不准确的病例是一名婴儿,其颈部一侧有引流脓肿,原病例医生将其归因于支气管肾综合征(BOR)。这种发育状况会影响肾脏、耳朵和颈部的形成。 ChatGPT 声称婴儿患有鳃裂囊肿,而不是 BOR 综合征,因为婴儿的颈部和锁骨组织在出生前发育不正常。 

然而,在少数情况下,ChatGPT 会得出与医生相同的诊断。对于一名患有不明原因脑部压力(称为特发性颅内高压 (IIH))的 15 岁女孩,ChatGPT 正确匹配了医生对阿狄森氏病的原始诊断>,一种影响肾上腺的罕见荷尔蒙状况。在极少数情况下,IIH 可能是由艾迪生氏病引起的连锁反应

医疗保健前景喜忧参半

尽管研究人员发现人工智能生成的儿科诊断非常不准确,但他们表示,大语言模型 (LLM) 作为“医生的管理工具”仍然具有价值,例如在记笔记方面。然而,本研究中观察到的聊天机器人的诊断性能不佳,凸显了临床经验的宝贵作用 

研究人员解释说,ChatGPT 最重要的局限性之一是它无法找到医学疾病之间的关系,例如自闭症和维生素缺乏之间的联系,并引用了上述坏血病案例,该案例于 2017 年发表在《JAMA Pediatrics》杂志上/u>.他们认为,在提高人工智能未来准确诊断的能力方面,“需要进行更有选择性的培训”。 

他们补充说,这些技术也可能因“缺乏实时访问医疗信息”而令人失望。因此,他们警告说,人工智能聊天机器人可能无法跟上“新研究、诊断标准以及当前的健康趋势或疾病爆发”。

研究人员在论文中总结道:“这为研究人员提供了一个机会,调查特定的医疗数据训练和调整是否可以提高基于法学硕士的聊天机器人的诊断准确性。” 

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯