研究揭露:AI健康建议错误频出,你的健康谁负责?

   日期:2026-04-27     来源:本站    作者:admin    浏览:82    
核心提示:    【编者按】在AI浪潮席卷全球的当下,聊天机器人已成为许多人获取健康信息的“新宠”。它们能通过医师资格考试,甚至在某

  

  【编者按】在AI浪潮席卷全球的当下,聊天机器人已成为许多人获取健康信息的“新宠”。它们能通过医师资格考试,甚至在某些复杂诊断中超越人类医生——但这是否意味着AI真的能成为我们身边的“家庭医生”?一项发表于《自然·医学》的最新随机研究给出了冷静的答案:当面对真实世界中混乱、不完整的医疗情境时,当前主流AI模型的表现并不比普通谷歌搜索更可靠,甚至可能因提问措辞的细微差别给出截然相反的建议。这并非要全盘否定AI的潜力,而是提醒我们:医学不是标准化的考试题,而是充满不确定性的复杂实践。在拥抱技术的同时,我们更需要保持清醒——生命的重量,终究需要人类智慧的温度来托举。

  最近发表的一项研究给人们敲响了警钟:迅速成为健康信息主要来源的AI聊天机器人,是否真的擅长为公众提供医疗建议?

  实验发现,在引导用户做出正确诊断或决定后续行动方面,这些聊天机器人的表现并不比谷歌搜索更好——而谷歌本身已是存在缺陷的健康信息来源。这项技术还带来独特风险:有时会提供虚假信息,或仅仅因为问题措辞的轻微变化就大幅改变建议内容。

  研究人员在论文中得出结论:实验中评估的所有模型都“尚未准备好直接应用于患者护理”。这是该领域首项随机对照研究。

  自AI聊天机器人向公众开放三年以来,健康问题已成为用户最常咨询的话题之一。

  一些医生经常接诊已先向AI模型寻求“初诊意见”的患者。调查发现,约六分之一的成年人每月至少使用聊天机器人获取健康信息一次。包括亚马逊和OpenAI在内的主要AI公司都已推出专门回答用户健康问题的产品。

  这些工具引发兴奋确有合理原因:这些模型已通过医师资格考试,并在复杂诊断问题上表现优于医生。

  但《自然·医学》新研究的资深作者、牛津互联网研究所教授亚当·马赫迪怀疑,这些整洁直接的医学问题并不能真实反映它们对实际患者的帮助效果。

  “医学不是那样的,”他说,“医学是混乱的、不完整的、随机性的。”

  因此他与同事设计了一项实验。1200多名英国参与者(大多没有医学背景)获得包含症状、生活方式细节和病史的详细医疗情境。研究人员要求参与者通过与聊天机器人对话来确定适当后续步骤,例如是否呼叫救护车或在家自我治疗。他们测试了OpenAI的ChatGPT和meta的Llama等商用聊天机器人。

  研究人员发现,参与者选择医生小组预先确定的“正确”行动方案的比例不到一半。用户识别出正确病症(如胆结石或蛛网膜下腔出血)的比例约为34%。

  他们的表现并不优于对照组——对照组被要求使用通常在家使用的任何研究方法(主要是谷歌搜索)完成相同任务。

  斯坦福大学AI研究与科学评估网络负责人伊桑·吴博士指出,该实验并不能完美反映聊天机器人在现实世界中回答医疗问题的情况:实验用户询问的是虚构情境,这可能与他们针对自身健康与聊天机器人互动的方式不同。

  由于AI公司频繁推出新版本模型,参与者一年前实验时使用的聊天机器人很可能已不同于当前版本。OpenAI发言人表示,如今为ChatGPT提供支持的模型在回答健康问题方面远优于研究中测试的已淘汰版本。他们引用内部数据称,许多新模型出现常见错误(包括幻觉和紧急情况下的误判)的概率大幅降低。meta未回应评论请求。

  但这项研究仍揭示了与聊天机器人互动可能出错的方式。

  当研究人员深入分析聊天记录时发现,约半数错误似乎源于用户操作不当。参与者未输入足够信息或最关键的症状,导致聊天机器人基于不完整信息给出建议。

  例如,有模型向用户建议持续一小时的“严重胃痛”可能由消化不良引起。但参与者未提供疼痛程度、位置和频率等细节——这些信息本可能引导机器人做出正确诊断(胆结石)。

  相比之下,当研究人员将完整医疗情境直接输入聊天机器人时,它们正确诊断问题的比例达到94%。

  医生在医学院学习的重要内容之一,就是如何识别哪些细节相关、哪些可忽略。

  “需要大量认知魔法和经验,才能判断病例中哪些重要元素应该输入机器人,”研究医疗AI的加州大学旧金山分校医学系主任罗伯特·瓦赫特博士说。

  但论文第一作者、牛津大学研究生安德鲁·比恩认为,责任不应完全由用户承担。他表示聊天机器人应像医生询问患者那样进行追问。

  “真的该由用户负责知道该强调哪些症状吗?模型是否也该承担部分提问责任?”他反问道。

  这正是科技公司努力改进的领域。OpenAI发言人提供的数据显示,当前ChatGPT模型提出追问的可能性约为旧版本的六倍。

  即使研究人员直接输入医疗情境,也发现聊天机器人难以准确判断何时该建议立即就医或非紧急处理。麻省总医院布里格姆分院研究患者-AI互动的丹妮尔·比特曼博士指出,这可能因为模型主要基于医学教科书和病例报告训练,却缺乏医生通过经验积累的自由决策经验。

  在某些情况下,聊天机器人还会返回虚构信息。有案例中,模型建议参与者拨打位数不足的虚假紧急热线。

  研究人员还发现另一个问题:参与者描述症状或提问方式的细微差异,会显著改变机器人的建议。

  例如,研究中两名参与者获得相同的初始信息——剧烈头痛、畏光、颈部僵硬——但向聊天机器人描述时略有不同。

  在第一种描述下,聊天机器人将其视为无需立即就医的小问题。

  在另一种描述下,聊天机器人则认为症状是严重健康问题的征兆,建议用户前往急诊室。

  “极其微小的措辞差异会造成天壤之别,”比恩强调。

  作者:泰迪·罗森布拉特 ? 纽约时报公司

  本文原载于《纽约时报》

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行