美国执业医师资格考试以难度大著称,但根据一项研究发现,聊天机器人ChatGPT无需经过专门训练或加强学习,就能在美国医学执照考试中取得及格或接近及格的成绩。
发表在美国《科学公共图书馆·数字健康》杂志上的这篇文章称,ChatGPT在没有经过专门训练或加强学习的情况下就能通过或接近通过美国执业医师资格考试(USMLE)。此外,ChatGPT还在考试中表现出高度的一致性和洞察力。这些结果表明,大型语言模型可能有辅助医学教育、甚至临床决策的潜力。
为进行这项研究,总部设在加利福尼亚州的安西布尔健康公司的研究人员测试了ChatGPT在考试中的表现。该考试分为三部分,是由美国医学生和培训医师参加的,第一部分侧重于考察基础科学和药理学,考生通常是完成300至400小时专业学习的医学生;第二部分一般由四年级医学生参加,重点考察临床诊断推理能力、医疗管理水平和生物伦理方面内容;最后一部分考试对象是完成至少6至12个月研究生医学教育的实习医生。得分率60%左右即可视为通过考试。
研究报告称,标准化考试测试多个医学学科的知识,从基础科学到生物化学,再到诊断推理再到生物伦理学。研究人员就2022年6月那场考试的376道公共试题中的350道对这个人工智能系统进行了测试,它没有提前接受过任何专门训练。
在考试的三个部分中,ChatGPT的得分在52.4%至75%之间。
考题以各种形式呈现给ChatGPT,包括开放式提问,比如“根据所提供的信息,患者的诊断结果是怎样的?”也有多个选择题,比如:“患者的病情主要是由以下哪一种病原体引起的?”
这些问题以各种形式呈现给 ChatGPT,包括开放式提示,例如“根据所提供的信息,患者的诊断是什么?”
还有多项选择题,例如:“患者的病情主要是由下列哪种病原体引起的?”
研究称,两名互不知情的医师评审员审查了最终成绩的回答。
在一致性上,由两名评审人员负责评定,总体而言,ChatGPT 输出的答案和见解在所有问题中的一致性为 94.6%。值得注意的是,ChatGPT有88.9%的主观回答产生了“至少一个重要的见解”。
新西兰惠灵顿维多利亚大学软件工程高级讲师、外部专家 Simon McCallum指出,谷歌使用名为 Med-PaLM 的人工智能医疗工具取得了令人惊讶的结果。
“ChatGPT 可能会通过考试,但 Med-PaLM 能够为患者提供与专业 GP 一样好的建议,”McCallum 说。“这两个系统都在改进。
“社会即将发生变化,我们可能很快就会从 Google 医生或 Bing 护士那里获得专业的医疗建议。”