在《AI In Precision Oncology》杂志上发表的一项新研究中,来自Capital Health和Bayta Systems的Nikhil Thaker及其合著者评估了各种llm的性能,包括OpenAI的gpt -3.5 turbo、GPT-4、GPT-4-turbo、meta的lama-2模型和Google的PaLM-2-text-bison。法学硕士们参加了一项包括300道题的考试,并将答案与放射肿瘤学学员的表现进行了比较。
结果显示,OpenAI的gpt -4 turbo表现最佳,正确率为74.2%,而三款美洲驼-2模型均表现不佳。法学硕士在统计学领域表现优异,但在临床领域表现不佳,但GPT-turbo除外,其表现与高级放射肿瘤学学员相当,优于低级放射肿瘤学学员。
研究人员总结道:“未来的研究将需要评估经过临床肿瘤学微调训练的模型的性能。”“这项研究还强调了严格验证法学硕士生成的信息与已建立的医学文献和专家共识的必要性,需要专家监督他们在医学教育和实践中的应用。”
“这项研究强调了生成式人工智能在彻底改变放射肿瘤学教育和实践方面的潜力。OpenAI的GPT-4-turbo表明,人工智能可以补充医疗培训,预示着人工智能将在未来帮助改善患者的治疗效果。然而,必须严格验证这些技术,并让专家参与进来,以确保它们在卫生保健中的可靠和有效使用,”《精准肿瘤学》人工智能主编Douglas Flora医学博士说。
更多信息:Nikhil G. Thaker等人,大型语言模型编码放射肿瘤学领域知识:在美国放射学会标准化考试中的表现,精准肿瘤学中的人工智能(2024)。DOI: 10.1089/aipo.2023.0007期刊信息:npj Precision oncology by Mary Ann Liebert, Inc .引文:评估放射肿瘤学中基于ai的大型语言模型的性能(2024,2月8日)检索自2024年2月8日https://medicalxpress.com/news/2024-02-ai-based-large-language-oncology.html此文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。