Autor(es):
Ferraz-Costa, Gonçalo ; Griné, Mafalda ; Oliveira-Santos, Manuel ; Teixeira, Rogério
Data: 2024
Origem: Acta Médica Portuguesa
Assunto(s): Artificial Intelligence; Clinical Competence; Educational Measurement; Internship and Residency; Portugal; Avaliação Educacional; Competência Clínica; Inteligência Artificial; Internato e Residência; Portugal
Descrição
ChatGPT, a language model developed by OpenAI, has been tested in several medical board examinations. This study aims to evaluate the performance of ChatGPT on the Portuguese National Residency Access Examination, a mandatory test for medical residency in Portugal. The study specifically compares the capabilities of ChatGPT versions 3.5 and 4o across five examination editions from 2019 to 2023. A total of 750 multiple-choice questions were submitted to both versions, and their answers were evaluated against the official responses. The findings revealed that ChatGPT 4o significantly outperformed ChatGPT 3.5, with a median examination score of 127 compared to 106 (p = 0.048). Notably, ChatGPT 4o achieved scores within the top 1% in two examination editions and exceeded the median performance of human candidates in all editions. Additionally, ChatGPT 4o’s scores were high enough to qualify for any specialty. In conclusion, ChatGPT 4o can be a valuable tool for medical education and decision-making, but human oversight remains essential to ensure safe and accurate clinical practice.
O ChatGPT, um modelo de linguagem desenvolvido pela OpenAI, foi testado em vários exames de acesso à profissão médica. Este estudo tem como objetivo avaliar o desempenho do ChatGPT na Prova Nacional de Acesso à Formação Especializada, um exame obrigatório para o início do internato médico em Portugal. O estudo compara especificamente as capacidades das versões 3.5 e 4o do ChatGPT em cinco edições do exame, de 2019 a 2023. Um total de 750 perguntas de escolha múltipla foram submetidas a ambas as versões, e as suas respostas foram avaliadas em comparação com as respostas oficiais. Os resultados revelam que o ChatGPT 4o superou significativamente o ChatGPT 3.5, com uma pontuação mediana de 127 em comparação com 106 (p = 0,048). Notavelmente, o ChatGPT 4o obteve pontuações dentro do top 1% em duas edições do exame e superou o desempenho mediano dos candidatos humanos em todas as edições. Além disso, as pontuações do ChatGPT 4o foram suficientemente elevadas para se qualificar para qualquer especialidade. Em conclusão, o ChatGPT 4o pode ser uma ferramenta valiosa para a educação médica e tomada de decisões, mas a supervisão humana continua a ser essencial para garantir uma prática clínica segura e precisa.