Notícias

Banca de DEFESA: RENATO FREITAS BESSA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: RENATO FREITAS BESSA
DATA: 09/05/2025
HORA: 14:00
LOCAL: Híbrido - Sala do PPGBiotec e Online via Google Meet
TÍTULO: Estudo Comparativo de Desempenho de Chatbots baseados em Inteligência Artificial Generativa na Resolução do Exame Revalida
PALAVRAS-CHAVES: Informática em Saúde, Inteligência Artificial, Grandes Modelos de Linguagem, Avaliação de Desempenho.
PÁGINAS: 67
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
RESUMO:

A Inteligência Artificial (IA) tem o potencial de ser uma ferramenta de apoio à decisão em saúde e também suporte a educação em saúde, especialmente por meio do processamento de linguagem natural, que permite que computadores compreendam e gerem linguagem humana de maneira natural. Este trabalho de mestrado visou realizar uma comparação de desempenho de três chatbots baseados em Large Language Models (LLMs) generativos (ChatGPT-3.5, Copilot/GPT-4 e Gemini) ao responderem às provas objetivas das últimas seis edições (2017 a 2024) do Exame Nacional de Revalidação de Diplomas Médicos Expedidos por Instituição de Educação Superior Estrangeira (Revalida). A realização do estudo iniciou com a coleta das provas dos anos de 2017 a 2023 do Revalida e preparação delas para serem utilizadas como entrada para os chatbots. Realizou-se a inserção das questões e anotação das respostas. As respostas geradas foram então comparadas com o gabarito oficial, a fim de determinar o desempenho dos chatbots, através da taxa de acerto, índice de fallback e teste qui-quadrado. Em seguida, solicitamos para o chatbot que obteve o melhor desempenho nessa análise inicial que, além de responder às questões, também gerasse uma explicação para as respostas da prova de 2024. As questões com respostas corretas foram então analisadas por três médicas de forma independente. Os resultados mostraram que o Copilot/GPT-4 obteve o melhor desempenho, com uma taxa de acerto médio de 63,85% O segundo melhor desempenho foi do ChatGPT-3.5 com a média de acerto de 60,55% nas provas dos cinco primeiros anos analisados. O menor desempenho foi do Gemini, com uma taxa de acerto médio de 59,08% O índice de fallback do Gemini foi 1% e do Copilot/GPT-4 foi 0,64%. As médicas que analisaram as explicações demonstraram concordância total de 100%, com a linha de raciocínio empregada pelo chatbot para responder corretamente às questões da prova de 2024. Os resultados sugerem que, com um treinamento para a utilização adequada, os LLMs podem ter potencial para serem aplicados em sistemas de suporte à decisão clínica, ajudando profissionais a acessar informações atualizadas sobre diagnósticos e tratamentos, e na educação em saúde, melhorando o aprendizado de estudantes e profissionais.


MEMBROS DA BANCA:
Presidente - 015.***.***-44 - ARIEL SOARES TELES - IFMA
Interno - 1551921 - GIOVANNY REBOUCAS PINTO
Externo ao Programa - 3870578 - FERNANDO LOPES E SILVA JUNIOR
Notícia cadastrada em: 03/04/2025 15:57
SIGAA | Superintendência de Tecnologia da Informação - STI/UFPI - (86) 3215-1124 | © UFRN | sigjb06.ufpi.br.instancia1 28/04/2025 06:42