A radiologia tem papel crucial na medicina moderna ao fornecer diagnósticos precisos por meio de imagens não invasivas. Entretanto, a elaboração manual de laudos médicos é um processo demorado e sujeito a falhas humanas. Esta tese propõe um modelo multimodal para a geração automática de pré-laudos médicos a partir de radiografias de tórax, combinando técnicas de Visão Computacional e Processamento de Linguagem Natural com base na arquitetura Transformer. Inicialmente, foi desenvolvida uma abordagem com codificador visual baseado no Swin Transformer e decodificador textual integrando camadas de atenção cruzada e treinamento bilíngue com conjuntos de dados em Português PT-BR ou Inglês. Posteriormente, a arquitetura foi aprimorada com a introdução de um módulo de memória relacional, permitindo a retenção de informações contextuais de longo prazo durante a geração dos textos. O modelo final integra de forma coesa os componentes visuais e textuais por meio de normalização condicional orientada à memória. Os experimentos, realizados nas bases de imagens Proposta, IU Chest X-ray, NIH Chest X-ray e MIMIC-CXR-JPG, evidenciaram ganhos consistentes. Na avaliação com o conjunto de dados completo da MIMIC-CXR-JPG, o modelo com Swin Transformer e decodificador textual atingiu ROUGE-L de 0.304, METEOR de 0.233 e BLEU-4 de 0.054. A inclusão da memória relacional elevou essas métricas para 0.321, 0.281 e 0.114, respectivamente. Na versão do mesmo conjunto de dados sem o histórico clínico, o desempenho do modelo com memória relacional foi ainda maior, alcançando ROUGE-L de 0.416, METEOR de 0.384 e BLEU-4 de 0.187