Siirry suoraan sisältöön
Legenda da imagem
Tallenna

Legenda da imagem

pokkari, 2024
portugali
A legendagem de imagens com udio surgiu como uma tarefa desafiante mas promissora no dom nio da aprendizagem profunda. Este documento prop e uma nova abordagem para lidar com essa tarefa, integrando redes neurais convolucionais (CNNs) para extra o de recursos de imagem e redes neurais recorrentes (RNNs) para an lise de udio sequencial. Especificamente, utilizamos CNNs pr -treinadas, como VGG, para extrair caracter sticas visuais de imagens e empregamos representa es de espectrogramas acopladas a RNNs, como LSTM ou GRU, para processar entradas de udio. O nosso modelo proposto baseia-se n o s no seu conte do visual, mas tamb m nas pistas de udio que o acompanham. Avaliamos o desempenho do nosso modelo em conjuntos de dados de refer ncia e demonstramos a sua efic cia na gera o de legendas coerentes e contextualmente relevantes para imagens com entradas de udio correspondentes. Al m disso, efectuamos estudos de tabula o para analisar a contribui o de cada modalidade para o desempenho global da legendagem. Os nossos resultados mostram que a fus o das modalidades visual e auditiva melhora significativamente a qualidade da legendagem em compara o com a utiliza o isolada de cada uma das modalidades.
ISBN
9786207661046
Kieli
portugali
Paino
104 grammaa
Julkaisupäivä
19.6.2024
Sivumäärä
64