Gå direkt till innehållet
Bildunterschrift
Spara

Bildunterschrift

pocket, 2024
Tyska
Die Beschriftung von Bildern mit Audiodaten hat sich als anspruchsvolle, aber vielversprechende Aufgabe im Bereich des Deep Learning herausgestellt. Dieses Papier schl gt einen neuartigen Ansatz zur Bew ltigung dieser Aufgabe durch die Integration von Convolutional Neural Networks (CNNs) f r Bild Feature-Extraktion und rekurrente neuronale Netze (RNNs) f r sequentielle Audio-Analyse. Konkret nutzen wir vortrainierte CNNs wie VGG, um visuelle Merkmale aus Bildern zu extrahieren, und verwenden Spektrogrammdarstellungen in Verbindung mit RNNs wie LSTM oder GRU, um Audioeingaben zu verarbeiten. Das von uns vorgeschlagene Modell basiert nicht nur auf dem visuellen Inhalt, sondern auch auf den begleitenden Audiohinweisen. Wir evaluieren die Leistung unseres Modells anhand von Benchmark-Datens tzen und demonstrieren seine Effektivit t bei der Generierung koh renter und kontextuell relevanter Bildunterschriften f r Bilder mit entsprechenden Audioeingaben. Zus tzlich f hren wir Tabellierungsstudien durch, um den Beitrag jeder Modalit t zur Gesamtleistung der Beschriftung zu analysieren. Unsere Ergebnisse zeigen, dass die Fusion von visuellen und auditiven Modalit ten die Qualit t der Beschriftung im Vergleich zur isolierten Verwendung einer der beiden Modalit ten deutlich verbessert.
ISBN
9786207660995
Språk
Tyska
Vikt
104 gram
Utgivningsdatum
19.6.2024
Sidor
64