Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data

Vedran Vukotic

Thèse Année : 2017

Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data

Architectures neuronales profondes pour l'apprentissage de représentation multimodales de données multimédias

(1)

Vedran Vukotic

Fonction : Auteur
PersonId : 785305
IdRef : 22151175X

Creating and exploiting explicit links between multimedia fragments

Résumé

In this dissertation, the thesis that deep neural networks are suited for analysis of visual, textual and fused visual and textual content is discussed. This work evaluates the ability of deep neural networks to learn automatic multimodal representations in either unsupervised or supervised manners and brings the following main contributions:1) Recurrent neural networks for spoken language understanding (slot filling): different architectures are compared for this task with the aim of modeling both the input context and output label dependencies.2) Action prediction from single images: we propose an architecture that allow us to predict human actions from a single image. The architecture is evaluated on videos, by utilizing solely one frame as input.3) Bidirectional multimodal encoders: the main contribution of this thesis consists of neural architecture that translates from one modality to the other and conversely and offers and improved multimodal representation space where the initially disjoint representations can translated and fused. This enables for improved multimodal fusion of multiple modalities. The architecture was extensively studied an evaluated in international benchmarks within the task of video hyperlinking where it defined the state of the art today.4) Generative adversarial networks for multimodal fusion: continuing on the topic of multimodal fusion, we evaluate the possibility of using conditional generative adversarial networks to lean multimodal representations in addition to providing multimodal representations, generative adversarial networks permit to visualize the learned model directly in the image domain.

La thèse porte sur le développement d'architectures neuronales profondes permettant d'analyser des contenus textuels ou visuels, ou la combinaison des deux. De manière générale, le travail tire parti de la capacité des réseaux de neurones à apprendre des représentations abstraites. Les principales contributions de la thèse sont les suivantes: 1) Réseaux récurrents pour la compréhension de la parole: différentes architectures de réseaux sont comparées pour cette tâche sur leurs facultés à modéliser les observations ainsi que les dépendances sur les étiquettes à prédire. 2) Prédiction d’image et de mouvement : nous proposons une architecture permettant d'apprendre une représentation d'une image représentant une action humaine afin de prédire l'évolution du mouvement dans une vidéo ; l'originalité du modèle proposé réside dans sa capacité à prédire des images à une distance arbitraire dans une vidéo. 3) Encodeurs bidirectionnels multimodaux : le résultat majeur de la thèse concerne la proposition d'un réseau bidirectionnel permettant de traduire une modalité en une autre, offrant ainsi la possibilité de représenter conjointement plusieurs modalités. L'approche été étudiée principalement en structuration de collections de vidéos, dons le cadre d'évaluations internationales où l'approche proposée s'est imposée comme l'état de l'art. 4) Réseaux adverses pour la fusion multimodale: la thèse propose d'utiliser les architectures génératives adverses pour apprendre des représentations multimodales en offrant la possibilité de visualiser les représentations dans l'espace des images.

Mots clés

Deep neural networks Embedding Continuous representation Multimedia Multimodal Computer vision Spoken langage understanding Crossmodal Generative adversarial networks Autoencoders

Autoencodeurs Apprentissage de représentations

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

THESE_DEF_Vedran_Vukotic_pdfstar.pdf (8.77 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-01629669

Soumis le : mercredi 13 décembre 2017-11:56:07

Dernière modification le : vendredi 24 mars 2023-14:53:05

Dates et versions

tel-01629669 , version 1 (06-11-2017)

tel-01629669 , version 2 (13-12-2017)

Identifiants

HAL Id : tel-01629669 , version 2

Citer

Vedran Vukotic. Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data. Artificial Intelligence [cs.AI]. INSA de Rennes, 2017. English. ⟨NNT : 2017ISAR0015⟩. ⟨tel-01629669v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA STAR IRISA-INSA-R INRIA2 UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

876 Consultations

889 Téléchargements

Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data

Architectures neuronales profondes pour l'apprentissage de représentation multimodales de données multimédias

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager