Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée - LINA - Equipe Traitement Automatique du Langage Naturel Access content directly
Conference Papers Year : 2016

Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée

Abstract

Unified document and domain-specific model for keyphrase extraction and assignment This paper focuses on document indexing from keyphrases as performed by professional indexers. From an analysis of indexers working at Digital Libraries, we propose a graph-based method that combines both document information and domain-specific knowledge to perform both keyphrase extraction and assignment (free and controlled indexing). Apart from begin able to assign keyphrases that do not necessarily appear within documents, our experiments show that our approach outperforms the state-of-the-art graph-based approach.
Dans cet article, nous nous intéressons à l'indexation de documents de domaines de spécialité par l'intermédiaire de leurs termes-clés. Plus particulièrement, nous nous intéressons à l'indexation telle qu'elle est réalisée par les documentalistes de bibliothèques numériques. Après analyse de la méthodologie de ces indexeurs professionnels, nous proposons une méthode à base de graphe combinant les informations présentes dans le document et la connaissance du domaine pour réaliser une indexation (hybride) libre et contrôlée. Notre méthode permet de proposer des termes-clés ne se trouvant pas nécessairement dans le document. Nos expériences montrent aussi que notre méthode surpasse significativement l'approche à base de graphe état de l'art.
Fichier principal
Vignette du fichier
T3.pdf (3.67 Mo) Télécharger le fichier
Origin : Publisher files allowed on an open archive
Loading...

Dates and versions

hal-01693792 , version 1 (01-02-2018)

Identifiers

  • HAL Id : hal-01693792 , version 1

Cite

Adrien Bougouin, Florian Boudin, Béatrice Daille. Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée. 23e conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jul 2016, Paris, France. ⟨hal-01693792⟩
144 View
45 Download

Share

Gmail Facebook X LinkedIn More