TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés - LINA - Equipe Traitement Automatique du Langage Naturel Access content directly
Journal Articles Revue TAL : traitement automatique des langues Year : 2014

TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés

Abstract

Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d'un document. Ils sont utiles pour diverses applications telles que l'indexa-tion automatique ou le résumé automatique, mais ne sont cependant pas disponibles pour la plupart des documents. La quantité de ces documents étant de plus en plus importante, l'ex-traction manuelle des termes-clés n'est pas envisageable et la tâche d'extraction automatique de termes-clés suscite alors l'intérêt des chercheurs. Dans cet article nous présentons Topic-Rank, une méthode non supervisée à base de graphe pour l'extraction de termes-clés. Cette méthode groupe les termes-clés candidats en sujets, ordonne les sujets et extrait de chacun des meilleurs sujets le terme-clé candidat qui le représente le mieux. Les expériences réali-sées montrent une amélioration significative vis-à-vis de l'état de l'art des méthodes à base de graphe pour l'extraction non supervisée de termes-clés. ABSTRACT. Keyphrases are single or multi-word expressions that represent the main content of a document. As keyphrases are useful in many applications such as document indexing or text summarization, and also because the vast amount of data available nowadays cannot be manu-ally annotated, the task of automatically extracting keyphrases has attracted considerable atten-tion. In this article we present TopicRank, an unsupervised graph-based method for keyphrase extraction. This method clusters the keyphrase candidates into topics, ranks these topics and extracts the most representative candidate for each of the best topics. Our experiments show a significant improvement over the state-of-the-art graph-based methods for keyphrase extraction.
Fichier principal
Vignette du fichier
2._Bougoin-TAL55-1.pdf (233.58 Ko) Télécharger le fichier
Origin : Publisher files allowed on an open archive
Loading...

Dates and versions

hal-01096913 , version 1 (18-12-2014)

Identifiers

  • HAL Id : hal-01096913 , version 1

Cite

Adrien Bougouin, Florian Boudin. TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés. Revue TAL : traitement automatique des langues, 2014, pp.45-69. ⟨hal-01096913⟩
187 View
151 Download

Share

Gmail Facebook X LinkedIn More