Identification automatique d'entités pour l'enrichissement de contenus textuels - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2013

Automatic Entity Identification for textual content enrichment

Identification automatique d'entités pour l'enrichissement de contenus textuels

Résumé

This dissertation proposes a method and a system for the identification of entities (persons, locations, organizations) mentionned in the textual production of the news agency Agence France Presse, in the prospect of the automatic content enrichment. The various fields concerned by this task are viewed through their relationship: Semantic Web, Information Extraction and in particular Named Entity Recognition (\ner), Semantic Annotation, Entity Linking. Following this study, the industrial need expressed by the Agence France Presse is the subject of specifications, useful for the development of a solution relying on Natural Language Processing tools. The approach adopted for the identification of the target entities is then described: we propose a system taking charge of the \ner step using any existing module, whose results, possibly combined with those of other modules, are evaluated by a linking module able to (i) align a given mention with the entity it denotes among an inventory, built prior to the task, (ii) to spot denotations without alignment in the inventory and (iii) to reconsider denotational readings of mentions (false positive detection). The \nomos system is developed to this end for the processing of French data. Its conception also gives rise to the building and use of resources integrated into the \ld network, as well as a rich knowledge base about the target entities.
Cette thèse propose une méthode et un système d'identification d'entités (personnes, lieux, organisations) mentionnées au sein des contenus textuels produits par l'Agence France Presse dans la perspective de l'enrichissement automatique de ces contenus. Les différents domaines concernés par cette tâche ainsi que par l'objectif poursuivi par les acteurs de la publication numérique de contenus textuels sont abordés et mis en relation : Web Sémantique, Extraction d'Information et en particulier Reconnaissance d'Entités Nommées (\ren), Annotation Sémantique, Liage d'Entités. À l'issue de cette étude, le besoin industriel formulé par l'Agence France Presse fait l'objet des spécifications utiles au développement d'une réponse reposant sur des outils de Traitement Automatique du Langage. L'approche adoptée pour l'identification des entités visées est ensuite décrite : nous proposons la conception d'un système prenant en charge l'étape de \ren à l'aide de n'importe quel module existant, dont les résultats, éventuellement combinés à ceux d'autres modules, sont évalués par un module de Liage capable à la fois (i) d'aligner une mention donnée sur l'entité qu'elle dénote parmi un inventaire constitué au préalable, (ii) de repérer une dénotation ne présentant pas d'alignement dans cet inventaire et (iii) de remettre en cause la lecture dénotationnelle d'une mention (repérage des faux positifs). Le système \nomos est développé à cette fin pour le traitement de données en français. Sa conception donne également lieu à la construction et à l'utilisation de ressources ancrées dans le réseau des \ld ainsi que d'une base de connaissances riche sur les entités concernées.
Fichier principal
Vignette du fichier
these.pdf (13.69 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00939420 , version 1 (30-01-2014)

Identifiants

  • HAL Id : tel-00939420 , version 1

Citer

Rosa Stern. Identification automatique d'entités pour l'enrichissement de contenus textuels. Informatique et langage [cs.CL]. Université Paris-Diderot - Paris VII, 2013. Français. ⟨NNT : ⟩. ⟨tel-00939420⟩
486 Consultations
1762 Téléchargements

Partager

Gmail Facebook X LinkedIn More