Étude préliminaire de reconnaissance d'écriture sur des documents historiques - LS2N - équipe IPI ( Image Perception Interaction ) Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Étude préliminaire de reconnaissance d'écriture sur des documents historiques

Résumé

ABSTRACT. This work cares about information retrieval in accounting registers of Italian comedy of the 18 th century. These documents contain precious information for human and social science researchers interested in the integration of the Italian actors during this century. Information retrieval in old documents which have never been studied before, is a long and difficult process. Each step asks an expertise : detection and segmentation into blocs, lines or words; extraction efficient features; and handwriting recognition. The BLSTM recurrent neural network with CTC decoding is the most popular solution which outperforms others for alignment between a transcription and an input sequence. This paper explains a preliminary investigation using this kind of recurrent neural network for the following task : identify the play's titles in multilingual historical documents using closed vocabulary that mainly contains named entities.
Ce travail s'intéresse à l'extraction d'informations dans les registres comptables de la Comédie-Italienne du XVIII e siècle. Ces derniers renferment des informations précieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette époque. L'extraction d'informations, dans des documents anciens non encore étudiés, est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation en blocs, lignes ou mots, extraction de caractéristiques, reconnaissance d'écri-ture manuscrite. Les réseaux de neurones récurrents, de type BLSTM, avec un décodage CTC constituent une des méthodes les plus prometteuses en reconnaissance d'écriture, pour réaliser l'étiquetage d'une séquence donnée en entrée et produire un résultat de reconnaissance. Cet article présente une étude préliminaire de l'utilisation de ce type de réseau de neurones pour une première tâche : la reconnaissance des titres des pièces de théâtre, dans des documents historiques multilingues (français et italien) utilisant un vocabulaire fermé et essentiellement composé d'entités nommées.
Fichier principal
Vignette du fichier
RJCRI2017.pdf (1.18 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01758573 , version 1 (04-04-2018)

Identifiants

  • HAL Id : hal-01758573 , version 1

Citer

Adeline Granet, Emmanuel Morin, Harold Mouchère, Solen Quiniou, Christian Viard-Gaudin. Étude préliminaire de reconnaissance d'écriture sur des documents historiques. Rencontre des Jeunes Chercheurs en Recherche d'Information (RJCRI), Mar 2017, Marseille, France. ⟨hal-01758573⟩
171 Consultations
114 Téléchargements

Partager

Gmail Facebook X LinkedIn More