Extraction d’information dans des documents manuscrits anciens

Adeline Granet

Thèse Année : 2018

Extracting information in old handwritten documents

Extraction d’information dans des documents manuscrits anciens

(1, 2, 3)

1
2
3

Adeline Granet

Fonction : Auteur
PersonId : 18704
IdHAL : adeline-granet

Laboratoire des Sciences du Numérique de Nantes

Image Perception Interaction

Traitement Automatique du Langage Naturel

Résumé

Exploring unexploited but newly digitized resources to find relevant information is a complicated task due to the amount of available resources. Thanks to the ANR project CIRESFI, the most important resource for the Italian Comedy of the 18th century, is a set of accounting registers consisting of 28,000 pages. Information retrieval is a long and complex process that requires expertise at every step: detection and segmentation in paragraphs, lines or words, features extraction, handwriting recognition. Systems based on deep neural networks dominate these approaches. The major issue is the need of a large amount of data to achieve their learning. However, the registers of the Italian Comedy have no ground truth. To overcome this lack of data, we explore approaches that involving transfer learning. That means using heterogeneous labeled and available data, with at least one common feature with our data to drive the systems, and then applying them to our data. All of our experiments have shown us the difficulty of carrying out this task, each choice at each stage having a strong impact on the rest of the system. We converge on a solution separating the optical model from the language model in order to achieve independent learning with different available resources and joining together thanks to a projection of the information into a non-latent common space.

La tâche d'exploration dans des ressources inexploitées mais nouvellement numérisées, afin d'y trouver des informations pertinentes, est complexifiée par la quantité de ressources disponibles. Grâce au projet ANR CIRESFI, la ressource la plus importante, pour la Comédie-Italienne du XVIIIe siècle, est un ensemble de registres comptables constituée de 28 000 pages. L'extraction d'informations est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation, extraction de caractéristiques, reconnaissance d’écriture manuscrite. Les systèmes à base de réseaux de neurones profonds dominent dans l'ensemble ces approches. Le problème majeur est qu'ils nécessitent d'avoir une grande quantité de données pour réaliser leur apprentissage. Cependant, les registres de la Comédie-Italienne ne possèdent pas de vérité terrain. Pour palier ce manque de données, nous explorons des approches pouvant opérer un apprentissage par transfert de connaissance. Cela signifie utiliser un ensemble de données déjà étiquetées et disponibles, possédant un minimum de points communs avec nos données pour entraîner les systèmes, pour ensuite les appliquer sur nos données. L'ensemble de nos expérimentations nous ont montré la difficulté de réaliser cette tâche, chaque choix à chaque étape ayant un impact fort sur la suite du système. Nous convergeons vers une solution séparant le modèle optique du modèle de langage afin de réaliser un apprentissage indépendant avec différents types de ressources disponibles et se rejoignant grâce à une projection de l'ensemble des informations dans un espace commun non-latent.

Mots clés

Handwriting recognition Transfer learning Neural network Historical documents Optical model Linguistic model

Reconnaissance d’écriture manuscrite Apprentissage par transfert de connaissances Réseaux de neurones Documents historiques Modèle optique Modèle linguistique

Domaines

Traitement des images [eess.IV] Réseau de neurones [cs.NE] Apprentissage [cs.LG]

Fichier principal

GRANET.pdf (2.96 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Harold Mouchère : Connectez-vous pour contacter le contributeur

https://hal.science/tel-02925118

Soumis le : vendredi 28 août 2020-16:55:22

Dernière modification le : vendredi 24 mars 2023-14:53:18

Dates et versions

tel-02925118 , version 1 (28-08-2020)

Identifiants

HAL Id : tel-02925118 , version 1

Citer

Adeline Granet. Extraction d’information dans des documents manuscrits anciens. Traitement des images [eess.IV]. Université de Nantes, 2018. Français. ⟨NNT : ⟩. ⟨tel-02925118⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-NANTES INSTITUT-TELECOM CNRS EC-NANTES UNAM LS2N LS2N-IPI LS2N-TALN NANTES-UNIVERSITE

201 Consultations

352 Téléchargements

Extracting information in old handwritten documents

Extraction d’information dans des documents manuscrits anciens

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager