Alignement multilingue en corpus comparables spécialisés

Emmanuel Ep Prochasson

Theses Year : 2009

Multilingual alignment from specialised comparable corpora

Alignement multilingue en corpus comparables spécialisés

(1)

Emmanuel Ep Prochasson

Function : Author
PersonId : 863296

Laboratoire d'Informatique de Nantes Atlantique

Abstract

Comparable corpora are sets of documents written in different languages, which are not translations of each other but share common features, such as the topic or the discourse type. Our work concerns bilingual lexicon extraction from such corpora, in other word, the process of finding translation pairs among the common multilingual vocabulary available in comparable corpora. We focus on specialised comparable corpora, for they are likely to reveal the terminology proper to specialised language. We work on corpora made of medical documents: one of them covers the topic of diabetes and feeding, in French, English and Japanese; the other one covers the topic of breast cancer, in French and English. We propose several improvements for the classical alignment process, especially concerning the delicate case of the Japanese language, distant from French and English. We conclude this thesis with thoughts concerning the nature of comparable corpora and the question of comparability.

Les corpus comparables rassemblent des documents multilingues n'étant pas en relation de traduction mais partageant des traits communs. Notre travail porte sur l'extraction de lexique bilingue à partir de ces corpus, c'est-à-dire la reconnaissance et l'alignement d'un vocabulaire commun multilingue disponible dans le corpus. Nous nous concentrons sur les corpus comparables spécialisés, c'est-à-dire des corpus constitués de documents révélateurs de la terminologie utilisée dans les langues de spécialité. Nous travaillons sur des corpus médicaux, l'un deux couvre la thématique du diabète et de l'alimentation, en français, anglais et japonais; l'autre couvre la thématique du cancer du sein, en anglais et en français. Nous proposons et évaluons différentes améliorations du processus d'alignement, en particulier dans le cas délicat de la langue japonaise. Nous prolongeons ce manuscrit par une réflexion sur la nature des corpus comparables et la notion de comparabilité.

Keywords

corpus comparables langue de spécialité alignement multilingue

comparable corpora multilingual alignment specialised corpora

Domains

Human-Computer Interaction [cs.HC]

Fichier principal

these.pdf (1.45 Mo)

soutenance.pdf (2 Mo)

Format : Other

Emmanuel Prochasson : Connect in order to contact the contributor

https://theses.hal.science/tel-00462248

Submitted on : Tuesday, March 9, 2010-6:36:31 AM

Last modification on : Friday, January 5, 2024-3:25:19 AM

Long-term archiving on: Thursday, June 30, 2011-12:10:45 PM

Dates and versions

tel-00462248 , version 1 (09-03-2010)

Identifiers

HAL Id : tel-00462248 , version 1

Cite

Emmanuel Ep Prochasson. Alignement multilingue en corpus comparables spécialisés. Interface homme-machine [cs.HC]. Université de Nantes, 2009. Français. ⟨NNT : ⟩. ⟨tel-00462248⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-NANTES CNRS LINA LINA-TALN LS2N NANTES-UNIVERSITE

321 View

1676 Download

Multilingual alignment from specialised comparable corpora

Alignement multilingue en corpus comparables spécialisés

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share