Web sémantique et Mémoire d expériences sur l analyse du transcriptome - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2006

Semantic web and experiments memory for the transcriptome analysis

Web sémantique et Mémoire d expériences sur l analyse du transcriptome

Résumé

This work is carried out in the context of the MEAT project (Memory of Experiments for Analysis of Transcriptome) aiming to support biologists working on DNA microarrays. We provide methodological and software solutions to help biologists in the validation and the interpretation of their experiments. Our approach, based on Semantic web technologies, is relying on formalized ontologies, semantic annotations of scientific articles and knowledge extraction from texts. It can probably be extended to other massive analyses of biological events (as provided by proteomics, metabolomics...). First, we propose a modular ontology composed of three sub-ontologies covering all knowledge of the biochip domain (experiments databases, scientific papers, biomedical entities...). To describe the biomedical domain, this ontology integrates an existing ontology called UMLS, which allowed us to study the problem of reusing and adapting ontologies for new applications. Second, we propose a methodology for the automatic generation of ontology-based semantic annotations: starting from a scientific article in biology, it allows to generate a structured semantic annotation based on a domain ontology and describing the semantic content of this text. The generated annotations are based not only on concept instances but also on relation instances. Finally, to facilitate the sharing of the knowledge embedded in the memory, we propose a search module based on Corese which enables biologists to use annotations. By using the query and rule languages of Corese, this system allows to perform reasoning on the annotations base for retrieving relevant information.
Cette thèse rentre dans le cadre du projet MEAT (Mémoire d´Expériences pour l´Analyse du Transcriptome) dont le but est d´assister les biologistes travaillant dans le domaine des puces à ADN, pour l´interprétation et la validation de leurs résultats. Nous proposons une aide méthodologique et logicielle pour construire une mémoire d´expériences pour ce domaine. Notre approche, basée sur les technologies du web sémantique, repose sur l´utilisation des ontologies et des annotations sémantiques sur des articles scientifiques et d´autres sources de connaissances du domaine. Dans une première partie, nous proposons une ontologie modulaire pour la description des connaissances du domaine des puces à ADN (base de données d´expériences, articles scientifiques, entités biomédicales...). Cette ontologie intègre entre autres, le réseau sémantique déjà existant d´UMLS, ce qui nous a permis d´approfondir le problème de réutilisation de ressources termino-ontologiques et leur adaptation à une nouvelle application. Ensuite, nous proposons une méthodologie générique pour la génération d´annotations sémantiques basées sur cette ontologie en exploitant les connaissances contenues dans les textes. Cette méthodologie a l´originalité d´utiliser des techniques de traitement automatique de la langue et des grammaires d´extraction de relations pour extraire automatiquement des articles scientifiques les relations reliant des termes d´UMLS reconnus dans le texte. Un système supportant cette méthodologie a été implémenté et validé par nos collègues biologistes. Enfin, pour faciliter la diffusion des connaissances contenues dans la mémoire, nous proposons un prototype qui se base sur un moteur de recherche sémantique (Corese) et qui exploite la base d´annotations que nous avons constituée. Cette partie du travail a permis d´améliorer la tâche de recherche d´informations en la rendant plus efficace et en offrant des mécanismes de raisonnement sur les connaissances du domaine.
Fichier principal
Vignette du fichier
These_Mohamed_Khaled_KHELIF.pdf (1.6 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00328114 , version 1 (09-10-2008)

Identifiants

  • HAL Id : tel-00328114 , version 1

Citer

Khaled Mohamed Khelif. Web sémantique et Mémoire d expériences sur l analyse du transcriptome. Réseaux et télécommunications [cs.NI]. Université Nice Sophia Antipolis, 2006. Français. ⟨NNT : ⟩. ⟨tel-00328114⟩
376 Consultations
938 Téléchargements

Partager

Gmail Facebook X LinkedIn More