Gradients de prototypicalité, mesures de proximité et de similarité : une contribution à l’Ingénierie des Ontologies.
Thèse:
- soutenue le 08 avril 2011 ;
- préparée au sein du LINA, Equipe COD, Université de Nantes, sous la direction de Pascale Kuntz, Frédéric Fürst et Francky Trichet.
Jury :
- Président : Serge Garlatti, Professeur, Telecom Bretagne, Brest
- Rapporteurs :
Jean Charlet, Maître de conférences, AP-HP – INSERM LIMICS, Paris
Gilles Kassel, Professeur, Université Picardie Jules Verne, Amiens
- Examinateurs :
Frédéric Fürst, Maître de conférences, Université Picardie Jules Verne, Amiens
Pascale Kuntz, Professeur, École Polytechnique de l’Université de Nantes
Philippe Laublet, Maître de conférences, Université Paris-Sorbonne, Paris 4
Francky Trichet, Maître de conférences, Université de Nantes
- Invité :
Bernard Fort, Société Tennaxia, Laval
Disponible sur HAL : http://tel.archives-ouvertes.fr/tel-00660916
Résumé :
En psychologie cognitive, la notion de prototype apparaît de manière centrale dans les représentations conceptuelles. Dans le cadre de nos travaux, nous proposons d’introduire cette notion au sein des activités relevant de l’Ingénierie des Ontologies et de ses modèles de représentation. L’approche sémiotique que nous avons développée est fondée sur les trois dimensions d’une conceptualisation que sont l’intension (les propriétés), l’expression (les termes), et l’extension (les instances). Elle intègre, en sus de l’ontologie, des connaissances supplémentaires propres à l’utilisateur (pondération des propriétés, corpus, instances). Pratiquement, il s’agit de pondérer les liens « is-a », les termes et les instances d’une hiérarchie de concepts, au moyen de gradients de prototypicalité respectivement conceptuelle, lexicale et extensionnelle. Notre approche a été mise en oeuvre dans un système industriel de gestion documentaire et de recherche d’information pour la société Tennaxia – société de veille juridique dans le domaine de l’Environnement. Elle a conduit au développement d’une ontologie du domaine Hygiène-Sécurité-Environnement, et de deux applications logicielles : l’application TooPrag dédiée au calcul des différents gradients de prototypicalité, et le moteur de Recherche d’Information sémantique Theseus qui exploite les gradients de prototypicalité. Nous avons en n étendu notre approche à la défi nition de deux nouvelles mesures sémantiques, en nous inspirant des lois de similarité et de proximité de la théorie de la perception : Semiosem, une mesure de similarité, et Proxima, une mesure de proximité.
Description des travaux réalisés durant ma thèse
La collaboration de recherche entre la société TENNAXIA et le LINA (Laboratoire d’Informatique de Nantes Atlantique – UMR CNRS 6241) de l’Université de Nantes, dans le cadre de ma thèse CIFRE, a conduit à différentes contributions scientifiques marquantes au sein des communautés nationales et internationales de l’Ingénierie des connaissances.
1- Construction d’une ontologie du domaine Hygiène / Sécurité / Environnement (HSE)
Une ontologie du domaine HSE a été réalisée dans le cadre de ce projet. Elle comporte près de 10.000 concepts, sur une profondeur maximale de 12 niveaux, avec une moyenne de 30 concepts par catégorie. Cette ontologie a été construite à partir de différents type de ressources (près d’une vingtaine de textes et nomenclatures) comme l’annexe I de la version consolidée de la Directive 67/548/CEE pour les substances dangereuses, le Code de la Sécurité Sociale pour les maladies professionnelles, etc. Elle est stockée au format OWL 1.0, standard du W3C. L’ontologie HSE-Tennaxia a fait l’objet d’un dépôt INPI (13 Juin 2008 N.322.408) pour la structure, et auprès de l’association Scam Vélasquez (16 Septembre 2008 N.2008090075) pour le contenu.
2- Définition d’une méthode de personnalisation d’ontologies de domaine
Il s’agit d’une méthode originale de personnalisation des ontologies principalement dédiée à la personnalisation des SI à base d’ontologie. Cette méthode s’appuie sur l’ajout, à l’ontologie, de connaissances supplémentaires propres à l’utilisateur mais respectant la sémantique exprimée dans l’ontologie. Ces connaissances expriment des prototypicalités, c’est-à-dire des représentativités entre deux concepts ou entre un terme et le concept qu’il désigne. Nous proposons de calculer ces prototypicalités à partir des connaissances présentes dans l’ontologie et communes à tous les utilisateurs, et à partir de ressources propres à l’utilisateur, à savoir des instances de concepts, un corpus de textes et des pondérations fixées par l’utilisateur et exprimant l’importance des propriétés dans la définition des concepts.
3- Définition d’une mesure de similarité et d’une mesure de proximité sémantique
Nous proposons deux nouvelles mesures sémantiques : (1) une mesure de similarité conceptuelle baptisée SEMIOSEM (Semiotic-Based Similarity Measure), et une mesure de proximité conceptuelle baptisée PROXIMA. La première originalité de ces mesures est de prendre en compte les trois dimensions sémiotiques de la conceptualisation sous-jacente à une ontologie de domaine : l’intension (i.e. les propriétés utilisées pour définir les concepts et la structure de la hiérarchie de subsomption), l’extension (i.e. les instances des concepts) et l’expression (i.e. les termes utilisés pour dénoter à la fois les concepts et leurs instances). La seconde originalité de ces mesures est d’être sensible au contexte dans lequel l’utilisateur les met en oeuvre. Ce contexte s’exprime au moyen d’un corpus, d’un ensemble d’instances et d’une valeur caractérisant son état émotionnel. Ainsi, ces deux mesures s’avèrent être plus flexibles, plus robustes et plus proches du jugement de l’utilisateur que les autres mesures, lesquelles sont généralement (1) fondées sur un seul aspect d’une conceptualisation et ne prennent pas en compte le contexte d’utilisation, et (2) confondent similarité et proximité.
4- Développement d’un éditeur d’ontologies volumineuses
Cet outil, baptisé TOOPRAG (A Tool dedicated to the Pragmatics of Ontology) est un outil dédié (1) au calcul automatique des gradients de prototypicalités conceptuelle et lexicale, et (2) à l’édition d’ontologies volumineuses (plus de 10 000 concepts). Cet outil, implémenté en Java 1.5, utilise les bibliothèques Lucène (librairie d’indexation et de recherche full-text, lucene.apache.org) et Jena (framework permettant la prise en charge d’ontologies OWL et incluant un moteur d’inférence, jena.sourceforge.net). Il prend en entrée (1) une ontologie représentée en OWL 1.0, où chaque concept et propriété est associé à un ensemble de termes et (2) un corpus composé de fichiers au format texte. Le corpus est indexé à l’aide de Lucène, puis TOOPRAG calcule les valeurs de prototypicalité conceptuelle des liens is-a entre concepts et les valeurs des prototypicalités lexicales de tous les termes utilisés pour dénoter les concepts et les propriétés. L’ontologie résultante est stockée soit dans une base de données MySQL, soit dans un fichier au format OWL étendu par rapport aux spécifications de OWL 1.0. Une valeur de prototypicalité lexicale est représentée par un nouvel attribut xml:lpg, directement associé à la primitive rdfs:label et une valeur de prototypicalité conceptuelle est représentée par un nouvel attribut xml:spg, directement associé à la primitive rdfs:subClassOf. En ce qui concerne l’édition, TOOPRAG permet – outre la navigation dans l’ontologie – la création/modification/suppression de concepts, de propriétés, d’instances, de termes et de commentaires. Il offre enfin un certain nombre de statistiques sur la description de l’ontologie personnalisée.
5- Développement d’un prototype de Recherche d’Information Sémantique
Cet outil, baptisé THESEUS (Tennaxia Health Environement SEcUrity Semantic search engine), est une brique intégrée au sein de la suite logicielle Tennaxia III. Elle vise à enrichir la solution proposée initialement (moteur de recherche syntaxique full-text) en proposant à l’utilisateur d’étendre sa recherche à tous les concepts sous-jacents à sa demande initiale (demande exprimée sous la forme d’un terme dénotant un concept). Les requêtes ainsi étendues interrogent tant la base des textes réglementaires, que des exigences ou encore des fiches.