Bonne pratique ontologique n°3 : la réutilisabilité, partie 1

Réutiliser les ontologies : une promesse du Web sémantique

Les ontologies ont pour but d’expliciter les connaissances d’un domaine, de façon formelle, en logique descriptive, afin de faciliter la compréhension entre agents et machines des entités d’information manipulées dans des échanges numériques. Le principe du Web sémantique étant qu’un concept peut être défini une fois à un endroit accessible (via URI définie) et ensuite largement réutilisé pour favoriser l’interopérabilité sémantique.

En particulier, dans les systèmes d’information d’entreprise, une couche sémantique à base d’ontologies permet de réconcilier différents silos de données générés par des applicatifs hétérogènes avec les objets propres aux métiers des entreprises. Des processus impliquant différents acteurs, en exploitant des ontologies faisant consensus, facilitent la standardisation et l’automatisation des échanges en simplifiant les développements.

La condition reste toutefois que les ontologies soient largement adoptées et qu’elles réutilisent elles-mêmes des concepts d’autres ontologies au-delà de l’entreprise — car définir un vocabulaire contrôlé n’a de sens que si l’on vise à le partager dans une communauté de pratiques.

Cinq questions que tout ontologue finit par se poser

Oui, mais … La différence entre la théorie et la pratique, c’est qu’en théorie, il n’y en a pas. En pratique, les ontologues se heurtent, face au principe de réutilisation, à des difficultés de différentes natures évoquées dans la liste de questions ci-dessous.

La découvrabilité. Où trouver les ontologies qui pourraient être réutilisées pour notre périmètre ? Sont-elles accessibles et réutilisables aisément ?
La qualité. Est-ce que la qualité de ces ontologies a été vérifiée ?
La cohérence. Est-ce que ces ontologies sont cohérentes avec une conception qui fait consensus dans un domaine d’expertise ? Est-ce que cette conception est cohérente avec le domaine qu’on modélise ? Ou à l’inverse est-ce qu’il y a des conflits de modélisation (noms, granularité, axiomes) ?
L’évolution. Et si aujourd’hui ces ontologies sont cohérentes avec le reste de notre modélisation, que se passera-t-il demain ? Comment contrôler l’évolution ?
La granularité. Doit-on utiliser tout ou partie de l’ontologie ?

Les trois premières questions trouvent des réponses partielles dans les approches FAIR et les référentiels communautaires. Les deux dernières — cohérence dans le temps et granularité de la réutilisation — restent les plus délicates, comme nous allons le voir.

Les ontologies FAIR : condition nécessaire, mais pas suffisante

Pouvoir réutiliser des ontologies existantes implique de savoir les trouver, de pouvoir y accéder, que ces ontologies elles-mêmes soient Interopérables et Réutilisables. En d’autres termes, que ces ontologies soient FAIR – Findable, Accessible, Interoperable, Reusable (Trouvables, Accessibles, Interopérables et Réutilisables) – à l’instar des pratiques qui se sont développées autour des ensembles de données ouvertes, dès 2016.

Malheureusement, comme l’indique [1], « les ontologies publiées ont rarement été à la hauteur d’une telle promesse […]. Plus précisément, de nombreuses ontologies ne sont pas interopérables ou réutilisables. Cela est généralement dû à des engagements ontologiques incompatibles : des engagements ontologiques forts ou très faibles conduisent à une ontologie qui n’est vraiment utile que pour un cas d’utilisation spécifique, ou à un modèle ambigu qui est presque dépourvu de sens en soi. »

Dans leur papier de position [2], les auteurs montrent l’importance d’avoir des ontologies FAIR et déplorent que « comparé au nombre de guides, d’indicateurs et de recommandations disponibles pour rendre les données de recherche FAIR, peu d’attention a été accordée jusqu’à présent à la manière de publier des ontologies en suivant les principes FAIR ». Ce « document de position conclut en ouvrant une discussion sur les initiatives et instruments existants, en cours et nécessaires pour faciliter le partage d’ontologies FAIR sur le Web ».

Les référentiels communautaires : des îlots sans pont fédérateur

Cette promesse d‘ontologies FAIR est mise en œuvre dans des communautés de pratiques, qui se sont dotées d’outils pour partager des catalogues d’ontologies.

Ainsi la communauté OBO (Open BioMedical Ontologies) propose avec le NCBO (National Center for Biomedical Ontology) BioPortal un référentiel d’ontologies extrêmement utilisé. La technologie OntoPortal, co-développée par l’Alliance OntoPortal, s’est fondée sur cette première expérience réussie. Elle permet à quiconque le souhaite de mettre en place un catalogue d’artefacts sémantiques pour un domaine ou un projet d’intérêt. Par exemple : AgroPortal, EcoPortal, BioPortal, MatPortal sont des exemples de la technologie OntoPortal respectivement pour les disciplines agroalimentaires, écologie/biodiversité, biomédecine et matériaux.

Malheureusement s’il existe des référentiels d’ontologies par domaine/communauté (et, dans le cas de LOV, un référentiel général), il n’y a pas aujourd’hui de modèle fédéré pour effectuer des recherches sur l’ensemble des ontologies existantes. Qu’elles soient sur un dépôt Github, pour gérer l’évolution collaborative, comme cela se pratique de plus en plus souvent, ou hébergées sur un portail supporté par OntoPortal. Il n’y a pas à proprement parler de standards d’indexation pour le référencement à des fins de réutilisation par les moteurs de recherche.

Toutefois il existe désormais des indicateurs et des outils pour mesurer si une ontologie est bien « FAIR », tels que Foops ou O’FAIRE (utilisé sur AgroPortal pour fournir un score FAIR).

Les portails de communauté maintiennent donc, avec les outils appropriés, des référentiels d’ontologies pour des communautés de pratiques. Reste que pour beaucoup de cas encore, la réutilisation d’ontologies existantes n’est pas encadrée dans des communautés et il reste périlleux de réutiliser de larges ou petites ontologies dont on ne maîtrise pas l’évolution.

Quand la réutilisation tourne au piège : l'effet de cascade des alignements

Réutiliser des ontologies existantes n’accélère pas forcément le temps de développement des ontologies, ce qui peut sembler contre-intuitif au départ. Car il faut pouvoir vérifier la cohérence de cette réutilisation, ses impacts ainsi que s’assurer de la maîtrise des futures évolutions.

L’exemple suivant illustre comment l’alignement de deux ontologies en apparence compatibles peut produire une incohérence logique dès qu’une troisième ontologie entre en jeu. GoodRelations est une ontologie bien connue dans le domaine de l’ecommerce ; elle a d’ailleurs figuré dans la liste « Good Ontologies » du W3C. Pour devenir une extension de schema.org, elle s’y est alignée : dans GoodRelations, le concept Business Entity (gr:BusinessEntity) est équivalent à l’union de schema:Organisation et schema:Person. Un individu de type schema:Person, est donc aussi une gr:BusinessEntity au sens de GoodRelations.

Or si on regarde l’ontologie du W3C, The Organization Ontology, cette dernière a pour classe org:organization qui est équivalente à foaf:Organization. Cette classe est disjointe de la classe foaf:Person. Une personne au sens foaf ne PEUT PAS être une org:Organization.

Or la version 0.99 de la spécification foaf du W3C a ajouté trois équivalences, dont une entre foaf:Person et schema:Person. Nous sommes donc face à une incohérence. Car une schema:Person peut être une BusinessEntity au sens de GoodRelations qui du coup est une organisation au sens de org:organization, ce qui met à mal l’axiome de disjointness.

Nous voici donc avec une incohérence créée non par deux ontologies mais par leur combinaison avec une troisième. Cet effet de cascade est précisément ce qui rend la réutilisation d’ontologies larges risquée sans gouvernance formelle.

La solution : un « Ontology Continuum » avec les Ontology Design Pattern ?

En architecture d’entreprise, un « continuum » désigne une gradation de ressources réutilisables, des plus génériques aux plus spécifiques. Appliqué aux ontologies, ce principe suggère de s’appuyer sur des briques modulaires validées plutôt que sur des ontologies monolithiques entières.

C’est précisément le rôle des Ontology Design Patterns(ODP), une approche qui existe depuis plus de dix ans. Ils fournissent d’ores et déjà des solutions pour les problèmes de modélisation récurrents liés à quelques questions de compétences très ciblées.

Combinés à des bibliothèques d’ontologies de référence, ils constituent précisément ce qu’on pourrait appeler un « ontology continuum » appliqué à la modélisation sémantique.

Dans le prochain article sur les bonnes pratiques ontologiques, nous verrons comment les Ontology Design Patterns offrent une réponse plus maîtrisée au défi de la réutilisation. Et où en est leur adoption aujourd’hui.

Références

[1]Cogan Shimizu, Quinn Hirt, Pascal Hitzler: MODL: A Modular Ontology Design Library. WOP@ISWC 2019: 47-58 .

[2] Poveda-Villalón, María & Espinoza-Arias, Paola & Garijo, Daniel & Corcho, Oscar. (2020). Coming to Terms with FAIR Ontologies. 10.1007/978-3-030-61244-3_18.