Zettaoctets
Soit 180 mille milliards de gigaoctets prévus pour 2025, 2000 pour 2035 (source: Statista).
Les knowledge graph ne sont pas une technologie nouvelle, mais les enjeux actuels en font repenser les usages pour l'aide à la décision. Les knowledge graph pourraient bien être nos cartes de navigation dans un monde submergé par les données.
Cette décennie voit une explosion de données due à l’usage répandu du Web, des équipements mobiles pour y accéder, et in fine, des capteurs connectés dit intelligents qui peuvent se coupler avec quasiment toute chose. Les opportunités en termes économiques sont nombreuses. Ce qui a conduit la commission européenne, début 2022, à proposer des mesures en faveur d’une économie des données équitable et innovante. Parallèlement, une étude de GreenIT de fin 2021 montre que le numérique en Europe pèse plus que toute l’humanité et représente 40% du budget GES (gaz à effet de serre) soutenable d’un Européen.
Soit 180 mille milliards de gigaoctets prévus pour 2025, 2000 pour 2035 (source: Statista).
D’équipements IoT connectés à Internet en 2025 (source FinancesOnline, Visual Capitalist).
font confiance aux donnés avec lesquelles ils travaillent (source: talend. Report on 2021 Data Health Survey)
36,4 gigatonnes d’émissions mondiales de CO2 en 2021. Une augmentation de 6% par rapport à 2020(source : IEA report).
Les données sont les véhicules d’informations multiples à la source de décisions et d’actions. Pourtant, il nous manque toujours une infrastructure globale pour naviguer entre toutes ces données en toute sécurité et à des fins utiles. Ainsi nous naviguons en eaux troubles sans confiance dans les routes empruntées. De plus, nombre de données sont de mauvaise qualité, qu’elles soient tronquées, déformées, ou des désinformations voulues, des données dont nous ne devrions pas disposer légitimement, des données qui devraient être protégées, ou des données manquantes pour comprendre le schéma global.
En qualifiant les informations dont l’entreprise a besoin, ce qu’une information doit transporter comme signifiant exploitable mais aussi la façon dont elle est liée à d’autres, et son origine, on peut naviguer dans l’écrasante multitude des enregistrements numériques.
On pourra aussi davantage faire œuvre de sobriété numérique en recentrant nos priorités.
Car si la carte n’est pas le territoire, elle permet de s’y repérer.
« Les graphes de connaissances sont l’aboutissement de plus de deux décennies de travail, avec le potentiel de fournir des expériences utilisateur plus intelligentes et plus riches. Forbes,You need to be thinking in knowledge graph
Bryon Jacob
Les knowledge graph sont en sorte des outils pour créer des cartes de navigation dans les données et y naviguer ensuite. Un outil seul n’est rien, toutefois, il peut servir à des intentions décisives. Entre autres ici, celle de de faciliter les échanges d’information, qu’il s’agisse de lier des informations dispersées au sein de l’entreprise ou d’interagir dans des écosystèmes d’affaires.
Concrètement, ils définissent un vocabulaire contrôlé de concepts, de propriétés, de classes définies par certaines de ces propriétés et sur la base de ces déclarations explicites et formelles, on peut décrire des entités, ce qu’elles sont et leurs relations. Ensuite, on peut annoter tout élément de contenu, tout document, toute donnée numérique, par une référence à une entité définie et naviguer au-delà du seul document pour trouver d’autres informations, chez d’autres sources, grâce à des vocabulaires partagés.
Le schéma ci-dessous illustre ce principe.
Construire des infrastructures de données fiables est un préalable pour alimenter un système de décision collectif.
Néanmoins, nous devons séparer la problématique de l’intégration des solutions de systèmes d’informations de celles des échanges d’informations. Ce ne doivent pas être des contraintes technologiques qui guident les informations partageables ou non. S’il est important pour la décision de disposer de données fiables, ce n’est pas suffisant. Encore faut-il qu’elles soient pertinentes et complètes! Si elles n’éclairent en rien les situations qui posent question, pourquoi les collecter? Il faut revenir à la question de l’information nécessaire et indispensable à partager. Pour en finir avec la tour de babel numérique, sujet de cet article, on peut construire des ponts sémantiques. C’est à dire des graphes de connaissances par domaines, reliés par des concepts communs.
Afin de pouvoir communiquer aisément au sein de l’organisation et partager les connaissances sur ses finalités, sur son écosystème, sur ce qu’elle veut faire, sait faire, peut faire, pourquoi, pour qui. Ce qui permet de structurer et aligner les décisions organisationnelles autour de ces piliers. Nous avons aussi besoin, une fois ces infrastructures en place, de collecter les données et de les restituer en fournissant un moyen de trouver des informations pertinentes et naviguer de l’une à l’autre suivant des liens de sens qui nous permettent d’en comprendre la portée et le contexte.
La notion d’infrastructure de données ne doit absolument pas être subsumée à la technologie. Il s’agit d’abord de disposer des représentations formelles des connaissances qui permettront de lier les données par des vocabulaires partagées, indépendamment de tout algorithme ou solution d’implémentation. Le formalisme ainsi que l’expressivité et la flexibilité des descriptions pour ces représentations sont nécessaires, afin de s’adapter à un environnement incertain. La problématique du Knowledge graph n’est jamais en premier celle du stockage.
Un knowlegde graph, c’est l’instanciation d’une combinaison d’ontologies avec des données liées. Nous avons choisi une approche qui couple les standards du web sémantique pour construire la définition des entités du graphe de connaissance (RDF, OWL), avec celle d’un wiki sémantique (semantic mediawiki) pour collecter les instances du graphe et naviguer entre elles ou les interroger. Cette approche utilise des standards et des briques open source. Ce qui rend également le système ouvert à des correspondances avec d’autres systèmes ou bases de données.
Semantic MediaWiki offre la capacité de transformer un wiki classique en un véritable graphe de connaissances.Grâce aux mécanismes de catégorie et de propriétés, de modèles et de formulaires, il peut qualifier des données avec les vocabulaires définis dans des ontologies.
En enrichissant un wiki ainsi, il fait office d’une plateforme de collecte d’informations et de navigation dans des liens sémantiques. Néanmoins, on en préserve la simplicité d’utilisation et de partage.
Une telle plateforme agit comme système de graphe de connaissances. Lequel peut être utilisé dans tous les domaines de gestion es connaissances nécessitant d’interroger des liens complexes entre de multiples objets d’information. Le Glen Research Center de la Nasa l’utilise ainsi depuis 2009, comme en a témoigné Rich Evans à la conférence SMWCon2021.
Les décisions sur les projets de transformation numérique nécessitent de mettre en pratique ce vieux mantra: fournir la bonne information (utile) à la bonne personne au bon moment. Or les informations utiles naissent de la capacité à lier et contextualiser des données dispersées. Et cela, nous pouvons le faire avec une combinaison d’ontologies et un wiki sémantique.
Principes d’architecture de construction de la base de connaissances décisionnelle [/caption]En formalisant les questionnements décisionnels sur l’organisation et ses systèmes d’information à travers plusieurs ontologies, nous avons construit une représentation systémique qui :
D’autre part, en utilisant Semantic Mediawiki, nous disposons d’une interface personnalisable de base de connaissances interrogeable par des requêtes sémantiques riches. Le knowledge graph en est le moteur. Les utilisateurs n’ont pas besoin d’en connaître le détail pour conduire leurs recherches.
Le périmètre de conception des bases de connaissances, dans l’approche Semsimo, est celui de la décision d’entreprise. Laquelle nécessite aujourd’hui d’incorporer les composants du système d’information et les technologies de l’information. Ce qui nous a amené à établir des listes de questions de compétences génériques liées à cette problématique. De surcroît, nous avons privilégié une orientation management par la valeur. Ainsi, nous avons élaboré une première représentation des concepts nécessaires à partager. Lesquels concernent les décisions relatives à une exploitation ciblée du numérique. De plus, nous avons formalisé comment ces concepts s’imbriquent et s’organisent. Le tout fournit des éléments significatifs pour éclairer le processus de décision par rapport aux finalités de l’entreprise.