Une approche basée sur des règles pour la validation et l'amélioration continue des données
Une approche basée sur des règles pour la validation et l'amélioration continue des données
Auteur: Bob Chell, CPO
À l'aube de la quatrième révolution industrielle, la technologie numérique joue un rôle de plus en plus important dans les activités du secteur public. La pierre angulaire de cette ère numérique est constituée par les données et, plus important encore, par la qualité de ces données. Nous entendons souvent dire que la société veut être de plus en plus axée sur les données, celles-ci constituant le fondement des preuves pour la prise de décision. Cela crée non seulement de la confiance dans les décisions prises, mais aussi de la transparence et un raisonnement fondé sur des preuves. Pour reprendre une expression populaire, "tout se passe quelque part", et la localisation est donc un élément clé des données qui sous-tendent notre société axée sur les données.
Des données de bonne qualité
Ce nouveau désir d'être une société véritablement axée sur les données est formidable, mais nous devons réfléchir concrètement à la manière dont nous pouvons devenir véritablement axés sur les données avec des données de bonne qualité. Dans le passé, cela aurait signifié s'embarquer dans un programme de transformation numérique long et coûteux, mais avec l'introduction de l'OS Data Hub, les organisations du secteur public peuvent utiliser les données mises à disposition via l'Accord géospatial du secteur public ainsi que notre technologie pour valider et corriger rapidement leurs données géospatiales.
Un bref aperçu de 1Spatial
Notre activité principale consiste à rendre les données géoréférencées actuelles, accessibles, faciles à partager et fiables. Nous avons plus de 30 ans d'expérience en tant qu'expert mondial, spécialisé dans la modélisation, le traitement, la transformation, la gestion, l'interopérabilité et la maintenance des données spatiales, tout en mettant l'accent sur l'intégrité et la précision des données, ainsi que sur l'assurance qualité permanente. Nous avons fourni des solutions de gestion et de production de données spatiales à un large éventail d'agences internationales de cartographie et de cadastre, de gouvernements, de services publics et d'organisations de défense dans le monde entier. Cela nous donne une expérience unique dans le travail avec une pléthore de données (caractéristiques, formats, structure, complexité, cycle de vie, etc.) au sein d'un large éventail d'architectures de systèmes d'entreprise.
Le moteur de règles 1Integrate
L'un des composants clés de la plateforme 1Spatial est notre moteur de règles. Nous l'utilisons dans une série de nos produits, par exemple dans 1Integrate, qui permet aux utilisateurs de définir et d'appliquer en collaboration des règles commerciales pour mesurer et maintenir la qualité des données, le tout créé, testé et publié dans un environnement sans code. Cet environnement nous permet de disposer d'un moteur de validation et de manipulation des données hautement configurable, basé sur des règles définies par l'utilisateur, ainsi que d'un référentiel de métadonnées d'entreprise qui fournit un emplacement central et unifié pour le stockage des ontologies, des règles et des définitions de processus, ainsi que pour l'archivage des résultats du traitement.
Avec 1Integrate, vous pouvez :
- Définir des magasins de données pour accéder à des données provenant de sources externes
- Configurer le mappage des schémas pour spécifier la manière dont les données doivent être organisées
- Run rule discovery to identify potential rules from patterns in your data
- Lancer la recherche de règles pour identifier des règles potentielles à partir de modèles dans vos données
- Définir des actions pour corriger les données qui ne sont pas conformes à vos règles
- Mettre en place des cartes d'action pour spécifier quand les actions doivent être appliquées
- Définir des sessions pour mettre en œuvre des flux de traitement de données
Les règles peuvent être utilisées dans un large éventail de scénarios, lorsque vous cherchez à établir un contrôle, une cohérence et une confiance dans vos données.
Exemples de règles de données :
- Des règles spatiales et non spatiales puissantes pour gérer, valider et traiter facilement les données en tenant compte non seulement des caractéristiques individuelles, mais aussi des relations entre elles.
- Réutiliser le contenu des règles et actions existantes pour accélérer la création de nouvelles règles
- Appliquer des règles de topologie pour structurer et relier vos données
- Définir des règles pour créer un graphique de réseau de vos données afin d'analyser la connectivité globale entre les objets de vos données.
- Déplacement des données positionnelles - Déplacez les données pour améliorer la précision positionnelle à l'aide de puissants algorithmes de règles.
- Définir des modèles de données avec une hiérarchie de classes (ontologies) afin d'appliquer facilement des règles et de réutiliser les règles existantes.
L'environnement sans code de 1Integrate signifie que vous pouvez également effectuer des tâches de gestion du système, comme par exemple :
- Rôles - Gestion des privilèges et des rôles des utilisateurs
- Sauvegarde et restauration des magasins de données, des règles et des actions
- Purge des référentiels de métadonnées d'entreprise lors de la gestion de la livraison continue automatisée de vos systèmes et solutions
Notre approche fondée sur des règles repose sur un concept très simple, que nous décrivons comme suit : Fait - Modèle - Action. À partir de certains faits, s'ils correspondent à l'un des modèles/règles, l'action définie est exécutée. Nous avons exposé ce moteur de règles en veillant à ce que nos règles soient déclaratives, c'est-à-dire séparées du traitement, et extensibles en actions enfichables, ce qui nous permet d'étendre les niveaux de base des rapports, de réconcilier les problèmes de données ou de créer de nouvelles données.
Une règle doit répondre à des questions du type "Étant donné un objet de la classe, qu'est-ce que cette règle exige de l'objet pour qu'elle soit valide ?".
Cela signifie que les règles sont vraiment simples - elles nous disent si quelque chose est vrai (valide) ou faux (non valide), et il est facile de retracer ce que la règle a fait, car elle est toujours représentée par une condition logique.
Une règle simple peut vérifier les attributs d'un élément ou effectuer un simple contrôle géométrique. Des règles plus complexes vérifient l'élément par rapport à d'autres éléments provenant de la même source ou de sources différentes, en vérifiant des conditions telles que l'existence d'autres éléments, en vérifiant que tous les objets répondant à une condition particulière sont vrais, ou en agrégeant des valeurs pour effectuer vos tests. Voici quelques exemples :
- Ce bâtiment NE DOIT pas avoir d'autres bâtiments qui se chevauchent.
- Les tuyaux reliés à une vanne DOIVENT être à la même pression
- La tension maximale de tous les câbles connectés DOIT être égale à X
Les règles réduisent considérablement le temps nécessaire à la vérification des erreurs et fournissent un mécanisme rigoureux, efficace et rentable pour mesurer et maintenir la qualité des données spatiales. Lorsqu'un opérateur consulte les données, les erreurs dans la représentation graphique peuvent facilement passer inaperçues. Les règles nous fournissent des faits sur les données, de sorte que les erreurs peuvent être corrigées, automatiquement et/ou manuellement, et que vous pouvez surveiller et évaluer en permanence la conformité des règles par rapport aux objectifs de qualité.
Le même concept Fait - Modèle - Action fonctionne également pour l'amélioration et la transformation des données. Nous appelons cela des actions. Contrairement à une règle, une action ne renvoie pas un vrai ou un faux, mais effectue des vérifications logiques sur les caractéristiques, qu'il s'agisse d'une tâche unique ou d'une série de tâches, liées les unes aux autres dans une séquence ou une boucle. Les tâches atteignent généralement leurs objectifs de trois manières :
- Modifier les données (créer un objet, supprimer un objet, mettre à jour un objet et attribuer une valeur à un attribut).
- Rapport (produire des informations qui apparaîtront dans le rapport XML de la tâche).
- Exécuter une opération intégrée (un morceau de logique emballé dans une seule fonction).
Cas d'utilisation des règles
Il existe de nombreux cas d'utilisation pour l'amélioration et la transformation des données à l'aide d'actions contextuelles intelligentes :
- Comparaison de deux sources de la même information pour obtenir le meilleur des deux, par exemple si une source de données a des géométries exactes et l'autre des attributions exactes.
- Rassembler des données provenant de différents pays ou régions pour s'assurer qu'elles sont cohérentes, alignées sur les bords et qu'elles ne contiennent pas de doublons.
- Transformer des données cartographiques ou linéaires pour produire des données spatiales sans couture, polygonisées, classées et basées sur des objets du monde réel.
- Correspondance entre des enregistrements éventuellement incomplets (tels que des adresses) provenant d'une source de données et le meilleur enregistrement correspondant provenant d'une source de données de référence.
- Générer une version "généralisée" ou "schématisée" moins détaillée et intelligemment simplifiée des données à partir d'un ensemble de données de base "source unique de vérité", tout en maintenant la connectivité et l'exactitude des données.
- Transformer des données d'une structure à une autre en utilisant des règles de gestion pour mettre en correspondance les objets et les attributs. Cela nécessite généralement une reclassification intelligente et l'inférence de nouvelles informations basées sur les données environnantes.
Gestion de la topologie
Une autre caractéristique importante que j'aimerais partager, qui est également liée aux règles, est la capacité de gestion de la topologie. De nombreux composants disponibles sur la plateforme 1Spatial incluent le moteur de gestion de la topologie. La gestion de la topologie consiste à prendre des données spatiales et à créer automatiquement des nœuds topologiques, des arêtes et (éventuellement) des faces qui représentent chaque partie unique ou partagée des géométries. Ce processus relie les géométries entre elles et signifie que toute modification apportée aux caractéristiques mettra automatiquement à jour la topologie pour la maintenir synchronisée, et que toute mise à jour de la topologie mettra automatiquement à jour les caractéristiques.
La gestion de la topologie offre un certain nombre d'avantages, notamment
- L'assemblage de données pour les nettoyer. Le processus de construction d'une topologie pour un ensemble de données permet d'assembler les caractéristiques à l'aide de règles dans le cadre de tolérances contrôlées par l'utilisateur. Cela signifie que les petites lacunes, les chevauchements, les sous-dépassements et les dépassements sont automatiquement supprimés des données sources.
- Maintien de la connectivité lors de la modification des données. La construction de la topologie permet aux éditeurs interactifs ou aux processus automatisés de mettre à jour les parties partagées des entités afin de les maintenir connectées, par exemple lors du remodelage ou de la simplification de la limite partagée de polygones adjacents, ou lors du déplacement des points de connexion entre les lignes d'un réseau. En mettant à jour les arêtes et les nœuds de la topologie, les éléments connectés sont tous déplacés de manière synchronisée à l'aide des règles suivantes
- Utilisez les géométries des trous, des divisions ou des chevauchements pour créer de nouvelles données. Pour les données polygonales, les trous dans la couverture des données sont représentés par des faces topologiques. Les actions peuvent être utilisées pour trouver les géométries de ces faces afin de générer de nouvelles caractéristiques qui comblent ces trous. Pour un réseau de lignes, les sections de ligne entre les intersections existent en tant qu'arêtes topologiques et l'utilisation de la géométrie de ces arêtes facilite la création d'une version du réseau qui est divisée aux intersections.
Le petit livre de la gestion des données spatiales
Si vous souhaitez en savoir plus sur la manière dont nous utilisons les règles pour valider et manipuler les données spatiales. Téléchargez notre petit livre.
Télécharger