Qualité de la donnée / Quality of data

lundi 10 août 2015
par  Romain DAVID

Dans un cadre de production de données multi-sources, les problématiques d’équivalence de systèmes d’observations et d’inter-calibration d’observateurs deviennent alors cruciales. De plus en plus, le besoin d’approches intégratives pluri- voire trans-disciplinaires devient nécessaire, dans l’étude de systèmes où la production de données dans chaque discipline est discontinue, peu précise et mal répartie. Pourtant, toutes les variables de ces systèmes interagissent dans le temps et à chaque échelle spatiale (variables biotiques, abiotiques, pressions anthropiques et naturelles, services rendus et ressentis, image sociétale…).

In a production framework of multi-source data, the equivalence of observation systems problematics and inter-calibration of observers then become crucial. Increasingly, the need for integrative multi- or trans-disciplinary approaches becomes necessary, in the study of systems where data output in each discipline is discontinuous, imprecise and badly distributed. Yet all the variables of these systems interact in time and at each spatial scale (biotic, abiotic variables, anthropogenic and natural pressures, perceived and rendered services, societal perception ...).

Les verrous scientifiques concernant la qualité des données sont complexifiés par :
- leur volume, et la dynamique de leur mise à jour, des mises à jour des référentiels et des normes qui permettent de les administrer
- leur hétérogénéité et leur complexité intrinsèques, notamment liées au croisement de données biodiversité et variables contextuelles,
- l’hétérogénéité des utilisateurs, des réseaux d’acteurs producteurs et leurs motivations à maintenir et alimenter leurs systèmes d’information.

Scientists locks of data quality are complicated by :
- their volume and the dynamics of their update, update repositories and standards that can administering the data,
- their intrinsic heterogeneity and complexity, especially related to cross biodiversity data and contextual variables,
- the heterogeneity of users, networks of producers actors and their motivations to maintain and supply their information systems.

Un travail sur la qualité des données et leur équivalence est nécessaire. Il passe en premier lieu par l’analyse et la description des éléments communs de chaque information, et de ce qui les différencient (nom de champs, formats, rythme de mise à jour, précision, observateurs ou senseurs…). Ces descriptifs s’ajoutent à la donnée et forment un corpus de critères utilisables pour la fouille de donnée. En second lieu, il est prévu de donner des équivalences entre données, s’appuyant sur des dictionnaires de données et des thésaurus. Certaines conjonctions de données permettent d’en déduire d’autres, en utilisant des ontologies d’abord propres à chaque domaine, puis pluridisciplinaires. D’un ensemble de ces relations logiques, on peut déduire de nouveaux qualificatifs, qui sont soit de nouvelles qualités de données, soit un moyen de trouver un qualificatif commun aux données hétérogènes qui peut servir de descripteur supplémentaire dans le cadre de la fouille de donnée.

Work on data quality and their equivalence is required. It involves first the analysis and description of the common elements of each piece of information, and what differentiates them (name fields, formats, update rate, precision, observers or sensors ...). These descriptions are added to the data and form a body of criteria used for data mining. Secondly, it is intended to give the equivalence of data, based on data dictionaries and thesaurus. Some database conjunctions allow to deduce other, using first own ontology each domain and multidisciplinary. On all of these logical relationships, we can deduce new qualifiers that are either new data quality or a way to find common qualifier to heterogeneous data that can serve as an additional descriptor as part of the data mining.

Prérequis : systèmes d’informations décentralisés, volonté commune de les mettre en relation, flux normés, accessibles et configurables
Prerequisites : decentralized information systems, common will to to relate, normalized, accessible and configurable stream

Outils : qualification / normalisation / dictionnaire de données / thésaurus / ontologies
Tools : qualifications / standards / data dictionary / thesaurus / ontology

Résultat attendu : analyse conjointe de différents corpus de donnée, inter-calibration)
Result : joint analysis of different data corpus, inter-calibration)]


Agenda

<<

2017

 

<<

Août

 

Aujourd'hui

LuMaMeJeVeSaDi
31123456
78910111213
14151617181920
21222324252627
28293031123
Aucun évènement à venir les 6 prochains mois