Défi Mastodons 2013

mercredi 29 juillet 2015
par  Romain DAVID

réponse à l’appel à projet Mastodon :

Cette demande n’a pas été lauréate d’un financement, mais de part la volonté commune aux déposants, le consortium a débuté son activité tout de même.

Identification :

Civilité et Nom du porteur du projet : Jean-Pierre FERAL, directeur de recherche IMBE
Titre long (max 150 caractères) : Développement de points nodaux d’indexation massive et de qualification des données sur l’environnement littoral et marin méditerranéen
Acronyme : IndexMed

Résumé du projet :


IndexMed consiste en l’indexation, la qualification, la cartographie et l’interfaçage des données de l’environnement littoral et marin méditerranéen pour la recherche en écologie et l’aide à la gestion du patrimoine naturel, dans le contexte de la construction de systèmes d’informations sur la biodiversité portés par le SINP, l’INEE, et celui du rapportage des directives européennes (DCSMM, DCE, DHFF). Le projet permettra de développer un service de résolution qui valorisera les résultats de la recherche en écologie en répondant aux nouvelles demandes d’utilisation sociétale. Il s’appuiera sur les grands catalogues d’acteurs, de données et de compétences développés actuellement.

Exposé scientifique du projet

Contexte du défi

Les données issues de la recherche dans les domaines de l’écologie et de la biodiversité sont par nature très abondantes, hétérogènes et dispersées. Leur production fut un temps limitée au temps et à l’espace définis par le projet de recherche qui en était l’origine ; elles étaient in fine majoritairement stockées par leurs producteurs sans être réutilisées ou réutilisables.

Dans le contexte actuel de redéfinition du droit à l’accès à la connaissance et de la prise d’importance de la donnée environnementale, une demande de réutilisation de ces données et de rationalisation de leur production a émergé, et se fait chaque jour plus pressante.

L’enjeu, afin de mieux décrire la variabilité d’un type de donnée et de pouvoir la relier avec des contextes complexes, est aujourd’hui de produire des jeux de données comparables et efficaces à de plus grandes échelles (régionales, nationales, européennes…) et de produire des séries chronologiques longues et plus denses. Ce constat est d’autant plus valable sur les milieux soumis à de nombreux changements comme les milieux littoraux et marins, cibles de cette manifestation d’intérêt.

Afin d’alimenter les rapportages nationaux et européens, de nouveaux programmes de suivi et de surveillance sont développés et portés par les pouvoirs publics (Programme de Suivi de la DCSMM, Plan d’Action du Milieu Marin). Pourtant, leur origine et donc leur encadrement scientifique est parfois incertain. A contrario, les experts juristes n’excluent plus la possibilité de futures condamnations de responsables scientifiques portant sur des manquements à leurs responsabilités concernant la bonne conservation de la donnée financée par l’argent public.

Objectif

Force est de constater que la donnée utilisée par les scientifiques dans le domaine de l’écologie n’est plus entièrement produite par les institutions scientifiques, qui s’appuient sur des réseaux extérieurs d’acteurs et de compétences. Les sciences participatives se développent en laissant sans réponse les questions liées à la propriété intellectuelle et aux notions de responsabilité par rapport à ce patrimoine commun. L’accessibilité de ces données est variable, et les processus de qualification qui évaluent leur utilisabilité et leur efficacité sont encore rares. Inversement, la production de données scientifiques est de plus en plus financée sous condition de mise à disposition (depuis plusieurs décennies pour les données de biologie moléculaire, mais encore de façon balbutiante pour les données écologiques et environnementales), sans que des outils appropriés soient proposés (même GenBank croule sous le déluge de données et doit faire face à un danger de collapsus).

L’objectif de ce défi est donc de mettre en place une plateforme d’indexation des données sur la biodiversité méditerranéenne et leur environnement ayant un intérêt pour la recherche. Cette indexation utilisera les outils et méthodes préconisés nationalement (SINP, MNHN/GBIF, RBDD), et s’appuiera autant que possible sur les catalogues développés nationalement (IDCNP du SINP, Réseaux d’acteurs de la FRB).

Objectifs secondaires

- Réseaux thématiques, répertoires de compétences, processus d’adaptation des BDD et des réseaux d’acteurs
- Bancarisation de données d’acteurs partenaires et qualification de leurs compétences (format open data)
- Alimentation des bases de données nationales et internationales à partir de flux RSS/XML (OBIS, GBIF…)

Axes concernés

Majoritairement les axes 2 et 4 de l’appel à manifestation d’intérêt

(2) Recherche, indexation, exploration et visualisation de grandes masses de données et de connaissances,
(4) Sémantique des données et des connaissances résultant de processus de requête ou de fouille de données
L’objectif de ce serveur d’indexation est de permettre de multiples cartographies basées sur les qualifications.

Et intrinsèquement l’axe 3

(3) Qualité des données, confidentialité et sécurité ; problèmes de propriété, de droit et d’usage des données.
Les problèmes de droit et de propriété intellectuelle seront pris en compte dans le cadre du processus de qualification en suivant les préconisations nationales et internationales. Il en va de même de la problématique de qualité de la donnée, qui sera étudiée et qualifiée en fonction des usages repérés et de leur contraintes.

Périmètres de l’indexation

Etant donné les impératifs d’organisation de l’accès à la donnée associés aux lancements des programmes de surveillance liés à la mise en place de la DCSMM, et de la prévision de mise à jour des ZNIEFFs Mer et de la DHFF, l’indexation des données priorisera les données marines. Elle s’appliquera particulièrement au travers de plusieurs prototypes concernant le benthos (descripteurs D1, D2 et D6 de la DCSMM) et les problématiques liées aux réseaux trophiques (D4 de la DCSMM). Elle prendra en compte de grands programmes d’acquisition de données lancés par l’agence des aires marines protégées pour l’aide à la gestion (Cartham, Cardobs…)
Afin d’élargir de manière expérimentale pour l’instant le périmètre aux données terrestres, et à un format de données géographiques contextualisées, l’indexation pourrait concerner dans un premier temps des bases de données de l’IMBE telle que BASECO (base de données floristiques méditerranéennes), puis l’EPD (base de données polliniques européenne). Ultérieurement, et en leur appliquant les mêmes outils, il est envisagé de s’intéresser à de plus grands jeux de données tels que ceux des programmes CarHab (cartographie nationale des habitats terrestres) et VegFrance (base de données sur la végétation à l’échelle de la France). Ces perspectives doivent être confirmées ou infirmées lors des consultations.

Les outils développés doivent garder suffisamment de généricité pour pouvoir être adaptés à d’autres thématiques.

Mise en œuvre

Acquis et contraintes liées :

L’indexation n’est pas un processus d’uniformisation des bases de données (format, technologie, schéma relationnel…), mais repose sur l’interconnexion des outils, des acteurs existants, et des bases de données au format où elles existent, grâce à des index qualifiés avec une typologie partagée. L’outil d’indexation nécessitera néanmoins une participation effective des réseaux d’acteurs qui l’utiliseront (un certain nombre sont identifiés dans cette manifestation d’intérêt) et la prise en compte des standards, des méthodes et des outils prédéveloppés. Elle permettra d’enrichir les données avec des qualifications les rendant propre à l’utilisation par de nouveaux cercles d’utilisateurs. Ce processus et les outils associés favoriseront le déploiement des standards et des méthodes du SINP.

Cet outil d’indexation utilisera en premier lieu les bases de données de l’IMBE : Les outils en cours de développement en parallèle permettront de bancariser et de sécuriser les données tout en respectant
- le périmètre de partage désiré par chaque contributeur
- les règles applicables émanant notamment du code de la propriété intellectuelle et du droit sui generis.
Il s’agit essentiellement de relevés de terrain (occurrences, densités, biomasses, dominances d’espèces) et de paramètres contextuels (biotiques, abiotiques, humains) appropriés.

Bases de données prioritaires :

SI marin : Cartham, CIGESMED (projet SeasEra financé par l’ANR), Réseau thématique coralligène (façade méditerranéenne françaises), la partie marseillaise du SI de l’OHM Littoral Méditerranéen, base photo du service plongée de Pytheas (23500 photos), Répertoire de vidéos de l’IMBE, Card’obs dès sa mise en ligne.
SI terrestre : BASECO, EPD, Données régionales PACA, LR et Corse (sous réserve des résultats de la consultation avec les DREALS concernées), et potentiellement BDD des Baronnies Provençales.

Les interfaces doivent pouvoir être rendues accessibles à tout observateur actif sur la façade méditerranéenne désirant valoriser ses données pour des utilisations multiples (Plans locaux de gestion, SINP Régionaux, DCSMM et mise en œuvre des réseaux de suivi). Il est probable que les interfaces utilisant cette indexation se multiplieront en fonction des besoins des nouveaux utilisateurs. Chaque interface pourra apporter des services se basant sur une nouvelle ontologie.

Les outils utilisés respecteront les principes de mise en œuvre préconisés par les GT du SINP et s’appuieront sur la veille technologique et les pratiques proposées par le RBDD du CNRS (notamment les logiciels libres). Ils se baseront sur les référentiels nationaux et internationaux, ainsi que sur les normes de métadonnées et de données en cours de définition. Les fonctionnalités des interfaces s’inspireront par exemple des résultats des travaux du GT "outils naturaliste" du SINP (spécifications fonctionnelles). Les outils permettront l’indexation des données (LSID) et la mise en place de systèmes de résolution nécessaires à l’amélioration de l’accessibilité de l’information sur la biodiversité rendue obligatoire par différents textes (convention d’Aarhus, directive INSPIRE, Grenelles de l’environnement et de la mer). Ils permettront CHEZ l’ACTEUR la génération de flux paramétrables de manière à organiser l’alimentation des centres régionaux, thématiques, nationaux et internationaux d’agrégation de données.

Le développement bénéficiera de l’aide de l’équipe de l’UMS BBEES du CNRS/Muséum et nous proposerons la mise en place d’une forge au sein du RBDD de la mission Interdisciplinarité du CNRS pour en enrichir les fonctionnalités. Les bases et leurs interfaces seront physiquement hébergées et supportées par les infrastructures de l’OSU Pythéas, dont fait partie l’IMBE, pendant cette phase de développement. Les solutions ainsi préparées seront mises à disposition sous licence d’utilisation libre sous condition de citation des auteurs (CC BY-SA [1]) . In fine, des processus de qualification de données cohérents avec les besoins d’utilisation à chaque échelle seront validés par tous les spécialistes et ceci pour chaque thématique. Le GBIF (système mondial d’information sur la biodiversité) au travers du GBIF France apportera des outils libres d’indexation (HIT) et de connexion de données (IPT) pour les données primaires de biodiversité (spécimens et observations). Il pourra également apporter son expertise sur les standards d’échanges internationaux (TDWG) et la gestion de base de données volumineuses (portail GBIF : 396 millions de données, portail GBIF France : 16 millions).

Tâches année 1 :

Choix de méthodes d’identification (dont le LSID)
Développement d’un outil d’attribution d’identifiant automatisé
Conception d’une méthode de qualification (requalification /surqualification en cas de changement d’échelle) en suivant les préconisations existantes
Développement de flux prototypes descendants paramétrables (intégration et synchronisation des référentiels)
Développement de plugins de saisie/import/export/génération de flux réutilisant ces flux descendants
Développement de flux prototypes ascendants paramétrables

Tâches année 2 :

Essais de tatouage de jeux de données / systèmes de traçabilité (qualification / marquage)
Mise en place de services de résolutions permettant d’accéder chez chaque producteur volontaire
-  en premier lieu, à un flux de métadonnées (à installer en fonction des logiciels)
-  à moyen terme, à de la donnée agrégée (Donnée Elémentaire d’Echange – D.E.E. au sens du SINP)
-  à terme, à de la donnée brute sous tout format/flux lorsque les droits associés le permettent
. Cartographie des compétences du réseau (arbres de connaissances)
. Cartographie de la connaissance
. Interfaçage de l’index et syndication

Verrous scientifiques

Les enjeux scientifiques sont liés à la gestion de données rendues complexes par
- leur volume, et la dynamique de leur mise à jour, des mises à jour des référentiels et des normes qui permettent de les administrer
- leur hétérogénéité et leur complexité intrinsèques, notamment liées au croisement de données biodiversité et métriques contextuelles,
- l’hétérogénéité des utilisateurs, des réseaux d’acteurs producteurs et leurs motivations à maintenir et alimenter leurs systèmes d’information.

L’efficacité des services répondant aux contraintes contradictoires (modèles des bases de données, optimisation des flux grâce à des services d’administration et des outils de paramétrages, gestion de droits d’utilisation en fonction des statuts) peut être gérée par une indexation globale appuyée par des méthodes de qualifications définies et validées par les acteurs sous forme de communautés thématiques. Un soin particulier sera apporté aux aspects suivants :
-  objectifs de chaque qualification, rapport coûts / avantages,
-  inter-calibration de protocoles, d’observateurs, typologie adaptée,
-  qualités des tatouages de jeux de données /systèmes de traçabilité (qualification / marquage) et rapports coûts / avantages.

Deux principes seront mis en œuvre dans le cadre du projet : (i) les systèmes répartis d’informations (e.g. non centralisés) et (ii) les processus d’adaptation des modèles de données afin de couvrir les usages présents et d’anticiper les besoins des usages futurs.

Outils nécessaires

Cette demande doit permettre de financer les équipements nécessaires au déploiement de ce point nodal, ainsi qu’une capacité minimale d’hébergement de données pour les partenaires ne disposant pas de ressources en propre. Elle permettra en outre l’équipement informatique de 3 personnes (développement et GIS), l’achat de documentation et le financement de déplacements pour la nécessaire rencontre des acteurs.



Documents joints

PDF - 866.6 ko
PDF - 866.6 ko

Navigation

Articles de la rubrique

Agenda

<<

2017

 

<<

Décembre

 

Aujourd'hui

LuMaMeJeVeSaDi
27282930123
45678910
11121314151617
18192021222324
25262728293031
Aucun évènement à venir les 6 prochains mois