Défi Imag’In

mercredi 29 juillet 2015
par  Romain DAVID

réponse à l’appel à projet Défi Imag’In :

Cette demande a été lauréate d’un financement partiel de 20 000 euros qui serviront essentiellement au développement du consortium autour de l’aspect visualisation grâce au financement de missions de ses membres et au développement du prototype.

Identification :

Civilité et Nom du porteur du projet : Professeur Thierry TATONI, directeur de l’IMBE
Titre long (max 150 caractères) : VIsualisation of Graph In transdisciplinary Global Ecology, Economy and Sociology data-Kernel
Acronyme : VIGI-GEEK

Résumé du projet :


" VIGI-GEEK " propose de construire un outil de représentation sous forme de graphes des données de différents champs disciplinaires (écologie, sociologie, économie) et d’élaborer des méthodes de création de scénarios par approches successives (coévolution de facteurs), basée sur des concepts actuellement décrits par les approches globales. L’objectif est de construire des graphes paramétrables avec des données hétérogènes (de la molécule à l’écosystème, en passant par les traits de vie, jusqu’aux paysages et aux interactions homme-milieu) concernant l’écologie méditerranéenne et d’analyser les données grâce à des algorithmes utilisés dans d’autres disciplines.

Exposé scientifique du projet

Contexte scientifique et adhéquation du thème du défi

Force est de constater que la donnée utilisée par les scientifiques dans le domaine de l’écologie continue de se diversifier et n’est plus entièrement produite par les institutions scientifiques : ceux-ci s’appuient aussi sur des réseaux extérieurs d’acteurs et de compétences. De nouvelles disciplines comme la « protéomique », la « méta-bolimique », la « méta-génomique » viennent compléter les prismes d’observation déjà multiples de la biodiversité.
L’accessibilité de ces données est variable, et les processus de qualification qui évaluent leur utilisabilité et leur efficacité sont encore rares. Inversement, la production de données scientifiques est de plus en plus financée sous condition de mise à disposition (depuis plusieurs décennies pour les données de biologie moléculaire, mais encore de façon balbutiante pour les données écologiques et environnementales), sans que des outils appropriés à une analyse intégrative soient proposés.
Le constat est là, la révolution du Big Data en écologie tarde, alors qu’elle est considéré par la plupart des disciplines scientifiques et des industries produisant et utilisant de l’information comme la plus prometteuse des pistes de progrès et de découvertes. Les systèmes d’information reliant des objets grâce à des qualifications (des liens) sont omniprésents, le premier étant l’homme, le consommateur. L’entreprise « Google » a très largement contribué à la vulgarisation d’outil de recherche d’information à partir de pages internet et leurs liens. Très vite, les systèmes mercantiles ont compris la puissance analytique de la « fouille de données » (les assurances pour gérer les risques, la française des jeux pour trouver les tricheurs, les banques pour les investissements, les « traders » pour augmenter leur marge, les publicitaires et les réseaux sociaux pour augmenter leurs impacts…).

Aujourd’hui, une discipline nouvelle appelée « écologie statistique » [développé notamment dans le cadre du Groupement de Recherche en Ecologie Statistique (Gimenez et al. 2014)] propose de nouvelles méthodes d’analyse de ces données, et pourrait participer au développement d’approches intégratives et multimodales, prenant en compte sans priorisation plusieurs disciplines, notamment dans les domaines de l’économie et des sciences sociales. Mais, à cause d’un cloisonnement encore trop important entre disciplines, ce n’est pas encore le cas. Pourtant, l’urgence environnementale demande aujourd’hui de répondre, grâce à un système partagé et connecté, à des questions locales et globales à la fois, dépassant les questions scientifiques du type cette dégradation est-elle liée à cette pression ? mais répondant plutôt à des questions opérationnelles du type : Comment améliorer/préserver l’état écologique d’un milieu de la manière la plus efficace en prenant en compte les interactions homme-milieu ?
Cette question revient à identifier les limites à ne pas dépasser pour un ensemble de conditions ayant les unes sur les autres des effets antagonistes ou potentialisateurs.

Objectif

L’objectif de « VIGI-GEEK » est de produire un outil « multidisciplinaire » de construction et de visualisation de graphes dans le cadre d’un consortium multidisciplinaire appelé « IndexMed » (en cours de développement : www.indexmed.eu ), puis de développer à moyen terme les usages de ces graphes pour l’aide à la décision en gestion environnementale dans le cadre d’un projet de recherche à soumettre aux appels à projets européens (BiodivERsA, FEDER, SeasEra, H2020).

Ces graphes seront construits à partir d’informations agrégées grâce à des points nodaux d’indexation massive et de qualification des données sur l’environnement littoral et marin méditerranéen, dans différentes disciplines [socio-écologie, économétrie, écologie (structure et fonctionnement), urbanisme, gestion…] et à l’échelle méditerranéenne. Le développement du prototype vise à rendre ces graphes paramétrables pour fouiller et visualiser ces données pluridisciplinaires en mettant sur le même plan des données de types socio-écologiques, économiques, écologiques, moléculaires et fonctionnelles (relations trophiques, traits fonctionnels…).
Ces points nodaux d’indexation seront « clonables » à volonté avec des règles d’enrichissement et de partage correspondant aux licences « creative common » du type « partage dans les mêmes conditions », autorisant les autres à reproduire, diffuser et modifier l’index, à condition qu’ils publient toute adaptation de l’index sous les mêmes conditions (open-source, open data). Ces règles devront favoriser l’émergence de standards pour améliorer l’interopérabilité des données et favorisera la participation de nouveaux laboratoires contributeurs en tenant compte de leurs possibilités techniques de contribution au fur et à mesure du développement du projet.

Les modèles et outils qui découleront de ce prototype ont pour objectif de normer, qualifier puis croiser des données de disciplines différentes et de proposer des méthodes d’élaboration de scénarios par approches successives (encadrement de valeurs), en se basant sur des concepts actuellement décrits dans le cadre des approches globales en écologie. Ils complèteront et augmenteront les domaines d’applications en cours de développement en écologie statistique.

Dans le cadre de ce défi, la première année a pour but la mise en place d’un prototype de visualisation de ces graphes et la conception d’une proposition H2020 s’appuyant sur les laboratoires compétents dans chaque champ disciplinaire.

Grâce à un premier niveau d’interopérabilité, le projet « VIGI-GEEK » expérimentera la formation et la visualisation en temps réel de « cubes de données » mettant en relation par exemple des aspects sociologiques, économiques et écologiques de la biodiversité méditerranéenne et s’appuiera sur les nouvelles disciplines de l’informatique et des mathématiques (algorithme des graphes, fouille de données) pour proposer des solutions aux problématiques transdisciplinaires qui concernent directement la biodiversité. Le partenariat avec les astronomes du LAM permettra d’adapter les outils fréquemment utilisés dans leur discipline pour construire ces « cubes de données » avec l’aide du LIF qui a déjà participé à la réalisation d’outils similaires. Le partenariat avec le laboratoire LIPADE, avec lequel les échanges seront très soutenus la première année, a pour objectif de proposer de nouvelles méthodes de paramétrage de ces graphes multidisciplinaires, et de permettre leur évolution en temps réel, grâce à des bases de données distantes et interconnectées.

Méthodes

Les approches bi-, tri- ou transdisciplinaires s’appuient sur des « modules de Bases De Données interopérables ». Ce concept impose aux participants non seulement de développer leurs métadonnées, mais aussi de favoriser un enrichissement des données via des « ontologies » communes. Ces qualifications permettent de concevoir des graphes de données couplant les disciplines et de les fouiller en s’appuyant sur les savoirs faire existants (Aix-Marseille Université, Université de Montpellier, CESAB, …)

L’architecture des systèmes d’informations déployés pour les projets en cours d’élaboration doit être décentralisée et consiste en l’indexation, la qualification, la cartographie et l’interfaçage des données de l’environnement littoral et marin méditerranéen pour la recherche en écologie et l’aide à la gestion du patrimoine naturel.
Une organisation « modulaire » (permettant l’administration d’un type d’objet ou de données de manière indépendante par l’acteur le plus compétant) doit être préférée aux systèmes centralisés (dans ce cadre interdisciplinaire s’appuyant sur des systèmes d’observation à large échelle, chaque participant ne peut pas regrouper les données de toutes les disciplines. Les données qui serviront de modèle concerneront un habitat marin et un habitat terrestre communs pour toutes les disciplines. Ce type de méthode pourra se décliner sur de nombreux modèles environnementaux (habitats terrestre et marins, communautés d’animaux, assemblages d’espèces).

Un défi technique et scientifique relevé par plusieurs communautés


Le prototype exploratoire proposé dans « VIGI-GEEK » sollicite, en plus de celui des écologues, socio-écologues et économistes, le concours de mathématiciens, de physiciens, d’informaticiens, d’archivistes, d’astronomes, tous membres du consortium IndexMed afin d’adapter au mieux les outils dont ils se servent et de s’appuyer sur leur expérience/expertise.

Les verrous scientifiques sont liés à la gestion de données rendues complexes par
- leur volume, et la dynamique de leur mise à jour, des mises à jour des référentiels et des normes qui permettent de les administrer
- leur hétérogénéité et leur complexité intrinsèques, notamment liées au croisement de données biodiversité et métriques contextuelles,
- l’hétérogénéité des utilisateurs, des réseaux d’acteurs producteurs et leurs motivations à maintenir et alimenter leurs systèmes d’information.

L’efficacité des services répondant aux contraintes contradictoires (modèles des bases de données, optimisation des flux grâce à des services d’administration et des outils de paramétrages, gestion de droits d’utilisation en fonction des statuts) sera gérée par une indexation globale appuyée par des méthodes de qualifications définies et validées par les acteurs sous forme de communautés thématiques. Un soin particulier sera apporté aux aspects suivants :
- objectifs de chaque qualification, rapport coûts / avantages,
- inter-calibration de protocoles, d’observateurs, typologie adaptée,
- qualités des tatouages de jeux de données / systèmes de traçabilité (qualification / marquage) et rapports coûts / avantages.
Deux principes seront mis en oeuvre dans le cadre du projet : (i) les systèmes répartis d’informations (e.g. non centralisés) et (ii) les processus d’adaptation des modèles de données afin de couvrir les usages présents et d’anticiper les besoins des usages futurs.

Des ateliers impliquant les acteurs compétents de chaque discipline seront organisés pour aborder et résoudre différentes problématiques :
Concernant le modèle systémique de production de la donnée :
- Une évaluation des besoins antagonistes (i) de normalisation ou de suivi des normes existantes, (ii) de diversification de la donnée sur la biodiversité, de ses méthodes d’acquisition et de ses formats et de leurs conséquences respectives sur l’efficacité des types de recherche associées,
- Le rapport entre données très homogènes, notamment les données « calculées » ou mesurées versus les données « d’interprétation », plus sujettes à variation liée à l’observateur, les méthodes de valorisation des producteurs de données et les moyens de pérenniser des systèmes d’observations de données « interprétées » (et donc couteuses en temps / homme),
- Les méthodes d’agrégation et de fouille de données pour des usages secondaires et les scénarios envisageables pour leur exploitation à différentes échelles en fonction du type de donnée,
Concernant les services et usages de la donnée :
- La problématique du cycle de vie de la donnée concernant la « biodiversité »,
- La valeur de la donnée et les indicateurs d’utilisation de cette donnée, comme un nouveau critère d’évaluation des chercheurs travaillant sur la biodiversité,
- Le contexte juridique de la donnée sur la biodiversité issue de la recherche, au sein des organismes de recherche mais aussi pour toute utilisation secondaire, externe au contexte « recherche »,
- Les outils nécessaires à une véritable traçabilité de la donnée, quelque-soient les transformations subies par les données brutes (agrégation, moyenne, division, requalification…)

Ces ateliers devront se poursuivre les années suivantes dans le cadre de l’instruction de la réponse à appel à projet H2020 avec des collaborateurs de chaque discipline de différents pays européens. Il est pour cela nécessaire de prévoir des déplacements fréquents en Europe pour l’équipe qui pilote le projet. Il est envisagé de réaliser un séminaire fin Mai couplé avec le séminaire organisé par PREDON (Préservation des données scientifiques en réponse à l’appel à projet MASTODONS du CNRS) afin de créer des synergies entre les problématiques de conservation des données étudiées dans le cadre de PREDON et celles d’usages et de représentation de la donnée proposées dans le cadre de VIGI-GEEK. Le projet VIGI-GEEK utilisera comme modèle :
- En Ecologie, les données issues de programmes de recherche français (thèses Romain David, Laure Thierry, Leïta Tschanz - IMBE) et européens dans le domaine de l’écologie marine (DCSMM, CIGESMED, DESVOTES…) et l’écologie terrestre.
- En économie, le modèle de donnée est encore à construire ; parmi les données économiques, certaines seront collectées auprès organismes spécialisés (INSEE, IFREMER, IRD), d’autres seront produites directement par l’équipe à l’aide d’enquêtes et de questionnaires, d’autres enfin pourront être obtenues auprès d’autres chercheurs en SHS ayant travaillé sur des sujets proches et qui seront sollicités pour leur expertise.
- Les données socio-écologiques, recueillies dans le cadre d’un post doctorat (demande de financement en cours) concernent les représentations sociales, la perception et la valeur sociale (des produits et des services liés à ces milieux), les interactions Homme-milieux. Un des modèles utilisé sera l’habitat coralligène mais sera généralisable à d’autres modèles qui décriront la relation Homme-Littoral.
- Les données sciences participatives : un programme de science participative développé en sein du projet CIGESMED permettra de mettre en place un suivi d’habitats coralligènes à l’échelle Méditerranéenne et, donc, d’obtenir une grande quantité des donnés biologique et écologiques, associés à des données cartographiques. Cet aspect est développé dans le cadre d’un post doctorat (Giulia GATTI - IMBE).

Le développement d’un réseau qui intègre des chercheurs en sciences sociales et humaines, et ce à l’échelle du bassin méditerranéen est indispensable. En effet, la question de la compatibilité des modèles et des données issues de différentes disciplines est une question fondamentale car la construction des modèles et la mesure des données pertinentes au sein de chaque discipline obéissent à des logiques différentes. Les ateliers permettront de construire des protocoles de mise en compatibilité entre les modèles et données écologiques, économiques et sociales ainsi que d’identifier les actions prioritaires d’accès aux données à insérer dans les graphes.


Documents joints

PDF - 541.6 ko
PDF - 541.6 ko

Navigation

Agenda

<<

2017

 

<<

Octobre

 

Aujourd'hui

LuMaMeJeVeSaDi
2526272829301
2345678
9101112131415
16171819202122
23242526272829
303112345
Aucun évènement à venir les 6 prochains mois