Marie Elise LECOCQ : “How to publish data through the GBIF network”

lundi 12 octobre 2015
par  Romain DAVID

Auteurs : Marie-Elise Lecoq, Fabien Cavière, Eric Chenin, Régine Vignes-Lebbe, Sophie Pamerlon et Anne-Sophie Archambeau

Abstract

With more than 500 million records documenting species occurrences shared and discoverable through GBIF.org, the Global Biodiversity Information Facility (GBIF) is a major actor in the open accessibility of biodiversity primary data1. The launch of the new GBIF platform in November 2013 saw an improvement in the reliability, access and fitness for use of the data published via the GBIF network and its partners (94 countries and organizations worldwide).
To help with the data publishing process, GBIF has developed an open source tool, written in Java, which facilitates the integration of primary data of species occurrences, metadata or taxonomic lists in the GBIF network while ensuring their traceability : the Integrated Publishing Toolkit2 (IPT). It allows the publishing of datasets from different types of databases, Excel files or text files (CSV) using the following open standards : Darwin Core for occurrences data or taxonomic lists and the Ecological Metadata Language (EML) for metadata.
In this presentation, we will quickly describe the tool (from the installation to the dataset publishing) and the existing extensions. We will also talk about the new features that appeared with the latest version : ability to connect sampling data associated with information about the abundance, and the multimedia documents integration. Moreover, we will discuss the DOI implementation and the setting up of licences related to data in the GBIF network and in the IPT.
In order to improve data publication and their reuse, GBIF has developed a partnership with Pensoft3 and Nature4 editions to facilitate the creation of Data Papers5,6. The amount of biodiversity data published online has massively increased ; a best description of these datasets is fundamental to increase their fitness for use.
The Data Paper, a peer-reviewed publication structured with the IPT, solves this problem by adding value to the time-consuming work done by the data manager. Moreover, the DOI assignation for each Data Paper helps the citation of this dataset in others articles and facilitates access to the dataset described. 

Résumé

Avec plus de 500 millions d’enregistrements partagés et accessibles à travers le site internet GBIF.org, le Global Biodiversity Information Facility (GBIF) est un acteur majeur dans l’ouverture des données primaires sur la biodiversité1. Le lancement de la nouvelle plate-forme, en novembre 2013, a montré une amélioration dans la qualité, l’accès et l’adéquation à l’usage des données publiées via le réseau GBIF et ses partenaires (94 pays et organisations du monde entier).
Afin d’aider à la connexion des données, le GBIF a développé un outil open source, écrit en Java, facilitant l’intégration des données primaires d’occurrences d’espèces, des métadonnées ou des listes taxonomiques dans le réseau GBIF tout en garantissant leur traçabilité : l’Integrated Publishing Toolkit2 (IPT). Il permet de publier des jeux de données issus de diverses bases de données, de fichiers Excel ou de simples fichiers textes (type CSV) en utilisant les standards ouverts suivants : le Darwin Core pour les données d’occurrences ou listes taxonomiques et le Ecological Metadata Language (EML) pour les métadonnées.
Dans cette présentation, nous vous décrirons rapidement l’outil (de son installation jusqu’à la connexion du jeu de données) ainsi que les extensions proposées. Nous allons aussi parler des nouvelles fonctionnalités présentes dans la nouvelle version : la possibilité de connecter des données d’échantillonnage avec notamment les informations d’abondance associées, ainsi que l’intégration de documents multimédia. De plus, nous parlerons de la mise en place des DOIs et des licences liées aux données dans le réseau GBIF ainsi que dans l’IPT.
Dans la perspective d’améliorer la publication des données et leurs réutilisations, le GBIF a développé un partenariat avec les éditions Pensoft3 et Nature4 pour faciliter la création de Data Papers5, 6. Avec la mise en ligne de plus en plus massive des données de biodiversité, une meilleure description de ces jeux de données apparaît fondamentale pour simplifier leur réutilisation.
Le Data Paper, publication scientifique dans des revues à comité de lecture dont la création peut être structurée par l’IPT, répond à cette problématique en valorisant le long travail d’alimentation des bases de données par les gestionnaires de données. De plus, l’attribution d’un DOI à chaque Data Paper permet de citer avec exactitude ces articles et de retrouver le jeu de données décrit.


Agenda

<<

2017

 

<<

Décembre

 

Aujourd'hui

LuMaMeJeVeSaDi
27282930123
45678910
11121314151617
18192021222324
25262728293031
Aucun évènement à venir les 6 prochains mois