Les enjeux de la patrimonialisation et de la réutilisation des données qualitatives de la recherche en Sciences humaines et sociales

Les archives de la recherche sont par nature passionnantes puisqu’elles permettent de comprendre comment les découvertes se font et comment la science évolue de jour en jour. L’arrivée du numérique a fait surgir de nouvelles possibilités pour la diffusion notamment de ces données, mais aussi de nouveaux challenges, en termes d’archivage entre autres.

L’archivage, le partage et la réutilisation des données qualitatives des SHS soulèvent de nombreuses questions et les différents acteurs concernés, les professionnels de l’IST et les chercheurs, peuvent avoir des avis divergents. Comprendre les points de vue de chacun et déterminer dans quelle mesure celles-ci peuvent être compatibles sont les enjeux de ce mémoire.

URL : Les enjeux de la patrimonialisation et de la réutilisation des données qualitatives de la recherche en Sciences humaines et sociales

Alternative location : http://www.enssib.fr/bibliotheque-numerique/notices/66007-les-enjeux-de-la-patrimonialisation-et-de-la-reutilisation-des-donnees-qualitatives-de-la-recherche-en-sciences-humaines-et-sociales

DataCite au service des données scientifiques : Identifier pour valoriser

Les données de la recherche, sous forme d’objets numériques très divers, sont en train de trouver leur place dans les services d’information scientifique et technique (IST), principalement – mais pas uniquement – comme compléments des publications qui s’appuient sur ces données.

L’intégration de différents types de ressources numériques avance, et doit être accompagnée par des standards d’interopérabilité, des formats communs de métadonnées et des possibilités de lier ces contenus entre eux et de les citer de manière normalisée.

Le consortium international DataCite, dans lequel l’Inist-CNRS représente la France, s’est mis comme objectif de soutenir et accélérer cette évolution. Il opère en particulier comme une agence d’enregistrement de DOI (Digital Object Identifier), considérant ces DOI, déjà bien établis dans le monde de l’édition, comme un outil efficace pour identifier les données de manière pérenne, pour ainsi faciliter leur découverte et pour y accéder, et puis pour les citer.

DataCite a développé son propre schéma de métadonnées et a mis en place des fonctionnalités spécifiques qui favorisent le partage et la réutilisation des données. Une telle valorisation s’inscrit en particulier dans une approche de pleinement bénéficier du potentiel des open data.

Elle est aussi une contribution essentielle à une meilleure reconnaissance du travail scientifique de production, gestion et mise à disposition de données, et notamment sa prise en compte dans les critères d’évaluation.

Il est d’ailleurs encourageant de voir que ces critères se s’ouvrent à des métriques alternatives, y compris celles concernant les données. Le sujet particulier de la citation des données a récemment été l’objet de plusieurs initiatives internationales visant à harmoniser les pratiques et émettre des recommandations.

Elles ont convergé, à travers le Data Citation Synthesis Group, vers quelques principes en train d’être largement reconnus et acceptés. Dans ce contexte, les éditeurs doivent s’adapter et clairement définir leurs politiques en termes de liens entre données et publications. On observe d’ailleurs une tendance forte vers des accords entre éditeurs et réservoirs de données.

Les actions et services de DataCite s’intègrent dans d’autres structures et initiatives internationales mises en place autour des données de la recherche et des identifiants pérennes: Research Data Alliance, WDS-ICSU, CODATA, EPIC, Data Citation Index, etc.

Un exemple particulier présente le projet européen ODIN, où DataCite et l’initiative ORCID pour la création d’identifiants d’auteurs tentent de connecter les différents types d’identifiants.

URL  : http://eprints.rclis.org/28188/

Data publication with the structural biology data grid supports live analysis

Access to experimental X-ray diffraction image data is fundamental for validation and reproduction of macromolecular models and indispensable for development of structural biology processing methods. Here, we established a diffraction data publication and dissemination system, Structural Biology Data Grid (SBDG; data.sbgrid.org), to preserve primary experimental data sets that support scientific publications.

Data sets are accessible to researchers through a community driven data grid, which facilitates global data access. Our analysis of a pilot collection of crystallographic data sets demonstrates that the information archived by SBDG is sufficient to reprocess data to statistics that meet or exceed the quality of the original published structures.

SBDG has extended its services to the entire community and is used to develop support for other types of biomedical data sets. It is anticipated that access to the experimental data sets will enhance the paradigm shift in the community towards a much more dynamic body of continuously improving data analysis.

URL : Data publication with the structural biology data grid supports live analysis

DOI : 10.1038/ncomms10882

Wikidata as a semantic framework for the Gene Wiki initiative

Open biological data are distributed over many resources making them challenging to integrate, to update and to disseminate quickly. Wikidata is a growing, open community database which can serve this purpose and also provides tight integration with Wikipedia.

In order to improve the state of biological data, facilitate data management and dissemination, we imported all human and mouse genes, and all human and mouse proteins into Wikidata.

In total, 59 721 human genes and 73 355 mouse genes have been imported from NCBI and 27 306 human proteins and 16 728 mouse proteins have been imported from the Swissprot subset of UniProt. As Wikidata is open and can be edited by anybody, our corpus of imported data serves as the starting point for integration of further data by scientists, the Wikidata community and citizen scientists alike.

The first use case for these data is to populate Wikipedia Gene Wiki infoboxes directly from Wikidata with the data integrated above. This enables immediate updates of the Gene Wiki infoboxes as soon as the data in Wikidata are modified.

Although Gene Wiki pages are currently only on the English language version of Wikipedia, the multilingual nature of Wikidata allows for usage of the data we imported in all 280 different language Wikipedias.

Apart from the Gene Wiki infobox use case, a SPARQL endpoint and exporting functionality to several standard formats (e.g. JSON, XML) enable use of the data by scientists.

In summary, we created a fully open and extensible data resource for human and mouse molecular biology and biochemistry data. This resource enriches all the Wikipedias with structured information and serves as a new linking hub for the biological semantic web.

URL : Wikidata as a semantic framework for the Gene Wiki initiative

DOI : 10.1093/database/baw015

The FAIR Guiding Principles for scientific data management and stewardship

There is an urgent need to improve the infrastructure supporting the reuse of scholarly data. A diverse set of stakeholders—representing academia, industry, funding agencies, and scholarly publishers—have come together to design and jointly endorse a concise and measureable set of principles that we refer to as the FAIR Data Principles.

The intent is that these may act as a guideline for those wishing to enhance the reusability of their data holdings. Distinct from peer initiatives that focus on the human scholar, the FAIR Principles put specific emphasis on enhancing the ability of machines to automatically find and use the data, in addition to supporting its reuse by individuals.

This Comment is the first formal publication of the FAIR Principles, and includes the rationale behind them, and some exemplar implementations in the community.

URL : The FAIR Guiding Principles for scientific data management and stewardship

Alternative location : http://www.nature.com/articles/sdata201618

Data Policy Recommendations for Biodiversity Data. EU BON Project Report

There is a strong need for a comprehensive, coherent, and consistent data policy in Europe to increase interoperability of data and to make its reuse both easy and legal. Available single recommendations/guidelines on different topics need to be processed, structured, and unified. Within the context of the EU BON project, a team from the EU BON partners from Museum für Naturkunde Berlin, Plazi, and Pensoft has prepared this report to be used as a part of the Data Publishing Guidelines and Recommendations in the EU BON Biodiversity Portal.

The document deals with the issues: (i) Mobilizing biodiversity data, (ii) Removing legal obstacles, (iii) Changing attitudes, (iv) Data policy recommendations and is addressed to legislators, researchers, research institutions, data aggregators, funders, and publishers.

URL : Data Policy Recommendations for Biodiversity Data. EU BON Project Report

DOI : http://dx.doi.org/10.3897/rio.2.e8458

Identifying and Improving Dataset References in Social Sciences Full Texts

Scientific full text papers are usually stored in separate places than their underlying research datasets. Authors typically make references to datasets by mentioning them for example by using their titles and the year of publication. However, in most cases explicit links that would provide readers with direct access to referenced datasets are missing.

Manually detecting references to datasets in papers is time consuming and requires an expert in the domain of the paper. In order to make explicit all links to datasets in papers that have been published already, we suggest and evaluate a semi-automatic approach for finding references to datasets in social sciences papers.

Our approach does not need a corpus of papers (no cold start problem) and it performs well on a small test corpus (gold standard). Our approach achieved an F-measure of 0.84 for identifying references in full texts and an F-measure of 0.83 for finding correct matches of detected references in the da|ra dataset registry.

URL : http://arxiv.org/abs/1603.01774v1