DataCite au service des données scientifiques : Identifier pour valoriser

Les données de la recherche, sous forme d’objets numériques très divers, sont en train de trouver leur place dans les services d’information scientifique et technique (IST), principalement – mais pas uniquement – comme compléments des publications qui s’appuient sur ces données.

L’intégration de différents types de ressources numériques avance, et doit être accompagnée par des standards d’interopérabilité, des formats communs de métadonnées et des possibilités de lier ces contenus entre eux et de les citer de manière normalisée.

Le consortium international DataCite, dans lequel l’Inist-CNRS représente la France, s’est mis comme objectif de soutenir et accélérer cette évolution. Il opère en particulier comme une agence d’enregistrement de DOI (Digital Object Identifier), considérant ces DOI, déjà bien établis dans le monde de l’édition, comme un outil efficace pour identifier les données de manière pérenne, pour ainsi faciliter leur découverte et pour y accéder, et puis pour les citer.

DataCite a développé son propre schéma de métadonnées et a mis en place des fonctionnalités spécifiques qui favorisent le partage et la réutilisation des données. Une telle valorisation s’inscrit en particulier dans une approche de pleinement bénéficier du potentiel des open data.

Elle est aussi une contribution essentielle à une meilleure reconnaissance du travail scientifique de production, gestion et mise à disposition de données, et notamment sa prise en compte dans les critères d’évaluation.

Il est d’ailleurs encourageant de voir que ces critères se s’ouvrent à des métriques alternatives, y compris celles concernant les données. Le sujet particulier de la citation des données a récemment été l’objet de plusieurs initiatives internationales visant à harmoniser les pratiques et émettre des recommandations.

Elles ont convergé, à travers le Data Citation Synthesis Group, vers quelques principes en train d’être largement reconnus et acceptés. Dans ce contexte, les éditeurs doivent s’adapter et clairement définir leurs politiques en termes de liens entre données et publications. On observe d’ailleurs une tendance forte vers des accords entre éditeurs et réservoirs de données.

Les actions et services de DataCite s’intègrent dans d’autres structures et initiatives internationales mises en place autour des données de la recherche et des identifiants pérennes: Research Data Alliance, WDS-ICSU, CODATA, EPIC, Data Citation Index, etc.

Un exemple particulier présente le projet européen ODIN, où DataCite et l’initiative ORCID pour la création d’identifiants d’auteurs tentent de connecter les différents types d’identifiants.

URL  : http://eprints.rclis.org/28188/

Les pratiques de recherche documentaire, de publication et de diffusion scientifique des productions de la recherche à l’Université Paris-Sud : questionnaire à destination des chercheurs, enseignants-chercheurs et doctorants

Il s’agit de l’analyse détaillée des réponses à une enquête en ligne à destination des chercheurs, enseignants-chercheurs et doctorants de l’université Paris-Sud sur leurs pratiques de recherche documentaire, de publication et d’archivage de leurs productions scientifiques.

Cette enquête a été réalisée du 3 février au 7 avril 2015 dans le cadre du projet du Schéma Directeur numérique de l’université Paris-Sud de réservoir des productions de la recherche à des fins d’archivage systématique, de diffusion et de valorisation.

URL : Les pratiques de recherche documentaire, de publication et de diffusion scientifique des productions de la recherche à l’Université Paris-Sud

Alternative location : http://archivesic.ccsd.cnrs.fr/hal-01292693v1

Data publication with the structural biology data grid supports live analysis

Access to experimental X-ray diffraction image data is fundamental for validation and reproduction of macromolecular models and indispensable for development of structural biology processing methods. Here, we established a diffraction data publication and dissemination system, Structural Biology Data Grid (SBDG; data.sbgrid.org), to preserve primary experimental data sets that support scientific publications.

Data sets are accessible to researchers through a community driven data grid, which facilitates global data access. Our analysis of a pilot collection of crystallographic data sets demonstrates that the information archived by SBDG is sufficient to reprocess data to statistics that meet or exceed the quality of the original published structures.

SBDG has extended its services to the entire community and is used to develop support for other types of biomedical data sets. It is anticipated that access to the experimental data sets will enhance the paradigm shift in the community towards a much more dynamic body of continuously improving data analysis.

URL : Data publication with the structural biology data grid supports live analysis

DOI : 10.1038/ncomms10882

Open Access, Open Science, Open Society

Open Access’ main goal is not the subversion of publishers’ role as driving actors in an oligopolistic market characterised by reduced competition and higher prices. OA’s main function is to be found somewhere else, namely in the ability to subvert the power to control science’s governance and its future directions (Open Science), a power that is more often found within the academic institutions rather than outside.

By decentralising and opening-up not just the way in which scholarship is published but also the way in which it is assessed, OA removes the barriers that helped turn science into an intellectual oligopoly even before an economic one. The goal of this paper is to demonstrate that Open Access is a key enabler of Open Science, which in turn will lead to a more Open Society.

Furthermore, the paper argues that while legislative interventions play an important role in the top-down regulation of Open Access, legislators currently lack an informed and systematic vision on the role of Open Access in science and society. In this historical phase, other complementary forms of intervention (bottom-up) appear much more “informed” and effective.

This paper, which intends to set the stage for future research, identifies a few pieces of the puzzle: the relationship between formal and informal norms in the field of Open Science and how these impact on intellectual property rights, the protection of personal data, the assessment of science and the technology employed for the communication of science.

URL : http://ssrn.com/abstract=2751741

Scientific Production on Open Access: A Worldwide Bibliometric Analysis in the Academic and Scientific Context

This research aims to diachronically analyze the worldwide scientific production on open access, in the academic and scientific context, in order to contribute to knowledge and visualization of its main actors.

As a method, bibliographical, descriptive and analytical research was used, with the contribution of bibliometric studies, especially the production indicators, scientific collaboration and indicators of thematic co-occurrence.

The Scopus database was used as a source to retrieve the articles on the subject, with a resulting corpus of 1179 articles. Using Bibexcel software, frequency tables were constructed for the variables, and Pajek software was used to visualize the collaboration network and VoSViewer for the construction of the keywords’ network.

As for the results, the most productive researchers come from countries such as the United States, Canada, France and Spain. Journals with higher impact in the academic community have disseminated the new constructed knowledge. A collaborative network with a few subnets where co-authors are from different countries has been observed.

As conclusions, this study allows identifying the themes of debates that mark the development of open access at the international level, and it is possible to state that open access is one of the new emerging and frontier fields of library and information science.

URL : Scientific Production on Open Access: A Worldwide Bibliometric Analysis in the Academic and Scientific Context

DOI : http://www.mdpi.com/2304-6775/4/1/1

De l’usage des revues juridiques dématérialisées : A propos des interactions entre TIC et recherche juridique

Si la réussite d’une revue juridique se traduit tant par la diversité des thématiques abordées et de ses auteurs que par l’actualité des propos, force est de reconnaître que sa longévité est un critère tout aussi pertinent. Une existence qui doit essentiellement sa pérennité à l’investissement originel de ses créateurs et continu de ses contributeurs.

Il faut avouer que le support dématérialisé évince toute contrainte financière substantielle pour une revue et que l’accès libre aux articles (le fameux open-access) facilite grandement la diffusion des travaux de recherche. La revue Neptunus du Centre de Droit Maritime et Océanique de l’Université de Nantes a ainsi été précurseur dans la diffusion des idées sans contrainte matérielle ou financière.

D’ailleurs, quelques années après sa création en 1994, des prises de position et des appels en ce sens, hors de nos frontières nationales, initient une réflexion, désormais ancrée dans toutes les politiques d’innovation et de recherche…

URL : https://hal.archives-ouvertes.fr/halshs-01288752

Wikidata as a semantic framework for the Gene Wiki initiative

Open biological data are distributed over many resources making them challenging to integrate, to update and to disseminate quickly. Wikidata is a growing, open community database which can serve this purpose and also provides tight integration with Wikipedia.

In order to improve the state of biological data, facilitate data management and dissemination, we imported all human and mouse genes, and all human and mouse proteins into Wikidata.

In total, 59 721 human genes and 73 355 mouse genes have been imported from NCBI and 27 306 human proteins and 16 728 mouse proteins have been imported from the Swissprot subset of UniProt. As Wikidata is open and can be edited by anybody, our corpus of imported data serves as the starting point for integration of further data by scientists, the Wikidata community and citizen scientists alike.

The first use case for these data is to populate Wikipedia Gene Wiki infoboxes directly from Wikidata with the data integrated above. This enables immediate updates of the Gene Wiki infoboxes as soon as the data in Wikidata are modified.

Although Gene Wiki pages are currently only on the English language version of Wikipedia, the multilingual nature of Wikidata allows for usage of the data we imported in all 280 different language Wikipedias.

Apart from the Gene Wiki infobox use case, a SPARQL endpoint and exporting functionality to several standard formats (e.g. JSON, XML) enable use of the data by scientists.

In summary, we created a fully open and extensible data resource for human and mouse molecular biology and biochemistry data. This resource enriches all the Wikipedias with structured information and serves as a new linking hub for the biological semantic web.

URL : Wikidata as a semantic framework for the Gene Wiki initiative

DOI : 10.1093/database/baw015