Data papers as a new form of knowledge organization in the field of research data

Authors : Joachim Schöpfel, Dominic Farace, Hélène Prost, Antonella Zane

Data papers have been defined as scholarly journal publications whose primary purpose is to describe research data. Our survey provides more insights about the environment of data papers, i.e. disciplines, publishers and business models, and about their structure, length, formats, metadata and licensing.

Data papers are a product of the emerging ecosystem of data-driven open science. They contribute to the FAIR principles for research data management. However, the boundaries with other categories of academic publishing are partly blurred. Data papers are (can be) generated automatically and are potentially machine-readable.

Data papers are essentially information, i.e. description of data, but also partly contribute to the generation of knowledge and data on its own. Part of the new ecosystem of open and data-driven science, data papers and data journals are an interesting and relevant object for the assessment and understanding of the transition of the former system of academic publishing.


Plus ou moins open : les revues de rang A en Sciences de l’information et de la communication

Auteurs/Authors : Joachim Schöpfel, Hélène Prost, Amel Fraisse

Selon une étude récente, presque la moitié des articles publiés par des chercheurs français sont diffusés en libre accès, déposés dans les archives ouvertes, comme HAL, ou mis en ligne dans des revues administrées suivant le modèle du “open access”, sans abonnement payant.

Dans cet environnement dynamique, les agences d’évaluation de l’enseignement supérieur et de la recherche ont un rôle à jouer, par le biais de leurs critères et outils d’évaluation.

En fonction de leur approche et méthodologie, ces établissements peuvent créer des opportunités pour le développement du libre accès, par l’incitation au partage des résultats de la recherche, ou bien, ralentir le processus par le maintien des critères habituels, dont notamment l’évaluation bibliométrique à partir du classement des publications.

Notre étude propose un regard sur notre propre discipline, avec un état des lieux dans le domaine des sciences de l’information et de la communication en France, à partir de la liste actualisée des revues de rang A publiée fin 2017 et sous l’aspect du libre accès.

L’approche est exploratoire. Il s’agit avant tout d’étudier nos propres standards et pratiques, en tant que communauté de recherche en SIC par rapport à la politique scientifique du libre accès et de la science ouverte. 38 % des revues de rang A en SIC sont en libre accès. Mais ces revues représentent seulement 4 % de l’ensemble des revues SIC en libre accès.


Hors norme ? Une approche normative des données de la recherche

Auteur : Joachim Schöpfel

Nous proposons une réflexion sur le rôle des normes et standards dans la gestion des données de la recherche, dans l’environnement de la politique de la science ouverte.

A partir d’une définition générale des données de la recherche, nous analysons la place et la fonction des normes et standards dans les différentes dimensions du concept des données. En particulier, nous nous intéressons à trois aspects faisant le lien entre le processus scientifique, l’environnement réglementaire et les données de la recherche : les protocoles éthiques, les systèmes d’information recherche et les plans de gestion des données.

A l’échelle internationale, nous décrivons l’effet normatif des principes FAIR qui, par la mobilisation d’autres normes et standards, créent une sorte de « cascade de standards » autour des plateformes et entrepôts, avec un impact direct sur les pratiques scientifiques.


Research data management in the French National Research Center (CNRS)

Authors : Joachim Schöpfel, Coline Ferrant, Francis Andre, Renaud Fabre


The purpose of this paper is to present empirical evidence on the opinion and behaviour of French scientists (senior management level) regarding research data management (RDM).


The results are part of a nationwide survey on scientific information and documentation with 432 directors of French public research laboratories conducted by the French Research Center CNRS in 2014.


The paper presents empirical results about data production (types), management (human resources, IT, funding, and standards), data sharing and related needs, and highlights significant disciplinary differences.

Also, it appears that RDM and data sharing is not directly correlated with the commitment to open access. Regarding the FAIR data principles, the paper reveals that 68 per cent of all laboratory directors affirm that their data production and management is compliant with at least one of the FAIR principles.

But only 26 per cent are compliant with at least three principles, and less than 7 per cent are compliant with all four FAIR criteria, with laboratories in nuclear physics, SSH and earth sciences and astronomy being in advance of other disciplines, especially concerning the findability and the availability of their data output.

The paper concludes with comments about research data service development and recommendations for an institutional RDM policy.


For the first time, a nationwide survey was conducted with the senior research management level from all scientific disciplines. Surveys on RDM usually assess individual data behaviours, skills and needs. This survey is different insofar as it addresses institutional and collective data practice.

The respondents did not report on their own data behaviours and attitudes but were asked to provide information about their laboratory. The response rate was high (>30 per cent), and the results provide good insight into the real support and uptake of RDM by senior research managers who provide both models (examples for good practice) and opinion leadership.


Text data mining and data quality management for research information systems in the context of open data and open science

Authors : Otmane Azeroual, Gunter Saake, Mohammad Abuosba, Joachim Schöpfel

In the implementation and use of research information systems (RIS) in scientific institutions, text data mining and semantic technologies are a key technology for the meaningful use of large amounts of data.

It is not the collection of data that is difficult, but the further processing and integration of the data in RIS. Data is usually not uniformly formatted and structured, such as texts and tables that cannot be linked.

These include various source systems with their different data formats such as project and publication databases, CERIF and RCD data model, etc. Internal and external data sources continue to develop.

On the one hand, they must be constantly synchronized and the results of the data links checked. On the other hand, the texts must be processed in natural language and certain information extracted.

Using text data mining, the quality of the metadata is analyzed and this identifies the entities and general keywords. So that the user is supported in the search for interesting research information.

The information age makes it easier to store huge amounts of data and increase the number of documents on the internet, in institutions’ intranets, in newswires and blogs is overwhelming.

Search engines should help to specifically open up these sources of information and make them usable for administrative and research purposes. Against this backdrop, the aim of this paper is to provide an overview of text data mining techniques and the management of successful data quality for RIS in the context of open data and open science in scientific institutions and libraries, as well as to provide ideas for their application. In particular, solutions for the RIS will be presented.


Valoriser les publications d’un laboratoire universitaire dans l’environnement de la science ouverte : Retour d’expérience de la collection GERiiCO sur HAL

Auteurs/Authors : Joachim Schöpfel, Hélène Prost, Amel Fraisse, Stéphane Chaudiron

La question de la diffusion des résultats de la recherche et, en particulier, le libre accès aux publications des chercheurs est au cœur de la politique pour la science ouverte. Comment peut se positionner un laboratoire de recherche universitaire ? Comment peut se traduire la politique pour la science ouverte sur le terrain d’un campus universitaire ?

Sous forme d’un retour d’expérience, notre étude analyse la mise en place de la collection du laboratoire GERiiCO de l’Université de Lille sur l’archive ouverte nationale HAL.

L’objectif de l’initiative est double : d’une part, assurer une visibilité maximale et un impact au-delà de la communauté disciplinaire, à travers des médias sociaux et le référencement des moteurs de recherche ; d’autre part, contribuer à l’évaluation de la production scientifique du laboratoire.

Nous présentons les ressources mobilisées et les actions mises en oeuvre, analysons les résultats en termes de dépôts, d’usage et de services, et évoquons les facteurs de succès, les problèmes rencontrés et quelques perspectives pour le futur développement.

En particulier, nous comparons le contenu de la collection HAL avec les résultats de la base de données scientométrique d’Elsevier (Scopus) et du moteur de recherche Google Scholar, et nous montrons le potentiel de la collection pour visualiser les relations au sein du laboratoire (analyse de réseaux) et son rayonnement international.


What about ODTs? Are they grey?

Authors : Joachim Schöpfel, Snjezana Cirkovic, Hélène Prost

The term of grey literature is sometimes applied for older material and special collections, especially in the field of digitization projects of scientific heritage.

The following paper will analyse this term of “grey scientific heritage” and, based on empirical and conceptual elements, contribute to a better understanding of grey literature. Special attention will be paid on older theses and dissertations (OTDs), as a main part of scientific heritage especially from universities.