Research data management in the French National Research Center (CNRS)

Authors : Joachim Schöpfel, Coline Ferrant, Francis Andre, Renaud Fabre

Purpose

The purpose of this paper is to present empirical evidence on the opinion and behaviour of French scientists (senior management level) regarding research data management (RDM).

Design/methodology/approach

The results are part of a nationwide survey on scientific information and documentation with 432 directors of French public research laboratories conducted by the French Research Center CNRS in 2014.

Findings

The paper presents empirical results about data production (types), management (human resources, IT, funding, and standards), data sharing and related needs, and highlights significant disciplinary differences.

Also, it appears that RDM and data sharing is not directly correlated with the commitment to open access. Regarding the FAIR data principles, the paper reveals that 68 per cent of all laboratory directors affirm that their data production and management is compliant with at least one of the FAIR principles.

But only 26 per cent are compliant with at least three principles, and less than 7 per cent are compliant with all four FAIR criteria, with laboratories in nuclear physics, SSH and earth sciences and astronomy being in advance of other disciplines, especially concerning the findability and the availability of their data output.

The paper concludes with comments about research data service development and recommendations for an institutional RDM policy.

Originality/value

For the first time, a nationwide survey was conducted with the senior research management level from all scientific disciplines. Surveys on RDM usually assess individual data behaviours, skills and needs. This survey is different insofar as it addresses institutional and collective data practice.

The respondents did not report on their own data behaviours and attitudes but were asked to provide information about their laboratory. The response rate was high (>30 per cent), and the results provide good insight into the real support and uptake of RDM by senior research managers who provide both models (examples for good practice) and opinion leadership.

URL : https://hal.univ-lille3.fr/hal-01728541/

Text data mining and data quality management for research information systems in the context of open data and open science

Authors : Otmane Azeroual, Gunter Saake, Mohammad Abuosba, Joachim Schöpfel

In the implementation and use of research information systems (RIS) in scientific institutions, text data mining and semantic technologies are a key technology for the meaningful use of large amounts of data.

It is not the collection of data that is difficult, but the further processing and integration of the data in RIS. Data is usually not uniformly formatted and structured, such as texts and tables that cannot be linked.

These include various source systems with their different data formats such as project and publication databases, CERIF and RCD data model, etc. Internal and external data sources continue to develop.

On the one hand, they must be constantly synchronized and the results of the data links checked. On the other hand, the texts must be processed in natural language and certain information extracted.

Using text data mining, the quality of the metadata is analyzed and this identifies the entities and general keywords. So that the user is supported in the search for interesting research information.

The information age makes it easier to store huge amounts of data and increase the number of documents on the internet, in institutions’ intranets, in newswires and blogs is overwhelming.

Search engines should help to specifically open up these sources of information and make them usable for administrative and research purposes. Against this backdrop, the aim of this paper is to provide an overview of text data mining techniques and the management of successful data quality for RIS in the context of open data and open science in scientific institutions and libraries, as well as to provide ideas for their application. In particular, solutions for the RIS will be presented.

URL : https://arxiv.org/abs/1812.04298

Valoriser les publications d’un laboratoire universitaire dans l’environnement de la science ouverte : Retour d’expérience de la collection GERiiCO sur HAL

Auteurs/Authors : Joachim Schöpfel, Hélène Prost, Amel Fraisse, Stéphane Chaudiron

La question de la diffusion des résultats de la recherche et, en particulier, le libre accès aux publications des chercheurs est au cœur de la politique pour la science ouverte. Comment peut se positionner un laboratoire de recherche universitaire ? Comment peut se traduire la politique pour la science ouverte sur le terrain d’un campus universitaire ?

Sous forme d’un retour d’expérience, notre étude analyse la mise en place de la collection du laboratoire GERiiCO de l’Université de Lille sur l’archive ouverte nationale HAL.

L’objectif de l’initiative est double : d’une part, assurer une visibilité maximale et un impact au-delà de la communauté disciplinaire, à travers des médias sociaux et le référencement des moteurs de recherche ; d’autre part, contribuer à l’évaluation de la production scientifique du laboratoire.

Nous présentons les ressources mobilisées et les actions mises en oeuvre, analysons les résultats en termes de dépôts, d’usage et de services, et évoquons les facteurs de succès, les problèmes rencontrés et quelques perspectives pour le futur développement.

En particulier, nous comparons le contenu de la collection HAL avec les résultats de la base de données scientométrique d’Elsevier (Scopus) et du moteur de recherche Google Scholar, et nous montrons le potentiel de la collection pour visualiser les relations au sein du laboratoire (analyse de réseaux) et son rayonnement international.

URL : https://hal.archives-ouvertes.fr/hal-01940352

What about ODTs? Are they grey?

Authors : Joachim Schöpfel, Snjezana Cirkovic, Hélène Prost

The term of grey literature is sometimes applied for older material and special collections, especially in the field of digitization projects of scientific heritage.

The following paper will analyse this term of “grey scientific heritage” and, based on empirical and conceptual elements, contribute to a better understanding of grey literature. Special attention will be paid on older theses and dissertations (OTDs), as a main part of scientific heritage especially from universities.

URL : https://hal.archives-ouvertes.fr/hal-01916964

Vers une culture de la donnée en SHS : Une étude à l’Université de Lille

Auteur/Author : Joachim Schöpfel

La science ouverte figure parmi les priorités de l’Etat français. Dans la continuité des chantiers engagés par le gouvernement français sur la transformation numérique de l’Etat et sa modernisation, le deuxième plan d’action national 2018-2020 “Pour une action publique transparente et collaborative” précise que la France « soutient la mise en œuvre des principes du gouvernement ouvert pour renforcer (…) l’accès aux matériaux et résultats de la recherche ».

Le plan national pour la science ouverte, présenté début juillet 2018, a confirmé cette ambition. L’objectif est que les données produites par la recherche publique soient progressivement structurées en conformité avec les principes FAIR, préservées et, quand cela est possible, ouvertes.

Notre étude “Vers une culture de la donnée en SHS” souhaite contribuer à la mise en œuvre de l’écosystème de la science ouverte sur le terrain d’un campus universitaire.

L’étude a été réalisée dans le cadre du projet structurant D4Humanities, avec un financement de la MESHS et du Conseil Régional Hauts-de-France, et elle fait suite à des travaux de recherche menés depuis 2013 par le laboratoire GERiiCO.

Conduite sous forme d’entretiens avec 51 chercheurs, doctorants, responsables de laboratoires, chefs de projets et ingénieurs en charge de données, l’étude poursuit trois objectifs :

  1. (Re)Mettre les enseignants-chercheurs au cœur de la mise en œuvre de l’écosystème de la science ouverte sur le campus, avec leurs besoins, priorités et interrogations.
  2. Identifier des opportunités et verrous pour une politique de données.
  3. Recommander dix actions à mettre en place pour développer la culture de données sur le campus.

Menée comme un audit sur un terrain particulier et dans le domaine des sciences humaines et sociales, l’étude a une portée pragmatique: dégager les éléments indispensables pour une politique cohérente de la production, gestion et réutilisation des données de la recherche sur un campus en sciences humaines et sociales, et contribuer ainsi à l’appropriation du concept de la science ouverte par une « mise en culture de la donnée, qui effectue une mise en sens d’usages disséminés et spécialisés de données ouvertes ».

Une première partie (« Constats préalables ») s’appuie sur deux études (Rennes 2, Lille 3) pour mieux cerner le concept de la donnée de recherche et son caractère de « longue traîne » ; cette partie synthétise les pratiques, motivations et attentes des enseignants-chercheurs dans ce domaine, en SHS.

Elle aborde également d’une manière générale la question des services et dispositifs de données. Une deuxième partie (« Observations ») décrit un paysage contrasté à partir des entretiens menés en 2017 et 2018 sur le campus SHS de l’Université de Lille.

Les besoins prioritaires des chercheurs sont la sécurité des données et systèmes, et la communication au sein des projets. L’image qui se dégage est un continuum de pratiques plus ou moins efficaces, formalisées et adéquates, avec une gouvernance parfois incertaine, au niveau des projets aussi bien qu’au niveau des structures.

Ces pratiques sont liées aux communautés disciplinaires mais plus encore, aux méthodes, équipements et thématiques scientifiques. La troisième partie (« Vers une culture de la donnée ») liste d’une manière succincte dix recommandations qui, ensemble, définissent un cadre de référence pour la mise en œuvre d’une politique de données sur un campus SHS :

  1. Mettre en place un pilotage scientifique
  2. Investir d’une manière ciblée
  3. Viser les projets, pas les laboratoires
  4. Utiliser les plans de gestion comme levier
  5. Apporter des réponses aux contraintes de sécurité
  6. Apporter des réponses aux besoins de communication
  7. Apporter des réponses aux besoins de curation
  8. Proposer plusieurs solutions pour la conservation des données
  9. Institutionnaliser le lien avec la TGIR Huma-Num
  10. Soutenir les bonnes pratiques

URL : Vers une culture de la donnée en SHS : Une étude à l’Université de Lille

Alternative location : https://hal.archives-ouvertes.fr/GERIICO/hal-01846849v1

« Pour commencer, pourriez-vous définir ‘données de la recherche’ ? » Une tentative de réponse

Auteurs/Authors : Joachim Schöpfel, Eric Kergosien, Hélène Prost

Le projet D4Humanities s’inscrit dans le champ des Humanités numériques – comment permettre l’exploration des données de la recherche en SHS (corpus textuels ou oraux, données brutes, images…) avec des techniques numériques (text and data mining, cartographie, visualisation…) afin de construire un sens nouveau ?

Il s’inscrit dans la continuité des travaux du laboratoire GERiiCO et de ses partenaires à l’Université de Lille Sciences Humaines et Sociales (SCD, ED SHS, ANRT…) avec comme objectif d’accélérer la démarche des données de la recherche notamment par rapport aux doctorants et jeunes chercheurs, et de faciliter le montage d’un projet de recherche international.

En particulier, le projet contient trois volets : (1) Pratiques et besoins dans le domaine des données de la recherche (enquête qualitative des comportements, attitudes, motivations et besoins par rapport à la gestion et au partage des données de la recherche) ; (2) workflow pour le dépôt des données des doctorants en SHS (dépôt, préservation et diffusion des données via le service NAKALA de la TGIR Huma-Num) ; (3) recherche sur les données et les thèses (concept et typologie des données en SHS ; évolution des contenus, formats, structures et prescriptions des thèses dans l’environnement de l’Open Science).

Le projet sera mené avec l’ISN Oldenburg et d’autres partenaires étrangers ; il facilitera la création d’un consortium et le montage d’un projet de recherche dans les Humanités numériques sur les thèses de doctorat de l’avenir, avec un financement européen (H2020) ou franco-allemand (ANR/DFG).

Cette communication présente les grandes lignes de l’étude sur les données de l’axe 3, c’est-à-dire l’analyse du concept de données de la recherche, pour mieux cerner l’identification (granularité), pour mieux comprendre la distinction et les relations entre données primaires et secondaires et pour affiner la catégorisation des données en SHS. L’accent est mis sur une triple approche, conceptuelle, typologique et fonctionnelle.

URL : http://hal.univ-lille3.fr/hal-01530937

Ready for the future? A survey on open access with scientists from the French National Research Center (CNRS)

Authors : Joachim Schöpfel, Coline Ferrant, Francis André, Renaud Fabre

Purpose

The paper presents empirical evidence on the opinion and behaviour of French scientists (senior management level) regarding open access to scientific and technical information.

Approach

The results are part of a nationwide survey on scientific information and documentation with 432 directors of French public research laboratories conducted by the French Research Center CNRS in 2014.

Findings

1. The CNRS senior research managers (laboratory directors) globally share the positive opinion towards open access revealed by other studies with researchers from the UK, Germany, the United States and other countries. However, they are more supportive of open repositories (green road) than of OA journal publishing (gold).

2. The response patterns reveal a gap between generally positive opinions about open access and less supportive behaviours, principally publishing articles with APCs.

3. A small group of senior research managers does not seem to be interested in green or gold open access and reluctant to self-archiving and OA publishing.

4. Similar to other studies, the French survey confirms disciplinary differences, i.e. a stronger support for self-archiving of records and documents in HAL by scientists from
Mathematics, Physics and Informatics than from Biology, Earth Sciences and Chemistry; and more experience and positive feelings with open access publishing and payment of APCs in Biology than in Mathematics or in Social Sciences and Humanities. Disciplinary differences and specific French factors are discussed, in particular in the context of the new European policy in favour of Open Science.

Originality

For the first time, a nationwide survey was conducted with the senior research management level from all scientific disciplines.

The response rate was high (>30%), and the results provide good insight into the real awareness, support and uptake of open access by senior research managers who provide both models (examples for good practice) and opinion leadership.

URL : https://hal.archives-ouvertes.fr/hal-01399422