Hors norme ? Une approche normative des données de la recherche

Auteur : Joachim Schöpfel

Nous proposons une réflexion sur le rôle des normes et standards dans la gestion des données de la recherche, dans l’environnement de la politique de la science ouverte.

A partir d’une définition générale des données de la recherche, nous analysons la place et la fonction des normes et standards dans les différentes dimensions du concept des données. En particulier, nous nous intéressons à trois aspects faisant le lien entre le processus scientifique, l’environnement réglementaire et les données de la recherche : les protocoles éthiques, les systèmes d’information recherche et les plans de gestion des données.

A l’échelle internationale, nous décrivons l’effet normatif des principes FAIR qui, par la mobilisation d’autres normes et standards, créent une sorte de « cascade de standards » autour des plateformes et entrepôts, avec un impact direct sur les pratiques scientifiques.

URL : https://revue-cossi.info/numeros/n-5-2018-processus-normalisation-durabilite-information/730-5-2018-schopfel

Research data management in the French National Research Center (CNRS)

Authors : Joachim Schöpfel, Coline Ferrant, Francis Andre, Renaud Fabre

Purpose

The purpose of this paper is to present empirical evidence on the opinion and behaviour of French scientists (senior management level) regarding research data management (RDM).

Design/methodology/approach

The results are part of a nationwide survey on scientific information and documentation with 432 directors of French public research laboratories conducted by the French Research Center CNRS in 2014.

Findings

The paper presents empirical results about data production (types), management (human resources, IT, funding, and standards), data sharing and related needs, and highlights significant disciplinary differences.

Also, it appears that RDM and data sharing is not directly correlated with the commitment to open access. Regarding the FAIR data principles, the paper reveals that 68 per cent of all laboratory directors affirm that their data production and management is compliant with at least one of the FAIR principles.

But only 26 per cent are compliant with at least three principles, and less than 7 per cent are compliant with all four FAIR criteria, with laboratories in nuclear physics, SSH and earth sciences and astronomy being in advance of other disciplines, especially concerning the findability and the availability of their data output.

The paper concludes with comments about research data service development and recommendations for an institutional RDM policy.

Originality/value

For the first time, a nationwide survey was conducted with the senior research management level from all scientific disciplines. Surveys on RDM usually assess individual data behaviours, skills and needs. This survey is different insofar as it addresses institutional and collective data practice.

The respondents did not report on their own data behaviours and attitudes but were asked to provide information about their laboratory. The response rate was high (>30 per cent), and the results provide good insight into the real support and uptake of RDM by senior research managers who provide both models (examples for good practice) and opinion leadership.

URL : https://hal.univ-lille3.fr/hal-01728541/

Text data mining and data quality management for research information systems in the context of open data and open science

Authors : Otmane Azeroual, Gunter Saake, Mohammad Abuosba, Joachim Schöpfel

In the implementation and use of research information systems (RIS) in scientific institutions, text data mining and semantic technologies are a key technology for the meaningful use of large amounts of data.

It is not the collection of data that is difficult, but the further processing and integration of the data in RIS. Data is usually not uniformly formatted and structured, such as texts and tables that cannot be linked.

These include various source systems with their different data formats such as project and publication databases, CERIF and RCD data model, etc. Internal and external data sources continue to develop.

On the one hand, they must be constantly synchronized and the results of the data links checked. On the other hand, the texts must be processed in natural language and certain information extracted.

Using text data mining, the quality of the metadata is analyzed and this identifies the entities and general keywords. So that the user is supported in the search for interesting research information.

The information age makes it easier to store huge amounts of data and increase the number of documents on the internet, in institutions’ intranets, in newswires and blogs is overwhelming.

Search engines should help to specifically open up these sources of information and make them usable for administrative and research purposes. Against this backdrop, the aim of this paper is to provide an overview of text data mining techniques and the management of successful data quality for RIS in the context of open data and open science in scientific institutions and libraries, as well as to provide ideas for their application. In particular, solutions for the RIS will be presented.

URL : https://arxiv.org/abs/1812.04298

Valoriser les publications d’un laboratoire universitaire dans l’environnement de la science ouverte : Retour d’expérience de la collection GERiiCO sur HAL

Auteurs/Authors : Joachim Schöpfel, Hélène Prost, Amel Fraisse, Stéphane Chaudiron

La question de la diffusion des résultats de la recherche et, en particulier, le libre accès aux publications des chercheurs est au cœur de la politique pour la science ouverte. Comment peut se positionner un laboratoire de recherche universitaire ? Comment peut se traduire la politique pour la science ouverte sur le terrain d’un campus universitaire ?

Sous forme d’un retour d’expérience, notre étude analyse la mise en place de la collection du laboratoire GERiiCO de l’Université de Lille sur l’archive ouverte nationale HAL.

L’objectif de l’initiative est double : d’une part, assurer une visibilité maximale et un impact au-delà de la communauté disciplinaire, à travers des médias sociaux et le référencement des moteurs de recherche ; d’autre part, contribuer à l’évaluation de la production scientifique du laboratoire.

Nous présentons les ressources mobilisées et les actions mises en oeuvre, analysons les résultats en termes de dépôts, d’usage et de services, et évoquons les facteurs de succès, les problèmes rencontrés et quelques perspectives pour le futur développement.

En particulier, nous comparons le contenu de la collection HAL avec les résultats de la base de données scientométrique d’Elsevier (Scopus) et du moteur de recherche Google Scholar, et nous montrons le potentiel de la collection pour visualiser les relations au sein du laboratoire (analyse de réseaux) et son rayonnement international.

URL : https://hal.archives-ouvertes.fr/hal-01940352

What about ODTs? Are they grey?

Authors : Joachim Schöpfel, Snjezana Cirkovic, Hélène Prost

The term of grey literature is sometimes applied for older material and special collections, especially in the field of digitization projects of scientific heritage.

The following paper will analyse this term of “grey scientific heritage” and, based on empirical and conceptual elements, contribute to a better understanding of grey literature. Special attention will be paid on older theses and dissertations (OTDs), as a main part of scientific heritage especially from universities.

URL : https://hal.archives-ouvertes.fr/hal-01916964

Vers une culture de la donnée en SHS : Une étude à l’Université de Lille

Auteur/Author : Joachim Schöpfel

La science ouverte figure parmi les priorités de l’Etat français. Dans la continuité des chantiers engagés par le gouvernement français sur la transformation numérique de l’Etat et sa modernisation, le deuxième plan d’action national 2018-2020 “Pour une action publique transparente et collaborative” précise que la France « soutient la mise en œuvre des principes du gouvernement ouvert pour renforcer (…) l’accès aux matériaux et résultats de la recherche ».

Le plan national pour la science ouverte, présenté début juillet 2018, a confirmé cette ambition. L’objectif est que les données produites par la recherche publique soient progressivement structurées en conformité avec les principes FAIR, préservées et, quand cela est possible, ouvertes.

Notre étude “Vers une culture de la donnée en SHS” souhaite contribuer à la mise en œuvre de l’écosystème de la science ouverte sur le terrain d’un campus universitaire.

L’étude a été réalisée dans le cadre du projet structurant D4Humanities, avec un financement de la MESHS et du Conseil Régional Hauts-de-France, et elle fait suite à des travaux de recherche menés depuis 2013 par le laboratoire GERiiCO.

Conduite sous forme d’entretiens avec 51 chercheurs, doctorants, responsables de laboratoires, chefs de projets et ingénieurs en charge de données, l’étude poursuit trois objectifs :

  1. (Re)Mettre les enseignants-chercheurs au cœur de la mise en œuvre de l’écosystème de la science ouverte sur le campus, avec leurs besoins, priorités et interrogations.
  2. Identifier des opportunités et verrous pour une politique de données.
  3. Recommander dix actions à mettre en place pour développer la culture de données sur le campus.

Menée comme un audit sur un terrain particulier et dans le domaine des sciences humaines et sociales, l’étude a une portée pragmatique: dégager les éléments indispensables pour une politique cohérente de la production, gestion et réutilisation des données de la recherche sur un campus en sciences humaines et sociales, et contribuer ainsi à l’appropriation du concept de la science ouverte par une « mise en culture de la donnée, qui effectue une mise en sens d’usages disséminés et spécialisés de données ouvertes ».

Une première partie (« Constats préalables ») s’appuie sur deux études (Rennes 2, Lille 3) pour mieux cerner le concept de la donnée de recherche et son caractère de « longue traîne » ; cette partie synthétise les pratiques, motivations et attentes des enseignants-chercheurs dans ce domaine, en SHS.

Elle aborde également d’une manière générale la question des services et dispositifs de données. Une deuxième partie (« Observations ») décrit un paysage contrasté à partir des entretiens menés en 2017 et 2018 sur le campus SHS de l’Université de Lille.

Les besoins prioritaires des chercheurs sont la sécurité des données et systèmes, et la communication au sein des projets. L’image qui se dégage est un continuum de pratiques plus ou moins efficaces, formalisées et adéquates, avec une gouvernance parfois incertaine, au niveau des projets aussi bien qu’au niveau des structures.

Ces pratiques sont liées aux communautés disciplinaires mais plus encore, aux méthodes, équipements et thématiques scientifiques. La troisième partie (« Vers une culture de la donnée ») liste d’une manière succincte dix recommandations qui, ensemble, définissent un cadre de référence pour la mise en œuvre d’une politique de données sur un campus SHS :

  1. Mettre en place un pilotage scientifique
  2. Investir d’une manière ciblée
  3. Viser les projets, pas les laboratoires
  4. Utiliser les plans de gestion comme levier
  5. Apporter des réponses aux contraintes de sécurité
  6. Apporter des réponses aux besoins de communication
  7. Apporter des réponses aux besoins de curation
  8. Proposer plusieurs solutions pour la conservation des données
  9. Institutionnaliser le lien avec la TGIR Huma-Num
  10. Soutenir les bonnes pratiques

URL : Vers une culture de la donnée en SHS : Une étude à l’Université de Lille

Alternative location : https://hal.archives-ouvertes.fr/GERIICO/hal-01846849v1

« Pour commencer, pourriez-vous définir ‘données de la recherche’ ? » Une tentative de réponse

Auteurs/Authors : Joachim Schöpfel, Eric Kergosien, Hélène Prost

Le projet D4Humanities s’inscrit dans le champ des Humanités numériques – comment permettre l’exploration des données de la recherche en SHS (corpus textuels ou oraux, données brutes, images…) avec des techniques numériques (text and data mining, cartographie, visualisation…) afin de construire un sens nouveau ?

Il s’inscrit dans la continuité des travaux du laboratoire GERiiCO et de ses partenaires à l’Université de Lille Sciences Humaines et Sociales (SCD, ED SHS, ANRT…) avec comme objectif d’accélérer la démarche des données de la recherche notamment par rapport aux doctorants et jeunes chercheurs, et de faciliter le montage d’un projet de recherche international.

En particulier, le projet contient trois volets : (1) Pratiques et besoins dans le domaine des données de la recherche (enquête qualitative des comportements, attitudes, motivations et besoins par rapport à la gestion et au partage des données de la recherche) ; (2) workflow pour le dépôt des données des doctorants en SHS (dépôt, préservation et diffusion des données via le service NAKALA de la TGIR Huma-Num) ; (3) recherche sur les données et les thèses (concept et typologie des données en SHS ; évolution des contenus, formats, structures et prescriptions des thèses dans l’environnement de l’Open Science).

Le projet sera mené avec l’ISN Oldenburg et d’autres partenaires étrangers ; il facilitera la création d’un consortium et le montage d’un projet de recherche dans les Humanités numériques sur les thèses de doctorat de l’avenir, avec un financement européen (H2020) ou franco-allemand (ANR/DFG).

Cette communication présente les grandes lignes de l’étude sur les données de l’axe 3, c’est-à-dire l’analyse du concept de données de la recherche, pour mieux cerner l’identification (granularité), pour mieux comprendre la distinction et les relations entre données primaires et secondaires et pour affiner la catégorisation des données en SHS. L’accent est mis sur une triple approche, conceptuelle, typologique et fonctionnelle.

URL : http://hal.univ-lille3.fr/hal-01530937