Big data et bibliothèques : traitement et analyse informatiques des collections numériques

Cette étude s’attache à présenter sous quels aspects les collections numériques des bibliothèques relèvent des problématiques propres aux données massives, et en quoi les techniques de fouille de données (text and data mining) représentent désormais une nécessité pour l’appropriation par les chercheurs des résultats de la littérature scientifique.

Ce travail, qui met au centre de son propos les techniques de fouille de données comme moyens de maîtriser la masse documentaire, identifie trois problématiques distinctes concernant les bibliothèques numériques et ces dispositifs de lecture algorithmiques : sont ainsi abordées successivement les démarches à mettre en oeuvre pour aider les chercheurs à faire usage de ces nouvelles méthodes de lecture, puis l’emploi de techniques de fouille de données sur les collections pour constituer de nouvelles formes d’instruments de recherche, et enfin l’usage de la fouille pour assister le traitement documentaire.

L’étude se conclut sur le détail des questions juridiques soulevées actuellement par la fouille de données, en rapport avec le droit de la propriété intellectuelle.

URL : Big data et bibliothèques : traitement et analyse informatiques des collections numériques

Alternative location : http://www.enssib.fr/bibliotheque-numerique/notices/66017-big-data-et-bibliotheques-traitement-et-analyse-informatiques-des-collections-numeriques

Data Policy Recommendations for Biodiversity Data. EU BON Project Report

There is a strong need for a comprehensive, coherent, and consistent data policy in Europe to increase interoperability of data and to make its reuse both easy and legal. Available single recommendations/guidelines on different topics need to be processed, structured, and unified. Within the context of the EU BON project, a team from the EU BON partners from Museum für Naturkunde Berlin, Plazi, and Pensoft has prepared this report to be used as a part of the Data Publishing Guidelines and Recommendations in the EU BON Biodiversity Portal.

The document deals with the issues: (i) Mobilizing biodiversity data, (ii) Removing legal obstacles, (iii) Changing attitudes, (iv) Data policy recommendations and is addressed to legislators, researchers, research institutions, data aggregators, funders, and publishers.

URL : Data Policy Recommendations for Biodiversity Data. EU BON Project Report

DOI : http://dx.doi.org/10.3897/rio.2.e8458

Is Europe Falling Behind in Data Mining? Copyright’s Impact on Data Mining in Academic Research

Statut

“This empirical paper discusses how copyright affects data mining (DM) by academic researchers. Based on bibliometric data, we show that where DM for academic research requires the express consent of rights holders: (1) DM makes up a significantly lower share of total research output; and (2) stronger rule-of-law is associated with less DM research. To our knowledge, this is the first time that an empirical study bears out a significant negative association between copyright protection and innovation.”

URL : http://dx.doi.org/10.2139/ssrn.2608513

Le mouvement Open Data dans la…

Statut

Le mouvement ” Open Data ” dans la grande transformation des intelligences collectives et face à la question des écritures, du web sémantique et des ontologies :

“Le capitalisme cognitif a deux caractéristiques principales, l’intelligence collective et l’utilisation intensive des technologies de l’information, fondées sur la numérisation du contenu, des procédures et des écritures. Dans cet article, nous essayons d’examiner le mouvement Open Data face à la transformation des intelligences collectives et analysons ce processus dans le cadre de l’action publique, de la science, de l’intelligence logicielle, de la stratégie. Nous montrons comment ce mouvement s’articule avec la question du web sémantique, des ontologies, avec la montée de l’algorithmique. Dans ce cadre, l’émergence du ” data mining” se présente comme “récit impérial”, comme le récit des sociétés performatives. S’ouvre également la possibilité de nouveaux modes de gouvernance, l’émergence de nouvelles façons de penser le politique et l’espace public.”

“Cognitive capitalism has two main characteristics, collective intelligence and the intensive use of information technology, based on the digitization of content, procedures and writings. In this paper, we try to examine the Open Data movement faced with the transformation of collective intelligence. We analyze this process in the context of public policy, science, intelligence software. We show how this movement articulates with the issue of semantic web ontologies and with the rise of algorithmic. We emphasize, indirectly but strong, on the emergence of “data mining” as “imperial narrative,” as the story of performative societies in the context of anthropological stratum Internet. We outline the possibility of new modes of governance and the emergence of new ways of thinking about politics and public space. The future of democratic societies is partly at stake.”

URL : http://archivesic.ccsd.cnrs.fr/sic_00759618

User’s behaviour inside a digital library

CASPUR allows many academic Italian institutions located in the Centre-South of Italy to access more than 7 million of articles through a digital library platform. We analyzed the behaviour of its users by considering their “traces” stored into the web server log file.

Using several Web Mining and Data Mining techniques we discovered that there is a gradual and dynamic change in the way how articles are accessed; in particular there is evidence of a Journal browsing increase in comparison to the searching mode.

We interpreted such phenomenon by considering that browsing better meets the need of users when they want to keep abreast about the latest advances in their scientific field, in comparison to a more generic searching inside the digital library.

URL : http://eprints.rclis.org/14805/