Digitising Cultural Complexity: Representing Rich Cultural Data in a Big Data environment

Authors : Jennifer Edmond, Georgina Nugent Folan

One of the major terminological forces driving ICT integration in research today is that of « big data. » While the phrase sounds inclusive and integrative, « big data » approaches are highly selective, excluding input that cannot be effectively structured, represented, or digitised.

Data of this complex sort is precisely the kind that human activity produces, but the technological imperative to enhance signal through the reduction of noise does not accommodate this richness.

Data and the computational approaches that facilitate “big data” have acquired a perceived objectivity that belies their curated, malleable, reactive, and performative nature. In an input environment where anything can “be data” once it is entered into the system as “data,” data cleaning and processing, together with the metadata and information architectures that structure and facilitate our cultural archives acquire a capacity to delimit what data are.

This engenders a process of simplification that has major implications for the potential for future innovation within research environments that depend on rich material yet are increasingly mediated by digital technologies.

This paper presents the preliminary findings of the European-funded KPLEX (Knowledge Complexity) project which investigates the delimiting effect digital mediation and datafication has on rich, complex cultural data.

The paper presents a systematic review of existing implicit definitions of data, elaborating on the implications of these definitions and highlighting the ways in which metadata and computational technologies can restrict the interpretative potential of data.

It sheds light on the gap between analogue or augmented digital practices and fully computational ones, and the strategies researchers have developed to deal with this gap.

The paper proposes a reconceptualisation of data as it is functionally employed within digitally-mediated research so as to incorporate and acknowledge the richness and complexity of our source materials.

URL : https://hal.archives-ouvertes.fr/hal-01629459

Potentiel scientifique et technique d’un laboratoire : Favoriser l’innovation, protéger les savoirs : un équilibre délicat

Auteur/Author : Jean-Pierre Damiano

Le potentiel scientifique et technique d’un laboratoire de recherche confère un caractère stratégique à la protection de son système d’information. Les atteintes peuvent tout aussi bien toucher ses données scientifiques ou technologiques que ses outils ou ses moyens scientifiques, techniques ou humains.

Le laboratoire vit souvent dans un environnement complexe par la diversité de ses tutelles et la diversification de ses ressources, tout en étant confronté à une compétition scientifique croissante. Face aux risques encourus, il convient d’identifier ce qui doit être protégé, de quantifier l’enjeu correspondant, de formuler des objectifs de sécurité et de mettre en œuvre les parades adaptées au niveau de sécurité retenu.

Un tel plan d’actions conduit à des règles. Pour qu’elles soient acceptées, elles ne doivent pas entraver la recherche, la compétitivité, les échanges et les coopérations nationales et internationales, la diffusion à travers les brevets, les publications et les congrès, etc. C’est un équilibre délicat à trouver et à maintenir.

URL : https://hal.archives-ouvertes.fr/hal-01633310

D’abord les données, ensuite la méthode ? Big data et déterminisme en sciences sociales

Auteurs/Authors : Jean-Christophe Plantin, Federica Russo

Si les chercheurs en sciences sociales ont depuis longtemps recours à de larges quantités de données, par exemple avec les enquêtes par questionnaire, le recours à des données numériques massives et hétérogènes, ou « big data », est de plus en plus fréquent.

À travers un abandon de la théorie pour la recherche de corrélations, cette multitude de données suscite-t-elle une nouvelle forme de déterminisme ?

L’histoire des sciences sociales indique au contraire que l’accroissement des données disponibles a entraîné un rejet progressif d’une hypothèse déterministe héritée des sciences de la nature, au profit d’une autonomisation méthodologique fondée sur la modélisation statistique.

Dans ce contexte, cet article montre que l’accent mis sur la taille des big data ne signifie pas tant un retour au déterminisme, mais est davantage révélateur du désajustement actuel entre les caractéristiques de ces données massives et les méthodes et infrastructures en sciences sociales.

URL : https://socio.revues.org/2328

Examining publishing practices: moving beyond the idea of predatory open access

Author : Kevin L. Smith

The word ‘predatory’ has become an obstacle to a serious discussion of publishing practices. Its use has been both overinclusive, encompassing practices that, while undesirable, are not malicious, and underinclusive, missing many exploitative practices outside the open access sphere.

The article examines different business models for scholarly publishing and considers the potential for abuse with each model. After looking at the problems of both blacklists and so-called ‘whitelists’, the author suggests that the best path forward would be to create tools to capture the real experience of individual authors as they navigate the publishing process with different publishers.

URL : Examining publishing practices: moving beyond the idea of predatory open access

DOI : http://doi.org/10.1629/uksg.388

La médiation de la vidéo en ligne gratuite en médiathèque de lecture publique

Auteur/Author : Émilie Delpech

À la fin des années 2000, les offres de vidéo à la demande intègrent progressivement les services numériques proposés par les bibliothèques de lecture publique. Toutefois, un certain nombre de limites se font rapidement sentir.

Les bouquets pré-établis par les fournisseurs empêchent notamment les professionnels des médiathèques de réellement sélectionner les contenus selon le projet de leur établissement. De plus, le peu de visibilité et d’ouverture des plateformes de vidéo à la demande rend difficile les actions de médiation sur ces ressources.

Ces contraintes interrogent aujourd’hui les bibliothécaires qui hésitent ainsi parfois à souscrire à une telle offre. Certains se tournent alors vers les vidéos gratuites et libres de diffusion qui abondent sur Internet : webdocumentaires, webséries, vidéos de vulgarisation scientifique ou culturelle, films d’étudiants en école de cinéma, créations de réalisateurs librement diffusées sur Internet…

Quelles pratiques professionnelles mettre en place pour ces ressources dont la pérennité relative empêche leur totale appropriation ? À partir d’entretiens de professionnels et d’une étude comparative de médiathèques de lecture publique, ce mémoire dégage les grandes caractéristiques de la vidéo en ligne gratuite et les nombreux enjeux qu’elle soulève.

URL : La médiation de la vidéo en ligne gratuite en médiathèque de lecture publique

Alternative location : https://memsic.ccsd.cnrs.fr/mem_01630400

Entre libre accès et open data : quelle ouverture des données pour l’information sur les collections muséales ?

Auteur/Author : Laure-Hélène Kerrio

La littérature actuelle concernant l’information scientifique sur les collections muséales révèle une hétérogénéité des types d’informations et de supports, ainsi qu’une nature juridique complexe et contraignante qui régit sa communication et sa diffusion. Ces éléments modèlent les missions des professionnels de l’information-documentation qui la gèrent.

La gestion de cette information s’intègre aujourd’hui dans le mouvement des Communs des savoirs et des voies qui en sont issues, le libre accès et l’open data. Dans ce contexte, les musées français semblent peu développer l’ouverture des données.

Une enquête réalisée auprès de sept professionnels exerçant dans les musées toulousains montre leur positionnement par rapport à cet enjeu. Plutôt favorables à l’ouverture des données, ces professionnels pointent les difficultés et limites de telles voies tout en exprimant les conséquences de leur mise en œuvre sur leur identité professionnelle.

URL : https://memsic.ccsd.cnrs.fr/mem_01616838v1

Versioned data: why it is needed and how it can be achieved (easily and cheaply)

Authors : Daniel S. Falster, Richard G. FitzJohn, Matthew W. Pennell, William K. Cornwell

The sharing and re-use of data has become a cornerstone of modern science. Multiple platforms now allow quick and easy data sharing. So far, however, data publishing models have not accommodated on-going scientific improvements in data: for many problems, datasets continue to grow with time — more records are added, errors fixed, and new data structures are created. In other words, datasets, like scientific knowledge, advance with time.

We therefore suggest that many datasets would be usefully published as a series of versions, with a simple naming system to allow users to perceive the type of change between versions. In this article, we argue for adopting the paradigm and processes for versioned data, analogous to software versioning.

We also introduce a system called Versioned Data Delivery and present tools for creating, archiving, and distributing versioned data easily, quickly, and cheaply. These new tools allow for individual research groups to shift from a static model of data curation to a dynamic and versioned model that more naturally matches the scientific process.

URL : Versioned data: why it is needed and how it can be achieved (easily and cheaply)

DOI : https://doi.org/10.7287/peerj.preprints.3401v1