Dealing with Big Data

Authors : Tobias Blanke, Andrew Prescott

This book chapter attempts to counter anxieties in the humanities and social science about the role of big data in research by focusing on approaches which, by being firmly grounded in the traditional values of disciplines, enhance existing methods to produce fruitful research.

Big data poses many methodological challenges, but these pressures should prompt scholars to pay much closer attention to methodological issues than they have in the past.

URL : http://arxiv.org/abs/1605.06354

Enjeux géopolitiques des données, asymétries déterminantes

Auteurs/Authors : Ghislaine Chartron, Evelyne Broudoux

Cette communication veut contribuer à une analyse critique du big data et de l’open data en convoquant le concept d’asymétrie pour une lecture géopolitique des données massives, dans la filiation de certains travaux antérieurs sur la géopolitique du Cyberespace.

La géopolitique des données (nous adoptons ici une définition extensive de la notion de « données ») est mise en perspective entre les enjeux de l’économie numérique et de l’apparente gratuité et les enjeux de la sécurité, des droits fondamentaux difficilement convergents.

La grille de lecture s’appuie sur l’analyse de plusieurs asymétries installant des déséquilibres mondiaux : l’asymétrie technologique conférant à quelques acteurs un pouvoir central en terme de capacité de stockage, de calculateurs et de savoir-faire pour le traitement informatique des données à l’échelle mondiale ; l’asymétrie de la collecte des données et notamment le pouvoir des plateformes d’intermédiation notamment les GAFA (Google, Apple, Facebook, Amazon) et les data brokers spécialisés dans chaque secteur ; l’asymétrie de cadres législatifs qui confère à certaines zones géographiques des avantages de développement économique au détriment de protections plus attentives à la vie privée et enfin une asymétrie entre les acteurs produisant des contenus et les nouveaux acteurs du numérique revendiquant une ouverture sans barrière de ces contenus à leurs algorithmes dans une vision d’innovations de services.

URL : http://archivesic.ccsd.cnrs.fr/sic_01304035

Big data et bibliothèques : traitement et analyse informatiques des collections numériques

Cette étude s’attache à présenter sous quels aspects les collections numériques des bibliothèques relèvent des problématiques propres aux données massives, et en quoi les techniques de fouille de données (text and data mining) représentent désormais une nécessité pour l’appropriation par les chercheurs des résultats de la littérature scientifique.

Ce travail, qui met au centre de son propos les techniques de fouille de données comme moyens de maîtriser la masse documentaire, identifie trois problématiques distinctes concernant les bibliothèques numériques et ces dispositifs de lecture algorithmiques : sont ainsi abordées successivement les démarches à mettre en oeuvre pour aider les chercheurs à faire usage de ces nouvelles méthodes de lecture, puis l’emploi de techniques de fouille de données sur les collections pour constituer de nouvelles formes d’instruments de recherche, et enfin l’usage de la fouille pour assister le traitement documentaire.

L’étude se conclut sur le détail des questions juridiques soulevées actuellement par la fouille de données, en rapport avec le droit de la propriété intellectuelle.

URL : Big data et bibliothèques : traitement et analyse informatiques des collections numériques

Alternative location : http://www.enssib.fr/bibliotheque-numerique/notices/66017-big-data-et-bibliotheques-traitement-et-analyse-informatiques-des-collections-numeriques

The Paradox of Privacy: Revisiting a Core Library Value in an Age of Big Data and Linked Data

Protecting user privacy and confidentiality is fundamental to the ethics and practice of librarianship, and such protection constitutes one of eleven values in the American Library Association’s “Core Values of Librarianship” (2004).

This paper addresses the concerns of protecting privacy in the library as they relate to library users who are defining, exploring, and negotiating their sexual identities with the help of the library’s information, programming, and physical facilities.

In so doing, we enlist the aid of Garret Keizer, who, in Privacy (2012), articulates a fresh theory of the concept in light of American social life in the twenty-first century. Using Keizer’s theory, we examine these concerns within the context of the rise of big data systems and social media on the one hand, and linked data and new cataloging standards on the other.

In so doing, we suggest that linked data technologies, with their ability to lead searchers through self-directed, open inquiry, are superior to big data technologies in the navigation of the paradox between openness and secrecy.

In this way they offer a greater potential to support the needs of queer library users: lesbian, gay, bisexual, transgendered, or questioning (LGBTQ).

URL : http://muse.jhu.edu/journals/library_trends/v064/64.3.campbell.html

Empirical Big Data Research: A Systematic Literature Mapping

Statut

Background

Big Data is a relatively new field of research and technology, and literature reports a wide variety of concepts labeled with Big Data. The maturity of a research field can be measured in the number of publications containing empirical results. In this paper we present the current status of empirical research in Big Data. Method: We employed a systematic mapping method with which we mapped the collected research according to the labels Variety, Volume and Velocity. In addition, we addressed the application areas of Big Data.

Results

We found that 151 of the assessed 1778 contributions contain a form of empirical result and can be mapped to one or more of the 3 V’s and 59 address an application area.

Conclusions

The share of publications containing empirical results is well below the average compared to computer science research as a whole. In order to mature the research on Big Data, we recommend applying empirical methods to strengthen the confidence in the reported results. Based on our trend analysis we consider Variety to be the most promising uncharted area in Big Data.

URL : Empirical Big Data Research: A Systematic Literature Mapping

Alternative location : http://arxiv.org/abs/1509.03045

Internet Research Ethics

Statut

“This anthology addresses ethical challenges that arise within the field of Internet research. Among the issues discussed in the book are the following:

  • When is voluntary informed consent from research subjects required in using the Internet as a data source?
  • How may researchers secure the privacy of research subjects in a landscape where the traditional public/private distinction is blurred and re-identification is a recurring threat?
  • What are the central ethical and legal aspects of Internet research for individuals, groups, and society?

The book is written in cooperation with The Norwegian National Research Ethics Committees. The Commitees are independent public agencies providing guidelines and addressing questions regarding research ethics in all subject fields.”

URL : https://microblogging.infodocs.eu/wp-content/uploads/2015/03/3-3-9-1-10-20150317.pdf

Alternative URL : http://press.nordicopenaccess.no/index.php/noasp/catalog/book/3

 

Faire parler les données des bibliothèques : du Big Data à la visualisation de données

Statut

“Cette étude se penche sur les enjeux de la réutilisation des données des bibliothèques à l’ère du Big Data. En ce qui concerne la production de connaissances sur le monde des bibliothèques et de l’information, les technologies d’analyse du Big Data, contrairement à ce que prétendent les discours qui peuvent parfois les accompagner, ne réduisent pas les biais et présupposés inhérents aux statistiques traditionnelles. Cependant, la visualisation de données, telle que revue et critiquée par les Humanités Numériques, pourrait permettre de prendre en compte d’une manière beaucoup plus centrale la nature fondamentalement politique des bibliothèques. Regardant le pilotage des établissements documentaires, certains auteurs appellent à fonder les décisions non sur les données et chiffres mais sur l’analyse de données. De fait, l’ouverture de la profession de bibliothécaire sur la science des données pourrait être un bon moyen de faire évoluer les méthodes d’évaluation et de pilotage. La visualisation est un moyen ludique d’apprendre l’analyse de donnée et permet de communiquer efficacement sur l’activité de l’établissement. En dernier lieu, les discours actuels accompagnant l’ère du numérique font l’apologie d’un accès individualisé et fragmenté à l’information qui permettrait de se passer des biais inhérents à toute classification universelle. Néanmoins, ces biais sont transposé dans les algorithmes de recherche de l’information. Dès lors, il devient nécessaire de penser un système de navigation qui exprime ce biais et le soumette davantage à une discussion : transformer un catalogue de bibliothèque en data game pourrait être une solution pour exprimer de manière ludique la métaphore sous-jacente à toute organisation des connaissances.”

URL : https://microblogging.infodocs.eu/wp-content/uploads/2015/02/lapotre2014.pdf

URL alternative : http://www.enssib.fr/bibliotheque-numerique/notices/65117-faire-parler-les-donnees-des-bibliotheques-du-big-data-a-la-visualisation-de-donnees