Big data is not about size: when data transform scholarship

Authors : Jean-Christophe Plantin, Carl Lagoze, Paul N. Edwards, Christian Sandvig

“Big data” discussions typically focus on scale, i.e. the problems and potentials inherent in very large collections. Here, we argue that the most important consequences of “big data” for scholarship stem not from the increasing size of datasets, but instead from a loss of control over the sources of data.

The breakdown of the “control zone” due to the uncertain provenance of data has implications for data integrity, and can be disruptive to scholarship in multiple ways. A retrospective look at the introduction of larger datasets in weather forecasting and epidemiology shows that more data can at times be counter-productive, or destabilize already existing methods.

Based on these examples, we look at two implications of “big data” for scholarship: when the presence of large datasets transforms the traditional disciplinary structure of sciences, as well as the infrastructure for scholarly communication.

URL : https://books.openedition.org/editionsmsh/9103

Accelerating Science: A Computing Research Agenda

Authors : Vasant G. Honavar, Mark D. Hill, Katherine Yelick

The emergence of “big data” offers unprecedented opportunities for not only accelerating scientific advances but also enabling new modes of discovery. Scientific progress in many disciplines is increasingly enabled by our ability to examine natural phenomena through the computational lens, i.e., using algorithmic or information processing abstractions of the underlying processes; and our ability to acquire, share, integrate and analyze disparate types of data.

However, there is a huge gap between our ability to acquire, store, and process data and our ability to make effective use of the data to advance discovery. Despite successful automation of routine aspects of data management and analytics, most elements of the scientific process currently require considerable human expertise and effort.

Accelerating science to keep pace with the rate of data acquisition and data processing calls for the development of algorithmic or information processing abstractions, coupled with formal methods and tools for modeling and simulation of natural processes as well as major innovations in cognitive tools for scientists, i.e., computational tools that leverage and extend the reach of human intellect, and partner with humans on a broad range of tasks in scientific discovery (e.g., identifying, prioritizing formulating questions, designing, prioritizing and executing experiments designed to answer a chosen question, drawing inferences and evaluating the results, and formulating new questions, in a closed-loop fashion).

This calls for concerted research agenda aimed at: Development, analysis, integration, sharing, and simulation of algorithmic or information processing abstractions of natural processes, coupled with formal methods and tools for their analyses and simulation; Innovations in cognitive tools that augment and extend human intellect and partner with humans in all aspects of science.

URL : https://arxiv.org/abs/1604.02006

 

Après l’Internet : le Cloud, les big data et l’Internet des objets

Auteur/Author : Vincent Mosco

Le présent article identifie les traits caractéristiques  de la prochaine phase du développement d’Internet en mettant l’accent sur l’informatique en nuage (le cloud computing) les services d’analyse des données (big datas analytics) et l’Internet des objets.

Ensemble ils étendent les possibilités de centraliser le contrôle sur les données, d’approfondir la commercialisation de l’information et d’élargir la portée d’Internet de la connexion des individus à la formation basée sur les données de réseaux d’objets.

Ils soulèvent également d’importantes questions de politique sociale, parmi lesquelles la concentration du pouvoir dans une poignée de compagnies étroitement liées au monde du renseignement militaire; les conséquences environnementales de la construction, de la mise sous influence et de la connexion des populations à un réseau mondial de centres de données en nuage (cloud computing); les conséquences de la connexion de milliards d’objets sur la vie privée et la sécurité; et l’impact des dispositifs intelligents sur l’avenir du travail.

URL : https://lesenjeux.univ-grenoble-alpes.fr/2016-dossier/09-Mosco-Fr/index.html

Organisation des données, organisation du travail en bibliothèques universitaires à l’heure du Big Data

Auteur/Author : Luc Bellier

Les bibliothèques universitaires sont confrontées à la multiplication des silos de données dont la nature et la structure sont très éloignées de celles du catalogue bibliographique.

Organisées depuis de nombreuses années autour du catalogue et de la chaîne de traitement documentaire, les bibliothèques doivent apprendre à se structurer autour de ces nouvelles données. Ce travail étudie les conséquences organisationnelles, et métier qui peuvent s’observer dans un tel contexte.

URL : Organisation des données, organisation du travail en bibliothèques universitaires à l’heure du Big Data

Alternative location : http://www.enssib.fr/bibliotheque-numerique/notices/67453-organisation-des-donnees-organisation-du-travail-en-bibliotheques-universitaires-a-l-heure-du-big-data

Au-delà des big data : Les sciences sociales et la multiplication des données numériques

Auteurs/Authors : Étienne Ollion, Julien Boelaert

Dans le débat public comme dans le monde académique, l’enthousiasme pour les big data n’a eu d’égal que les critiques que ce phénomène a suscité. « Opportunité empirique inouïe » vs « données pauvres » ; « révolution méthodologique » vs « fascination pour le nombre » ; « révolution scientifique » vs « dégradation du savoir produit » : les positions sont tranchées.

À partir d’une lecture de ces débats et des travaux en sciences sociales souvent regroupés sous ce label, l’article soutient que cette situation polarisée a de fortes chances de perdurer tant que la discussion s’organise autour du concept mal défini de big data. Il propose de distinguer différents types de données souvent regroupées sous ce terme.

Il montre ce faisant que les big data souvent évoquées ne sont qu’un aspect limité d’une transformation bien plus importante : la disponibilité croissante et massive de données numériques, qui pose des questions nouvelles à nos disciplines.

Quatre aspects sont plus particulièrement explorés : les réorganisations disciplinaires, les transformations des méthodes quantitatives, l’accès et la gestion des données, les objets des sciences sociales et leur rapport à la théorie.

URL : https://sociologie.revues.org/2613

Big data challenges for the social sciences: from society and opinion to replications

Author : Dominique Boullier

Big Data dealing with the social produce predictive correlations for the benefit of brands and web platforms. Beyond “society” and “opinion” for which the text lays out a genealogy, appear the “traces” that must be theorized as “replications” by the social sciences in order to reap the benefits of the uncertain status of entities’ widespread traceability.

High frequency replications as a collective phenomenon did exist before the digital networks emergence but now they leave traces that can be computed. The third generation of Social Sciences currently emerging must assume the specific nature of the world of data created by digital networks, without reducing them to the categories of the sciences of “society” or “opinion”.

Examples from recent works on Twitter and other digital corpora show how the search for structural effects or market-style trade-offs are prevalent even though insights about propagation, virality and memetics could help build a new theoretical framework.

URL : http://arxiv.org/abs/1607.05034