La « science des données » à la conquête des mondes sociaux : ce que le « Big Data » doit aux épistémologies locales
Qu’il s’agisse du marketing, de la santé, des médias, du sport ou même de l’industrie automobile, les mondes sociaux les plus variés en viennent à mobiliser aujourd’hui des algorithmes et des modèles statistiques qui leur sont en apparence éloignés. Ces dernières années, le phénomène du « Big Data » a à la fois rendu visible et contribué à étendre la mobilisation, par les mondes sociaux les plus divers, de technologies informatiques et statistiques pour traiter d’immenses volumes de données souvent hétérogènes. La remarque de Howard Aiken reste pourtant d’actualité. Comment expliquer que des technologies de calcul élaborées par des statisticiens et des informaticiens en viennent à « coïncider » avec les préoccupations de médecins, de marketers, d’industriels, de journalistes et même d’entraîneurs sportifs ? Sur quels fondements pratiques et cognitifs une telle conquête s’établit-elle ?
Face à une telle question, les promoteurs du Big Data soulignent d’abord que la plupart des organisations et des individus sont aujourd’hui confrontés à un ensemble de problèmes pratiques communs liés à la disponibilité de vastes ensembles de données souvent « sales », peu, voire non structurées, et provenant de sources hétérogènes. Mais plus profondément, expliquent-ils, les technologies actuelles permettraient surtout une rupture de nature épistémologique. Alors que chaque monde social est marqué par un ensemble de préjugés ou d’hypothèses jamais interrogées, les techniques du Big Data offriraient un retour à une forme de connaissance plus inductive (Anderson, 2008). Comme l’écrivent Mayer-Schönberger et Cukier,
[…] si le Big Data est susceptible d’offrir un nouveau regard et de nouvelles connaissances, c’est précisément parce qu’il n’est pas gêné par les conceptions traditionnelles ou les préjugés qui se cachent derrière les théories d’un domaine spécifique (Mayer-Schönberger et Cukier, 2013, p. 71).
L’attrait pour les perspectives analytiques de type big data résiderait donc surtout dans la forme de connaissance plus inductive que celles-ci porteraient – laquelle rendrait possible la conception de produits ou de services valorisables économiquement.
5Les chercheurs en sciences sociales ont accueilli ces arguments avec un intérêt teinté d’un certain scepticisme. Le Big Data, ont-ils avancé, doit être étudié comme un phénomène technologique et culturel (Boyd et Crawford, 2012), mais cela fait bien longtemps que l’on fait face à des données massives et hétérogènes (Strasser, 2012 ; Grier, 2005). En outre, ils ont remis en cause l’argument selon lequel le Big Data marquerait une rupture épistémologique. Pointant la résurgence de discours emprunts d’une approche inductive naïve, ils ont rappelé que les données sont toujours des constructions à la fois sociales et politiques (Gitelman et al., 2013), et que des traditions scientifiques bien établies visaient déjà à accumuler un grand nombre d’éléments empiriques sans formuler d’hypothèses de départ (Strasser, 2012). Quoique pertinentes, ces critiques échouent pourtant à rendre compte de l’extension du phénomène. La question reste donc entière : la mobilisation de ces technologies de traitement de données dans une diversité de mondes sociaux s’explique-t-elle par la séduction d’un modèle de connaissance plus inductif ? L’extension des big data correspond-elle à une remise en cause des épistémologies spécifiques à chaque monde social et à ses segments professionnels (Strauss, 1992) ?
Considéré depuis la sociologie des sciences et des techniques, l’argument selon lequel les technologies des big data seraient porteuses d’une remise en cause des épistémologies locales est plutôt contre-intuitif – si on entend par « épistémologies locales » des façons de connaître imbriquées dans des mondes sociaux (Knorr-Cetina, 1999). Plusieurs théories ont mis l’accent sur la plasticité des objets technologiques et scientifiques, laquelle rendrait possible une pluralité d’interprétations à l’intérieur des mondes sociaux qui s’en emparent (Star et Griesemer, 1989). Analysant la mise au point de la bombe nucléaire dans l’Amérique des années 1940, l’historien Peter Galison a ainsi montré de quelle manière les méthodes statistiques de Monte Carlo ont été au cœur de la collaboration entre des mondes scientifiques et industriels qui les interprétaient chacun d’une façon particulière (Galison, 1996).
Pour être en mesure de trancher cette question, il est impératif, croyons-nous, de déplacer notre regard. Mettons de côté le terme big data, auquel les professionnels n’ont souvent recours que pour chercher à convaincre des clients ou sensibiliser le public aux enjeux économiques, industriels et politiques du traitement de données. Concentrons-nous plutôt sur une expression qui est à la fois davantage utilisée par les praticiens et qui renvoie à des savoirs et à des technologies beaucoup plus situés : la « science des données » ou data science. Apparue au tout début des années 2000, cette expression désigne un ensemble de pratiques, de savoirs et de technologies situées au croisement des mondes de l’informatique et des statistiques. Elle s’applique aussi plus récemment à un métier – celui de data scientist – aujourd’hui reconnu par plusieurs institutions du marché du travail aux États-Unis comme en Europe3. Embauché par les entreprises du Web et les organisations les plus diverses, ce praticien est chargé de concevoir des data products, c’est-à-dire des services ou des produits élaborées à partir d’importants volumes de données souvent peu structurées.
Une fois ce déplacement opéré, nous verrons qu’il est plus facile de décrire et d’expliquer l’extension de ces savoirs et technologies à des mondes sociaux variés. Là où, bien souvent, les chercheurs critiquent la prétention des big data à s’appliquer à des mondes sociaux très différents les uns des autres, nous verrons au contraire que leur capacité de diffusion procède bien plutôt de leur relative ouverture aux épistémologies propres aux différents mondes sociaux concernés.
L’enquête s’appuie ici sur trois types de matériaux. En premier lieu, nous avons analysé la littérature académique dans le domaine des statistiques et de l’informatique depuis le début des années 1960. Nous avons ainsi pu reconstituer l’émergence progressive d’un domaine associé à la « science des données ». En deuxième lieu, nous avons étudié une partie des éléments logiciels constitués dans le cadre du projet open source R – qui constitue une référence majeure pour les praticiens des data sciences. Enfin, nous avons conduit une enquête par entretiens auprès d’une dizaine de data scientists nord-américains engagés dans les mondes du journalisme d’une part, du corps, de la santé et du bien-être d’autre part.
Notre propos s’organise de la façon suivante. Dans une première partie, nous montrons que la « science des données » résulte de la revalorisation d’une tradition longtemps minoritaire dans le monde des statistiques. Cette revalorisation découle d’une fragilisation professionnelle des statisticiens face à l’essor des pratiques d’analyse de données rendues possibles par les développements de l’informatique depuis les années 1960. Dans une deuxième partie, nous analysons les principaux traits de la science des données depuis le début des années 2000 et leur diffusion au sein d’une pluralité de mondes sociaux. Enfin, nous consacrons la troisième partie à l’analyse de la réception de cette « science des données » et de sa mise à l’épreuve conjointe dans deux mondes particuliers – le monde du journalisme et celui du corps, de la santé et du bien-être.
Lire la suite sur : https://books.openedition.org/cdf/4999
Crédit photo : CompTIA
AIP