Data Cartels / Sarah Lamdan

La lecture de Data cartels de Sarah Lamdan m’a suffisamment marquée pour que je rouvre ce blog qui n’avait pas servi depuis bientôt deux ans.

« Si tout ce que vous avez est un marteau, tout ressemble à un clou. Si tout ce que vous avez est une donnée, chaque problème semble pouvoir être résolu grâce à l’analyse des données. »

Lamdan, S. (2022). Data Cartels : The Companies That Control and Monopolize Our Information. Stanford University Press.

L’ouvrage de Sarah Lamdan porte sur les courtiers en données, entreprises qui agrègent de très nombreuses sources de données pour les revendre via des logiciels proposant des insights et des analyses. Quel que soit le secteur dans lequel ces entreprises opèrent, leur modèle économique repose sur la captation des droits des producteurs des données, l’aspiration des données personnelles et la création de « jardins clos » (« walled gardens ») pour assurer la vente d’analyse du contenu et d’analyses prédictives. On observe au fil des ans une baisse de la qualité du contenu au fur et à mesure que la collecte des données se fait toujours plus massive. Les sources de données et les algorithmes utilisés par ces entreprises sont des boîtes noires à propos desquelles il ne semble pas possible d’obtenir des informations. Données et algorithmes reproduisent des biais malheureusement bien connus en matière de discriminations et d’inégalités. Sarah Lamdan déplore que les courtiers en données, dont Relx et Thomson Reuters sont dans ce livre les principaux exemples, soient des entreprises complètement méconnues du grand public.

Quelques précisions, le livre porte entièrement sur la situation aux États-Unis, c’est un point à garder à l’esprit, notamment sur les sujets liés aux données personnelles, car les différences sont grandes avec leur traitement en Europe au regard du RGPD. Les titres des parties de ce billet correspondent aux titres des chapitres du livre, que j’ai traduits. La plupart des références citées sont issues du livre lui-même.

Préface

Avant d’être professeur de droit, Sarah Lamdan était bibliothécaire. Son intérêt pour Relx et Thomson Reuters date de 2017 quand elle découvre que ces deux entreprises ont pour client ICE (Immigration and Customs Enforcement), la police de l’immigration américaine. Vous aviez d’ailleurs peut-être déjà lu son article de 2019 sur In the library with the lead pipe, « Librarianship at the crossroads of ICE surveillance », sur le sujet. Elle explique que c’est à cette époque qu’elle a commencé à se préoccuper de la situation : est-ce qu’elle enseignait à de futurs avocats spécialisés dans l’immigration à utiliser des produits qui aideraient ensuite ICE à arrêter leurs clients ?

Lorsqu’elle commence à interroger les entreprises à ce sujet et à écrire sur des blogs d’associations de bibliothécaires, les ennuis commencent. Ces entreprises qui, aux États-Unis, assurent elles-mêmes les formations des étudiants à leurs produits en leur offrant des collations, ont demandé à ceux-ci si elle évoquait en cours leurs liens avec ICE. Un article qu’elle avait été écrit a été retiré d’un site d’association par crainte de poursuites. C’est l’évolution extrêmement rapide du modèle économique de ces sociétés, d’éditeurs à courtiers en données, qui l’a amenée à travailler sur le sujet. En tant qu’ancienne bibliothécaire attachée à la vie privée, elle s’est aussi interrogée sur l’impossibilité de protéger ses données personnelles lorsqu’on utilise ces outils.

Les cartels de données : une vue d’ensemble

Dans ce livre, il faut entendre « data cartels » dans le sens économique, à savoir des entreprises qui contrôlent un marché par une sorte d’« alliance des rivaux », ce qui nuit aux consommateurs. En Europe, nous avions eu deux exemples avec le cartel du jambon et le cartel de la compote ; en Amérique du Nord, le cartel du sirop d’érable est dans tous les esprits1. Dans le cas qui nous occupe ici, cela aboutit à un duopole qui contrôle le marché du courtage en données. Ces entreprises dominent désormais un secteur qui comprend des réservoirs immenses d’informations sur la recherche, la finance, les informations, le droit et les données personnelles. Elles n’ont pas produit les données qu’elles revendent, puisqu’une partie d’entre elles ont été créées par d’autres, parfois gratuitement. Leur modèle économique consiste à les aspirer ou les acheter pour les agréger et les revendre. Désormais, Relx et Thomson Reuters sont des entreprises milliardaires dont les marges dépassent celles de la big-tech.

Ces entreprises fonctionnent comme des jardins clos, ce qui ne fait qu’accroître la désinformation, selon l’autrice. La vérité est sous paywall, mais que les fake news sont gratuites. À cet égard, je trouve que cet ouvrage est une sorte de pendant à Toxic Data de David Chavalarias qui traite des données des réseaux sociaux et des manipulations de l’information.

L’accumulation compulsive par les courtiers en données pose également problème. Tout bon bibliothécaire sait bien qu’une collection foutraque et non désherbée baisse en qualité, c’est également ce qui se passe avec les produits vendus par Relx et Thomson Reuters. Sarah Lamdan cite plusieurs exemples, dont celui d’un locataire qui s’est vu refuser un appartement parce que le bailleur utilisait le logiciel d’une des sociétés et que la requête sur son nom renvoyait à un homonyme au casier chargé. Parmi les clients de ces géants aux États-Unis, on trouve de très nombreux services publics, que ce soit au niveau fédéral ou dans les différents états, des compagnies d’assurance, des propriétaires et la police. Dans un pays où une protection comme celle du RGPD n’existe pas, Sarah Lamdan attribue cette situation à une indéfectible croyance dans le capitalisme où tout s’achète et tout se vend.

Les données agrégées étant le reflet des systèmes et des personnes qui les ont produites, elles génèrent des analyses où les inégalités et les discriminations se reproduisent à l’infini.

Le courtage des données

En 2021, Cash Investigation avait fait une émission « Nos données personnelles valent de l’or ». Si vous l’avez vue, vous aurez un goût de déjà vu en lisant ce chapitre2.

Relx et Thomson Reuters sont spécialisées dans le courtage institutionnel des données, vendant des données aux gouvernements ou aux entreprises de services, comme les assurances. Leurs systèmes d’analyse des données s’appuient sur des logiciels créés par des personnes comme Hank Asher, surnommé le « père de la fusion des données »3, dont l’entreprise a été rachetée par Relx4. La surveillance des citoyens aux États-Unis étant devenue particulièrement renforcée après 2001, même des services comme la poste traquent les réseaux sociaux pour identifier de potentielles menaces sur ses employés ou ses infrastructures.

Le problème est qu’une donnée non contextualisée peut donner lieu à une fausse analyse. Sarah Lamdan prend l’exemple de Steven Rich, qui a rapporté sur Twitter avoir reçu une alerte de son GPS lui disant que son freinage brutal pouvait lui faire perdre le contrôle de son véhicule5. Si les données du GPS avaient été transmises à son assurance, il est fort probable qu’il aurait perdu son bonus de conducteur prudent. Problème, le GPS ne pouvait pas savoir que le brusque coup de frein était dû au fait qu’une voiture devant avait fait un écart dangereux… « Sans contexte, la donnée n’est pas juste incorrecte, mais dangereuse. »

Aux États-Unis, ces sociétés aspirent des données des réseaux sociaux, des données des citoyens vendues par certains états, des données bancaires ou de santé qui leur sont vendues et les croisent pour établir des dossiers sur des millions de personnes. Quand bien même vous quittez les réseaux sociaux, vous n’échappez pas à leur surveillance. Chez Relx, il existe un LexID6, un identifiant maison pour les personnes présentes dans leur base. Comme les courtiers en données n’ont pas créé les données, il n’existe pratiquement aucune chance pour les personnes qui sont victimes d’une erreur de faire rectifier les informations, elles sont systématiquement renvoyées vers les producteurs de données eux-mêmes.

Ces dossiers créent un autre biais. Les personnes pauvres sont par exemple celles qui ont le plus recours aux services sociaux. Les traces dans leurs dossiers les désavantageront pour souscrire une assurance privée par exemple. Le fonctionnement nocif est le même pour les hommes noirs, qui se font beaucoup contrôler par la police. Ils seront discriminés d’emblée pour trouver un travail ou se loger sur la foi de ces informations non contextualisées. Certains états tentent de poser des garde-fous aux courtiers en données, mais ils sont encore peu nombreux.

Sarah Lamdan explique aussi que les accès à de telles bases nominatives par les services publics, les universités, la police et les entreprises donnent lieu à de nombreux mésusages. Et de donner comme exemple ses propres étudiants découvrant ces outils et vérifiant leurs propres dossiers, avant de stalker très rapidement ceux de leurs camarades.

Recherche scientifique

Le chapitre consacré à l’édition académique est sans doute celui qui offrira le moins de surprises pour qui connaît la documentation universitaire. De façon classique, il rappelle que le travail fourni par les auteurs et les reviewers est entièrement gratuit et que les éditeurs privatisent une ressource financée par des fonds publics. Une étude estime qu’en 2020, les reviewers ont produit plus de cent millions d’heures de travail gratuites pour les revues académiques7. L’autrice déplore aussi que les jardins clos créés par les éditeurs nuisent à la recherche des pays qui n’ont pas les moyens de souscrire ces types d’abonnements et elle rappelle que les droits des auteurs sont entièrement captés par les éditeurs, qui grignotent peu à peu le fair use.

Il y a des pages surprenantes dans cette partie sur l’impossibilité de conserver un article comme on pouvait le faire avec des photocopies. J’avoue que je connais mal les conditions appliquées par les éditeurs pour l’accès à leurs bases à l’étranger pour savoir s’il leur est impossible de télécharger un pdf.

Sarah Lamdan fait un parallèle entre la course aux métriques et le développement des collectes massives de données personnelles. Traçant les données des lecteurs aussi bien que des auteurs (rappel, on parle ici de la situation américaine où les données nominatives remontent aux éditeurs), les entreprises se sont mises à imaginer des produits qui proposent des analyses utilisées par les bailleurs de fonds et les administrations universitaires pour savoir qui titulariser ou qui financer. L’étude de la German Research Foundation est mentionnée8 et l’autrice déplore que ces entreprises basculent de l’acquisition de la connaissance à un programme de surveillance. La course aux métriques a également donné lieu à de la manipulation, comme le montre le cas d’un éditeur qui, en 2009, payait des reviews positives pour augmenter ses ventes9

Ce chapitre traite aussi des clauses de non-divulgation et de confidentialité imposées aux bibliothèques américaines, empêchant les différents établissements de se comparer pour connaître les tarifs qui leur sont facturés. Les bibliothécaires américains bataillent contre cette situation, mais leurs moyens sont dérisoires.

Sarah Lamdan déplore enfin que ces entreprises aient investi la totalité des services liés à la recherche, des services de financement aux bibliothèques, en passant par les données personnelles. Ainsi que le déplore un bibliothécaire, « there is no individual or organization within any university that I am aware of that is responsible for the full suite of research workflow services »10.

Le coût des archives ouvertes est également traité. Le maintien d’arXiv par l’université Cornell est par exemple de deux millions de dollars par an. Le chapitre se referme sur le piratage massif des articles, vu par des activistes comme Aaron Swartz ou Alexandra Elbakyan comme une réponse à cette privatisation de la connaissance.

Information juridique

Aux États-Unis, Relx et Thomson Reuters dominent également le marché du droit avec deux produits, Lexis pour le premier et Westlaw pour le second. Comme les plateformes publiques dédiées au droit pèchent par leurs mises à jour tardives, ces entreprises sont devenues indispensables à toutes les personnes qui ont besoin d’accéder aux textes. Sans infrastructure adaptée, tous les services publics restent dépendants des outils de Relx et de Thomson Reuters.

Outre la loi, les logiciels vendus agrègent les données des procès, le comportement des juges et des avocats, autant d’éléments censés assurer l’analyse. Là encore, le comportement des lecteurs est tracé et récupéré.

Sarah Lamdan rappelle que les données que nous produisons et les requêtes que nous faisons ne sont pas neutres. Les données sales (« dirty data »), qui reflètent les discriminations issues d’affaires précédentes, ne sont pas corrigées dans les résultats de recherche, favorisant de fait celles et ceux des justiciables qui le sont déjà. L’analyse des données par ces outils reproduit les inégalités.

Information financière

Le chapitre sur la finance est moins strictement consacré à Relx et Thomson Reuters. Il mentionne aussi des entreprises comme Bloomberg par exemple.

Les informations financières dont certaines devraient être publiques, même aux États-Unis, sont là encore accessibles sur abonnement. Les entreprises proposent des outils d’analyses des tendances inaccessibles au grand public. Les inégalités entre celles et ceux qui ont accès à ces informations et les autres, dont les connaissances économiques sont déjà plus fragiles, sont criantes. De nombreux particuliers ont ainsi perdu leurs économies investies dans des actions d’entreprises en faillite à la suite d’informations trompeuses diffusées sur Reddit11.

Dans un pays où tout est coté en bourse, la santé, les retraites, il est crucial pour les plus fragiles de ne pouvoir avoir accès aux informations financières. Pire, les courtiers en données peuvent également espionner les banques, via leurs activités sur leurs logiciels d’analyse.

De manière assez ironique, c’est le seul chapitre où la mauvaise qualité des données n’est pas abordée et où l’emploi massif d’analystes est mentionné. Où l’on se dit que la qualité des données semble possible quand on décide qu’elle a vraiment de l’importance…

Actualités

Le dernier chapitre porte sur les activités de presse, qui sont désormais concentrées entre quelques acteurs. Alors que les journaux, la radio et la télévision avaient été protégés en raison de leur intérêt général pour le public au 20e siècle, l’administration Clinton a affaibli ces garanties à partir de 1996. L’objectif à l’époque était de supprimer les limites pour les entreprises du web de façon à ce que leurs nouveaux médias se consolident. Les entreprises se sont développées, puis concentrées.

Les radios publiques, de même que les médias d’éducation, ne sont pratiquement plus subventionnées. Cela répond aussi à la réticence d’une partie de l’opinion américaine à financer des médias.

Radios et journaux locaux ont fermé en nombre. Il n’est pas rare que les radios locales qui perdurent soient possédées par de grands groupes qui ont automatisé les programmes avec un bulletin d’informations standardisé. Cette situation a été particulièrement dramatique en janvier 2022 quand un train transportant des matières toxiques a déraillé. Les radios locales ayant été vendues à un grand groupe, le personnel a été drastiquement réduit. La police n’a pas été en mesure de joindre des journalistes dans les stations pendant des heures et les radios ont continué à diffuser des informations standardisées sans alerter de la situation, créant un chaos sans nom12.

Sarah Lamdan attribue également le développement des fake news à la concentration des médias. De plus en plus de communautés créent des groupes d’information sur les réseaux sociaux pour faire connaître les nouvelles de leur lieu de résidence. Les rumeurs s’y propagent malheureusement souvent. L’autrice cite Ethan Zuckerman qui estime qu’une taxe d’un pour cent sur la publicité ciblée permettrait de dégager entre un et deux milliards de dollars par an pour financer des médias de service public13.

Conclusion

Sarah Lamdan plaide pour que l’information dans son ensemble soit considérée comme un bien public de façon à sortir de la situation actuelle. Elle souhaiterait la création d’infrastructures publiques pour les données d’intérêt général qui devraient être accessibles à tous. Elle insiste sur le fait que les courtiers en données devraient être considérés comme des entreprises d’intérêt public, ce qui correspond au statut qu’ont déjà les compagnies d’électricité et d’eau aux États-Unis. Une régulation serait enfin nécessaire pour arrêter le siphonnage massif des données personnelles. L’autrice formule le vœu que nous puissions un jour tous nager dans l’océan de la connaissance.

———

  1. J’ai toujours rêvé de placer le cartel de la compote dans un billet de blog, j’avoue. ↩︎
  2. Le replay n’étant plus disponible, voici un article résumant l’émission : Legrand, D. (2021). Cash Investigation s’intéresse à l’exploitation des données personnelles. NextInpact. https://www.nextinpact.com/article/45662/cash-investigation-sinteresse-a-exploitation-donnees-personnelles ↩︎
  3. Sur Hank Asher et le LexID : Funk, M. (2023). The Man Who Trapped Us in Databases. The New York Times. https://www.nytimes.com/2023/09/22/magazine/hank-asher-data.html ↩︎
  4. Reed Elsevier’s LexisNexis Acquires Seisint for $775 Million (2004). Spectrum Equity https://www.spectrumequity.com/news/reed-elseviers-lexisnexis-acquires-seisint-for-775-million ↩︎
  5. Rich S. (2020), “Here’s a brief thread on decontextualized data and why it’s bad, through the lens of the data collected by my car insurance company for the purpose of determining a discount based on how I drive,” Twitter, https://twitter.com/dataeditor/status/1342877187251310592 ↩︎
  6. Cf. note 3 ↩︎
  7. Aczel, B., Szaszi, B., & Holcombe, A. O. (2020). A Billion-Dollar Donation : Estimating the Cost of Researchers’ Time Spent on Peer Review. MetaArXiv. https://doi.org/10.31222/osf.io/5h9z4 ↩︎
  8. DFG-Committee On Scientific Library Services And Information Systems. (2021). Data tracking in research : Aggregation and use or sale of usage data by academic publishers. A briefing paper of the Committee on Scientific Library Services and Information Systems of the Deutsche Forschungsgemeinschaft. Zenodo. https://doi.org/10.5281/ZENODO.5937995 ↩︎
  9. Rohrer, F. (2009). The Perils of Five-Star Reviews, BBC News Magazine. http://news.bbc.co.uk/2/hi/uk_news/magazine/8118577.stm ↩︎
  10. Schonfeld, R. C. (2018). Big Deal : Should Universities Outsource More Core Research Infrastructure? Ithaka S+R. https://sr.ithaka.org/publications/big-deal-research-infrastructure/ ↩︎
  11. Brown, A. (2021). Reddit Traders Have Lost Millions Over GameStop: But Many Are Refusing To Quit. Forbes. https://www.forbes.com/sites/abrambrown/2021/02/04/reddit-traders-have-lost-millions-over-gamestop-but-many-are-refusing-to-quit/ ↩︎
  12. Shafer, J. (2007). What Really Happened in Minot, N.D.? Slate. https://slate.com/news-and-politics/2007/01/the-whole-story-about-that-toxic-spill-and-the-clear-channel-monopoly.html ↩︎
  13. Zuckerman, E. (2020). The Case for Digital Public Infrastructure. Knight First Amendment Institute at Columbia University. http://knightcolumbia.org/content/the-case-for-digital-public-infrastructure ↩︎