Bibliothéconomie & Cie. - Dir. publ. et réd. en chef Cécile Arènes. - Paris : [s. n.], 2006 - ... .

Auteur/autrice : Cécile Arènes (Page 1 of 42)

Data Cartels / Sarah Lamdan

La lecture de Data cartels de Sarah Lamdan m’a suffisamment marquée pour que je rouvre ce blog qui n’avait pas servi depuis bientôt deux ans.

« Si tout ce que vous avez est un marteau, tout ressemble à un clou. Si tout ce que vous avez est une donnée, chaque problème semble pouvoir être résolu grâce à l’analyse des données. »

Lamdan, S. (2022). Data Cartels : The Companies That Control and Monopolize Our Information. Stanford University Press.

L’ouvrage de Sarah Lamdan porte sur les courtiers en données, entreprises qui agrègent de très nombreuses sources de données pour les revendre via des logiciels proposant des insights et des analyses. Quel que soit le secteur dans lequel ces entreprises opèrent, leur modèle économique repose sur la captation des droits des producteurs des données, l’aspiration des données personnelles et la création de « jardins clos » (« walled gardens ») pour assurer la vente d’analyse du contenu et d’analyses prédictives. On observe au fil des ans une baisse de la qualité du contenu au fur et à mesure que la collecte des données se fait toujours plus massive. Les sources de données et les algorithmes utilisés par ces entreprises sont des boîtes noires à propos desquelles il ne semble pas possible d’obtenir des informations. Données et algorithmes reproduisent des biais malheureusement bien connus en matière de discriminations et d’inégalités. Sarah Lamdan déplore que les courtiers en données, dont Relx et Thomson Reuters sont dans ce livre les principaux exemples, soient des entreprises complètement méconnues du grand public.

Quelques précisions, le livre porte entièrement sur la situation aux États-Unis, c’est un point à garder à l’esprit, notamment sur les sujets liés aux données personnelles, car les différences sont grandes avec leur traitement en Europe au regard du RGPD. Les titres des parties de ce billet correspondent aux titres des chapitres du livre, que j’ai traduits. La plupart des références citées sont issues du livre lui-même.

Préface

Avant d’être professeur de droit, Sarah Lamdan était bibliothécaire. Son intérêt pour Relx et Thomson Reuters date de 2017 quand elle découvre que ces deux entreprises ont pour client ICE (Immigration and Customs Enforcement), la police de l’immigration américaine. Vous aviez d’ailleurs peut-être déjà lu son article de 2019 sur In the library with the lead pipe, « Librarianship at the crossroads of ICE surveillance », sur le sujet. Elle explique que c’est à cette époque qu’elle a commencé à se préoccuper de la situation : est-ce qu’elle enseignait à de futurs avocats spécialisés dans l’immigration à utiliser des produits qui aideraient ensuite ICE à arrêter leurs clients ?

Lorsqu’elle commence à interroger les entreprises à ce sujet et à écrire sur des blogs d’associations de bibliothécaires, les ennuis commencent. Ces entreprises qui, aux États-Unis, assurent elles-mêmes les formations des étudiants à leurs produits en leur offrant des collations, ont demandé à ceux-ci si elle évoquait en cours leurs liens avec ICE. Un article qu’elle avait été écrit a été retiré d’un site d’association par crainte de poursuites. C’est l’évolution extrêmement rapide du modèle économique de ces sociétés, d’éditeurs à courtiers en données, qui l’a amenée à travailler sur le sujet. En tant qu’ancienne bibliothécaire attachée à la vie privée, elle s’est aussi interrogée sur l’impossibilité de protéger ses données personnelles lorsqu’on utilise ces outils.

Les cartels de données : une vue d’ensemble

Dans ce livre, il faut entendre « data cartels » dans le sens économique, à savoir des entreprises qui contrôlent un marché par une sorte d’« alliance des rivaux », ce qui nuit aux consommateurs. En Europe, nous avions eu deux exemples avec le cartel du jambon et le cartel de la compote ; en Amérique du Nord, le cartel du sirop d’érable est dans tous les esprits1. Dans le cas qui nous occupe ici, cela aboutit à un duopole qui contrôle le marché du courtage en données. Ces entreprises dominent désormais un secteur qui comprend des réservoirs immenses d’informations sur la recherche, la finance, les informations, le droit et les données personnelles. Elles n’ont pas produit les données qu’elles revendent, puisqu’une partie d’entre elles ont été créées par d’autres, parfois gratuitement. Leur modèle économique consiste à les aspirer ou les acheter pour les agréger et les revendre. Désormais, Relx et Thomson Reuters sont des entreprises milliardaires dont les marges dépassent celles de la big-tech.

Ces entreprises fonctionnent comme des jardins clos, ce qui ne fait qu’accroître la désinformation, selon l’autrice. La vérité est sous paywall, mais que les fake news sont gratuites. À cet égard, je trouve que cet ouvrage est une sorte de pendant à Toxic Data de David Chavalarias qui traite des données des réseaux sociaux et des manipulations de l’information.

L’accumulation compulsive par les courtiers en données pose également problème. Tout bon bibliothécaire sait bien qu’une collection foutraque et non désherbée baisse en qualité, c’est également ce qui se passe avec les produits vendus par Relx et Thomson Reuters. Sarah Lamdan cite plusieurs exemples, dont celui d’un locataire qui s’est vu refuser un appartement parce que le bailleur utilisait le logiciel d’une des sociétés et que la requête sur son nom renvoyait à un homonyme au casier chargé. Parmi les clients de ces géants aux États-Unis, on trouve de très nombreux services publics, que ce soit au niveau fédéral ou dans les différents états, des compagnies d’assurance, des propriétaires et la police. Dans un pays où une protection comme celle du RGPD n’existe pas, Sarah Lamdan attribue cette situation à une indéfectible croyance dans le capitalisme où tout s’achète et tout se vend.

Les données agrégées étant le reflet des systèmes et des personnes qui les ont produites, elles génèrent des analyses où les inégalités et les discriminations se reproduisent à l’infini.

Le courtage des données

En 2021, Cash Investigation avait fait une émission « Nos données personnelles valent de l’or ». Si vous l’avez vue, vous aurez un goût de déjà vu en lisant ce chapitre2.

Relx et Thomson Reuters sont spécialisées dans le courtage institutionnel des données, vendant des données aux gouvernements ou aux entreprises de services, comme les assurances. Leurs systèmes d’analyse des données s’appuient sur des logiciels créés par des personnes comme Hank Asher, surnommé le « père de la fusion des données »3, dont l’entreprise a été rachetée par Relx4. La surveillance des citoyens aux États-Unis étant devenue particulièrement renforcée après 2001, même des services comme la poste traquent les réseaux sociaux pour identifier de potentielles menaces sur ses employés ou ses infrastructures.

Le problème est qu’une donnée non contextualisée peut donner lieu à une fausse analyse. Sarah Lamdan prend l’exemple de Steven Rich, qui a rapporté sur Twitter avoir reçu une alerte de son GPS lui disant que son freinage brutal pouvait lui faire perdre le contrôle de son véhicule5. Si les données du GPS avaient été transmises à son assurance, il est fort probable qu’il aurait perdu son bonus de conducteur prudent. Problème, le GPS ne pouvait pas savoir que le brusque coup de frein était dû au fait qu’une voiture devant avait fait un écart dangereux… « Sans contexte, la donnée n’est pas juste incorrecte, mais dangereuse. »

Aux États-Unis, ces sociétés aspirent des données des réseaux sociaux, des données des citoyens vendues par certains états, des données bancaires ou de santé qui leur sont vendues et les croisent pour établir des dossiers sur des millions de personnes. Quand bien même vous quittez les réseaux sociaux, vous n’échappez pas à leur surveillance. Chez Relx, il existe un LexID6, un identifiant maison pour les personnes présentes dans leur base. Comme les courtiers en données n’ont pas créé les données, il n’existe pratiquement aucune chance pour les personnes qui sont victimes d’une erreur de faire rectifier les informations, elles sont systématiquement renvoyées vers les producteurs de données eux-mêmes.

Ces dossiers créent un autre biais. Les personnes pauvres sont par exemple celles qui ont le plus recours aux services sociaux. Les traces dans leurs dossiers les désavantageront pour souscrire une assurance privée par exemple. Le fonctionnement nocif est le même pour les hommes noirs, qui se font beaucoup contrôler par la police. Ils seront discriminés d’emblée pour trouver un travail ou se loger sur la foi de ces informations non contextualisées. Certains états tentent de poser des garde-fous aux courtiers en données, mais ils sont encore peu nombreux.

Sarah Lamdan explique aussi que les accès à de telles bases nominatives par les services publics, les universités, la police et les entreprises donnent lieu à de nombreux mésusages. Et de donner comme exemple ses propres étudiants découvrant ces outils et vérifiant leurs propres dossiers, avant de stalker très rapidement ceux de leurs camarades.

Recherche scientifique

Le chapitre consacré à l’édition académique est sans doute celui qui offrira le moins de surprises pour qui connaît la documentation universitaire. De façon classique, il rappelle que le travail fourni par les auteurs et les reviewers est entièrement gratuit et que les éditeurs privatisent une ressource financée par des fonds publics. Une étude estime qu’en 2020, les reviewers ont produit plus de cent millions d’heures de travail gratuites pour les revues académiques7. L’autrice déplore aussi que les jardins clos créés par les éditeurs nuisent à la recherche des pays qui n’ont pas les moyens de souscrire ces types d’abonnements et elle rappelle que les droits des auteurs sont entièrement captés par les éditeurs, qui grignotent peu à peu le fair use.

Il y a des pages surprenantes dans cette partie sur l’impossibilité de conserver un article comme on pouvait le faire avec des photocopies. J’avoue que je connais mal les conditions appliquées par les éditeurs pour l’accès à leurs bases à l’étranger pour savoir s’il leur est impossible de télécharger un pdf.

Sarah Lamdan fait un parallèle entre la course aux métriques et le développement des collectes massives de données personnelles. Traçant les données des lecteurs aussi bien que des auteurs (rappel, on parle ici de la situation américaine où les données nominatives remontent aux éditeurs), les entreprises se sont mises à imaginer des produits qui proposent des analyses utilisées par les bailleurs de fonds et les administrations universitaires pour savoir qui titulariser ou qui financer. L’étude de la German Research Foundation est mentionnée8 et l’autrice déplore que ces entreprises basculent de l’acquisition de la connaissance à un programme de surveillance. La course aux métriques a également donné lieu à de la manipulation, comme le montre le cas d’un éditeur qui, en 2009, payait des reviews positives pour augmenter ses ventes9

Ce chapitre traite aussi des clauses de non-divulgation et de confidentialité imposées aux bibliothèques américaines, empêchant les différents établissements de se comparer pour connaître les tarifs qui leur sont facturés. Les bibliothécaires américains bataillent contre cette situation, mais leurs moyens sont dérisoires.

Sarah Lamdan déplore enfin que ces entreprises aient investi la totalité des services liés à la recherche, des services de financement aux bibliothèques, en passant par les données personnelles. Ainsi que le déplore un bibliothécaire, « there is no individual or organization within any university that I am aware of that is responsible for the full suite of research workflow services »10.

Le coût des archives ouvertes est également traité. Le maintien d’arXiv par l’université Cornell est par exemple de deux millions de dollars par an. Le chapitre se referme sur le piratage massif des articles, vu par des activistes comme Aaron Swartz ou Alexandra Elbakyan comme une réponse à cette privatisation de la connaissance.

Information juridique

Aux États-Unis, Relx et Thomson Reuters dominent également le marché du droit avec deux produits, Lexis pour le premier et Westlaw pour le second. Comme les plateformes publiques dédiées au droit pèchent par leurs mises à jour tardives, ces entreprises sont devenues indispensables à toutes les personnes qui ont besoin d’accéder aux textes. Sans infrastructure adaptée, tous les services publics restent dépendants des outils de Relx et de Thomson Reuters.

Outre la loi, les logiciels vendus agrègent les données des procès, le comportement des juges et des avocats, autant d’éléments censés assurer l’analyse. Là encore, le comportement des lecteurs est tracé et récupéré.

Sarah Lamdan rappelle que les données que nous produisons et les requêtes que nous faisons ne sont pas neutres. Les données sales (« dirty data »), qui reflètent les discriminations issues d’affaires précédentes, ne sont pas corrigées dans les résultats de recherche, favorisant de fait celles et ceux des justiciables qui le sont déjà. L’analyse des données par ces outils reproduit les inégalités.

Information financière

Le chapitre sur la finance est moins strictement consacré à Relx et Thomson Reuters. Il mentionne aussi des entreprises comme Bloomberg par exemple.

Les informations financières dont certaines devraient être publiques, même aux États-Unis, sont là encore accessibles sur abonnement. Les entreprises proposent des outils d’analyses des tendances inaccessibles au grand public. Les inégalités entre celles et ceux qui ont accès à ces informations et les autres, dont les connaissances économiques sont déjà plus fragiles, sont criantes. De nombreux particuliers ont ainsi perdu leurs économies investies dans des actions d’entreprises en faillite à la suite d’informations trompeuses diffusées sur Reddit11.

Dans un pays où tout est coté en bourse, la santé, les retraites, il est crucial pour les plus fragiles de ne pouvoir avoir accès aux informations financières. Pire, les courtiers en données peuvent également espionner les banques, via leurs activités sur leurs logiciels d’analyse.

De manière assez ironique, c’est le seul chapitre où la mauvaise qualité des données n’est pas abordée et où l’emploi massif d’analystes est mentionné. Où l’on se dit que la qualité des données semble possible quand on décide qu’elle a vraiment de l’importance…

Actualités

Le dernier chapitre porte sur les activités de presse, qui sont désormais concentrées entre quelques acteurs. Alors que les journaux, la radio et la télévision avaient été protégés en raison de leur intérêt général pour le public au 20e siècle, l’administration Clinton a affaibli ces garanties à partir de 1996. L’objectif à l’époque était de supprimer les limites pour les entreprises du web de façon à ce que leurs nouveaux médias se consolident. Les entreprises se sont développées, puis concentrées.

Les radios publiques, de même que les médias d’éducation, ne sont pratiquement plus subventionnées. Cela répond aussi à la réticence d’une partie de l’opinion américaine à financer des médias.

Radios et journaux locaux ont fermé en nombre. Il n’est pas rare que les radios locales qui perdurent soient possédées par de grands groupes qui ont automatisé les programmes avec un bulletin d’informations standardisé. Cette situation a été particulièrement dramatique en janvier 2022 quand un train transportant des matières toxiques a déraillé. Les radios locales ayant été vendues à un grand groupe, le personnel a été drastiquement réduit. La police n’a pas été en mesure de joindre des journalistes dans les stations pendant des heures et les radios ont continué à diffuser des informations standardisées sans alerter de la situation, créant un chaos sans nom12.

Sarah Lamdan attribue également le développement des fake news à la concentration des médias. De plus en plus de communautés créent des groupes d’information sur les réseaux sociaux pour faire connaître les nouvelles de leur lieu de résidence. Les rumeurs s’y propagent malheureusement souvent. L’autrice cite Ethan Zuckerman qui estime qu’une taxe d’un pour cent sur la publicité ciblée permettrait de dégager entre un et deux milliards de dollars par an pour financer des médias de service public13.

Conclusion

Sarah Lamdan plaide pour que l’information dans son ensemble soit considérée comme un bien public de façon à sortir de la situation actuelle. Elle souhaiterait la création d’infrastructures publiques pour les données d’intérêt général qui devraient être accessibles à tous. Elle insiste sur le fait que les courtiers en données devraient être considérés comme des entreprises d’intérêt public, ce qui correspond au statut qu’ont déjà les compagnies d’électricité et d’eau aux États-Unis. Une régulation serait enfin nécessaire pour arrêter le siphonnage massif des données personnelles. L’autrice formule le vœu que nous puissions un jour tous nager dans l’océan de la connaissance.

———

  1. J’ai toujours rêvé de placer le cartel de la compote dans un billet de blog, j’avoue. ↩︎
  2. Le replay n’étant plus disponible, voici un article résumant l’émission : Legrand, D. (2021). Cash Investigation s’intéresse à l’exploitation des données personnelles. NextInpact. https://www.nextinpact.com/article/45662/cash-investigation-sinteresse-a-exploitation-donnees-personnelles ↩︎
  3. Sur Hank Asher et le LexID : Funk, M. (2023). The Man Who Trapped Us in Databases. The New York Times. https://www.nytimes.com/2023/09/22/magazine/hank-asher-data.html ↩︎
  4. Reed Elsevier’s LexisNexis Acquires Seisint for $775 Million (2004). Spectrum Equity https://www.spectrumequity.com/news/reed-elseviers-lexisnexis-acquires-seisint-for-775-million ↩︎
  5. Rich S. (2020), “Here’s a brief thread on decontextualized data and why it’s bad, through the lens of the data collected by my car insurance company for the purpose of determining a discount based on how I drive,” Twitter, https://twitter.com/dataeditor/status/1342877187251310592 ↩︎
  6. Cf. note 3 ↩︎
  7. Aczel, B., Szaszi, B., & Holcombe, A. O. (2020). A Billion-Dollar Donation : Estimating the Cost of Researchers’ Time Spent on Peer Review. MetaArXiv. https://doi.org/10.31222/osf.io/5h9z4 ↩︎
  8. DFG-Committee On Scientific Library Services And Information Systems. (2021). Data tracking in research : Aggregation and use or sale of usage data by academic publishers. A briefing paper of the Committee on Scientific Library Services and Information Systems of the Deutsche Forschungsgemeinschaft. Zenodo. https://doi.org/10.5281/ZENODO.5937995 ↩︎
  9. Rohrer, F. (2009). The Perils of Five-Star Reviews, BBC News Magazine. http://news.bbc.co.uk/2/hi/uk_news/magazine/8118577.stm ↩︎
  10. Schonfeld, R. C. (2018). Big Deal : Should Universities Outsource More Core Research Infrastructure? Ithaka S+R. https://sr.ithaka.org/publications/big-deal-research-infrastructure/ ↩︎
  11. Brown, A. (2021). Reddit Traders Have Lost Millions Over GameStop: But Many Are Refusing To Quit. Forbes. https://www.forbes.com/sites/abrambrown/2021/02/04/reddit-traders-have-lost-millions-over-gamestop-but-many-are-refusing-to-quit/ ↩︎
  12. Shafer, J. (2007). What Really Happened in Minot, N.D.? Slate. https://slate.com/news-and-politics/2007/01/the-whole-story-about-that-toxic-spill-and-the-clear-channel-monopoly.html ↩︎
  13. Zuckerman, E. (2020). The Case for Digital Public Infrastructure. Knight First Amendment Institute at Columbia University. http://knightcolumbia.org/content/the-case-for-digital-public-infrastructure ↩︎

FAIRiser ses formations

Echelle 5 étoiles de l’open data. https://5stardata.info/en/

J’en étais à me dire que j’avais beau déposer certains de mes supports sur Zenodo, c’était loin de suffire et, surtout, c’était trop en décalage par rapport au discours que je répète sur la science ouverte (rendez vos données FAIR, utilisez des formats ouverts, déposez sur un entrepôts, etc.). Bref, il me fallait rendre ces supports entièrement reproductibles.

J’ai commencé à regarder attentivement la façon dont les collègues s’y prenaient. Certains déposent sur osf.io comme Mathieu, d’autres déposent leurs matériels sur Github comme Antoine. Suivant l’outil utilisé, on trouve du contrôle de version ou un DOI, mais rarement tout ça à la fois. J’en étais là de mes élucubrations lorsque j’ai lu cet article :

Garcia, Leyla, Bérénice Batut, Melissa L. Burke, Mateusz Kuzak, Fotis Psomopoulos, Ricardo Arcila, Teresa K. Attwood, et al. « Ten Simple Rules for Making Training Materials FAIR ». PLOS Computational Biology 16, no 5 (21 mai 2020): e1007854. https://doi.org/10.1371/journal.pcbi.1007854.

Voici les dix règles de cet article, qui répond assez simplement à toutes mes interrogations !

  • Rule 1: Plan to share your training materials online
  • Rule 2: Improve findability of your training materials by properly describing them
  • Rule 3: Give your training materials a unique identity
  • Rule 4: Register your training materials online
  • Rule 5: Define access rules for your training materials
  • Rule 6: Use an interoperable format for your training materials
  • Rule 7: Make your training materials (re)usable for trainers
  • Rule 8: Make your training materials usable for trainees
  • Rule 9: Make your training materials contribution friendly
  • Rule 10: Keep your training materials up-to-date

Voyons ces règles dans le détail. Les traductions de l’anglais sont les miennes, j’espère qu’elles sont à peu près correctes.

1. Prévoir de partager son matériel de formation en ligne

Se préparer

Qui n’a pas voulu partager un support de formation a posteriori, l’a rouvert, s’est demandé d’où venait telle illustration, puis s’est reproché d’avoir un lien mort à la suite d’une citation et a finalement renoncé en refermant rageusement ledit support ?

Partager son matériel de formation nécessite de réfléchir à ces questions en amont. Dès lors qu’elles sontanticipées, il est facile d’aller jusqu’à la diffusion.

Dans mon cas, j’archive désormais tout ce que j’utilise pour une formation, des images aux références, dans un dossier Zotero spécifique. Si j’ai mal rédigé une référence, ça arrive parfois, il est facile de la retrouver.

Astuce : pour éviter de s’arracher les cheveux avec des liens morts, on peut utiliser les plugins Memento ou Robust Link dans Zotero pour avoir un lien pérenne sur archive.org. J’avais un excellent exemple de plan de gestion des données pour les parties sécurité et sauvegarde ; le site de l’université a été refondu et le PGD a disparu, ô rage, etc.

Méthodes de partage

J’ai actuellement deux méthodes de partage de mes supports :

  • lorsque je dois utiliser powerpoint, je dépose la version corrigée à l’issue de la formation, ainsi que son export en pdf, sur Zenodo.
  • quand je suis plus libre des outils, j’utilise RStudio avec le package Xarrigan pour les slides, je crée un répertoire sur Github, puis je dépose ensuite le répertoire entier sur Zenodo. Dans ce second cas, l’ensemble du matériel, toutes les images, la bibliographie, les exercices peuvent être partagés facilement. C’est aussi plus facile de corriger le répertoire et de le mettre à jour sur Github et Zenodo que de devoir recharger fichier par fichier.

2. Rendez vos supports de formation faciles à trouver en les décrivant correctement.

Ici, je me borne à soigner les champs à remplir sur Zenodo et à ajouter des mots-clés, mais je ne vais pas au-delà…
Pour une formation, j’avais créé un fichier Readme assez conséquent à partir du modèle figurant dans ce dépôt :

Blumer, Eliane, Samath, Sitthida, Varrato, Francesco, & Borel, Alain. (2020, April 28). Optimizing your research data management. Zenodo. https://doi.org/10.5281/zenodo.3773657

3. Attribuez un identifiant pérenne à vos supports de formation

Le dépôt sur Zenodo me permet d’obtenir un DOI pour mes supports et de le lier à mon ORCID.
J’ai ajouté le logo pointant vers mon ORCID dans ma signature, je me dis que ça peut permettre aux curieux de voir ce que je propose en matière de formations.

4. Enregistrez vos supports de formation en ligne

La formulation de cette règle est curieuse, en français commme en anglais, mais il s’agit de déposer ses supports sur un entrepôt. J’ai déjà parlé de mon utilisation de Zenodo, je n’y reviens pas.

5. Définissez des règles d’accès pour vos supports de formation

« Sans entrave, sans délai, sans paiement », that’s the law!

6. Utilisez un format interopérable pour vos supports de formation

Si je reprends les deux méthodes que j’utilise :

  • des fichiers en pptx pour la première, puisque c’est l’outil de mon établissement et largement utilisé par mes collègues, et un export en pdf
  • des formats plus ouverts avec des fichiers en Rmd avec export en html et en pdf, ainsi que du png ou du jpg pour les images, mais il restait quelques docx et xlsx dans le dépôt, honte à moi 😉

7. Rendez vos supports de formation (ré)utilisables par les formateurs.

Voir des tas de supports partagés uniquement en pdf m’énerve au plus haut point. C’est en CC:BY, mais dans les faits on est réduit à recopier ou à faire des copies d’écran moches. Autant laisser des supports non réutilisables dans ce cas…

Chaque fois que vous ne partagez pas vos supports sous une forme vraiment réutilisable, un chat est contrarié.

C’est pour cette raison que j’ai commencé par partager les versions pptx de mes supports, puis à tester le Rmd pour qu’on puisse reprendre et adapter plus facilement les textes.

Actuellement, je bricole une base de connaissance issue des supports et de l’annexe de ma mémoire, aka Zotero (10 ans d’utilisation quotidienne, pas loin de 4000 références, des annotations, et je vous jure que pourtant j’y fais du ménage). Je complète cette base au fur et à mesure et j’espère qu’elle sera suffisamment exploitable pour être partagée un jour.

8. Rendez vos supports de formation utilisables par les stagiaires

Pour la règle 8, j’ai encore du travail, pour l’heure je me borne à envoyer les supports.

J’ai de grandes interrogations en ce moment en ce qui concerne lesdits supports : comme les structures dans lesquelles j’ai fait des présentations sont nombreuses à me les demander pour les absents, j’ai pris l’habitude de faire des supports dits « autoportants », c’est-à-dire qu’ils peuvent être compréhensibles par des personnes qui n’étaient pas présentes.

Inévitable conséquence, les supports sont de plus en plus chargés. Idéalement, il faudrait deux supports, un léger pour la formation elle-même, un dense pour l’envoi ultérieur. Et idéal de l’idéal, il faudrait que je rédige, un peu comme Mathieu l’avait fait pour ses formations OpenRefine.
Problème, j’ai besoin de 9h de sommeil par nuit…

Bobleponge31, https://commons.wikimedia.org/wiki/File:Marmotte_Gavarnie.jpg, CC BY-SA 3.0, via Wikimedia Commons

9. Rendez vos supports de formation accessibles aux contributions

C’était l’idée quand j’ai déposé du matériel sur Github. J’ai aussi indiqué dans le fichier Readme du dépôt Zenodo que tous les retours seraient les bienvenus.

10. Maintenez vos supports de formation à jour

Pour cette dernière règle, je plaide coupable… Je me console en me disant que mes supports sont quand même accessibles et réutilisables, c’est déjà deux lettres de FAIR de respectées.

Bref, quand j’aurai réussi à être au point pour les dix règles et les principes FAIR, vous pourrez m’offrir ceci !

Et vous où en êtes-vous de vos méthodes de partage de formation ?

Installer Zotero sur un chromebook, et le chromebook en général

Note, trois ans plus tard : ce tutoriel est ancien, il est probablement périmé…

Où le vieux Mac rendit l’âme et où il fallut le remplacer, dans les mois compliqués de l’année 2020, qui fut comme chacun sait à nulle autre pareille. Il fallut donc faire le deuil du Mac et renoncer à en acheter un nouveau, les livraisons en direction du logis ayant fâcheuse tendance à s’évaporer au pays des rapines. Sur le site de dame Fnac, qui faisait la réclame d’une livraison par coursier, on a procédé par tri croissant de prix . Ledit coursier se perdit un peu, on s’inquiéta beaucoup, mais la machine finit par arriver, et l’on se retrouva muni d’un Chromebook, 300€ en soldes, en faisant la grimace des jours où l’on a oublié son stylo plume et où l’on se trouve contrainte et contrite d’écrire au stylo Bic. Ça commençait mal.

Le Chromebook fonctionne sous Chrome OS, qui n’est pas reconnu par grand chose. Première déconvenue, la messagerie professionnelle, Outlook web app, ne s’affiche qu’en version light, ce qui empêche par exemple de consulter les boîtes génériques dont on a la responsabilité. Côté traitement de texte, la publicité vantait qu’on pouvait installer la suite Microsoft Office, mais c’est une suite office light, la même que celle pour les téléphones. En fait, un Chromebook basique, c’est un peu un téléphone avec une coque d’ordinateur. On pioche dans les applis Android et on a des applis pour téléphone. Pour certaines d’entre elles, l’affichage n’est même pas adapté à l’ordinateur. Pour peu qu’on veuille utiliser quelques logiciels spécifiques, il faut donc très rapidement activer Linux, qui est déjà installé sur le Chromebook.

L’activation de Linux se fait très facilement dans les paramètres, juste un curseur la première fois à cocher une fois pour toutes. Ensuite, il va falloir parler à Linux via le Terminal, en employant des lignes de commandes.  C’est là que les choses se compliquent.

Trêve de plaisanterie, j’avais l’intention de faire seulement quelques tweets au sujet du Chromebook avant que des échanges – toujours sur Twitter, avec @boite_a_outils ne me fassent réaliser que de nombreux étudiants s’équipent avec ce genre de machines et qu’ils sont bien en peine ensuite d’utiliser un certain nombre de logiciels, dont Zotero. Et me voilà en train de bloguer, devant l’effroyable réalité qui consisterait à se passer de Zotero.

Finissons-en avec le Chromebook lui-même, qui n’a qu’un avantage à mon sens, son prix. Si vous êtes un peu geek et que vous avez le goût d’aller lire des forums pour comprendre comment procéder, tout va bien, restez-en au Chromebook. Si vous êtes mal à l’aise avec l’informatique et que vous pouvez mettre un peu plus cher, faites-le. Pour donner des exemples simples, j’avais téléchargé Pandoc sur le Mac (au passage, c’est génial, Pandoc, merci @arthurperret), ce qui requiert d’utiliser le terminal et je m’étais un peu familiarisée avec, mais mes connaissances restent très limitées. Sur le Chromebook, j’ai réussi à installer Firefox sous Linux, mais je n’ai toujours pas le son. De même, mon imprimante très récente et le Chromebook ne se reconnaissent pas alors que l’installation avait pris moins de cinq minutes sur le Mac. Et ce matin, c’est Atom ne se lançait pas sans que je comprenne le problème. Tout ça doit pouvoir se régler facilement, mais avec l’âge je mollis, j’ai la flemme de chercher.

Installer Zotero

Cela dit, il fallait installer Zotero. Je me suis donc plongée, en jurant que c’était bien la dernière fois, dans les forums pour l’installer. A vrai dire, j’ai d’abord tenté l’installation via Linux, qui a planté et je suis allée piteusement sur les forums de Zotero qui sont de vraies mines d’informations pour les présomptueuses dont je suis qui pensent pouvoir s’en sortir en un clic.

Le procédure la plus simple que j’ai trouvée est celle-ci. Trois lignes de commande, et c’est presque tout.

wget -qO- https://github.com/retorquere/zotero-deb/releases/download/apt-get/install.sh | sudo bash
sudo apt update
sudo apt install zotero

[Je les note ici mais avant de vous lancer, lisez attentivement la page citée ci-dessus]

Pour ceux qui ne seraient pas du tout familiers du Terminal, je détaille pas à pas. Il faut taper chaque ligne de commande sans faute (pas de souris dans le terminal, si vous vous trompez, vous devrez vous déplacer avec les flèches), puis appuyer sur Entrée, avant de laisser votre machine travailler, puis de taper la ligne suivante quand ça vous est demandé. A moment donné (de mémoire, entre la deuxième et la troisième ligne), la question suivante vous sera posée :


C’est tout bête, mais au cas où, quand on vous demande si vous êtes d’accord [Y/n], vous devez taper Y et appuyer sur Entrée.

Une fois l’installation terminée, vous trouverez votre Zotero installé avec les applis Linux dans toutes les applis de votre Chromebook et vous pourrez le lancer comme sur n’importe quelle autre machine.

Il ne vous restera plus qu’à ajouter le connecteur sur Chrome via la page de téléchargement sur le site Zotero et vous pourrez utiliser votre logiciel de bibliographie préférée !


Et comme vous serez très heureux d’utiliser Zotero, un petit cadeau piqué dans Le Bureau des légendes, saison 5, épisode 3, où ces agents chevronnés décodent le message d’un espion nerd.

« Et booléen, heu, j’ sais pas trop ce que ça veut dire.
– Booléen c’est vrai ou faux.
– Ou alors oui ou non.
– Il nous demande ce qu’il doit faire !
– J’imagine. »

Vous, vous avez su ce que vous demandait ce satané terminal, vous avez écrit Y et vous avez votre Zotero tout beau !

Introduction to Digital Humanities

J’ai suivi ces dernières semaines le MOOC de Harvard, Introduction to Digital Humanities, sur la plateforme EDX. C’est un très bon cours pour découvrir le sujet et en comprendre les multiples facettes. Le cours n’est malheureusement plus accessible, tout a été retiré après huit semaines environ (l’accès aux archives est disponible moyennant 99$). Il sera probablement repris, d’où ce billet.

Le MOOC est structuré en cinq axes. Après un rappel sur l’histoire de la discipline, le premier axe est constitué de plusieurs présentations de projets en humanités numériques, avec des retours d’expériences de chercheurs et de bibliothécaires. Des projets de musées sont également présentés.

Le second axe porte sur les outils auxquels les chercheurs ont eu recours. Démonstrations d’encodage de texte en TEI et utilisation de Gephi sont à l’honneur dans cette partie du cours. Rien de neuf si vous travaillez en BU et que vous faites de la veille régulièrement, vous avez comme moi déjà entendu parler de ces outils, même sans les avoir testés. Ce qui m’a sans doute le plus intéressée est le retour d’expérience d’une historienne qui a travaillé sur des cartes historiques de l’empire russe. La chercheuse a travaillé à reprendre de nombreuses cartes historiques, afin de fournir des outils d’analyse sur la démographie et bien d’autres données à l’époque de l’empire russe. Elle explique sa démarche et son apprentissage des outils de GIS (Geographic Information Systems) et c’est assez passionnant.

Le troisième axe du cours est beaucoup plus technique. Il est consacré aux données, à leurs types, à leur structuration et à la façon de générer des données. Contrairement aux modules précédents, presqu’exclusivement constitués de vidéos, ce chapitre est plus aride, avec des définitions et des bouts de code. Vous n’ignorerez plus rien des API et de l’OCR si vous le suivez correctement. Plusieurs vidéos sont consacrées à la question des licences et du copyright, avec une assez longue présentation des Creative commons.

Dans l’axe quatre, on apprend à, soyons fous, installer une machine virtuelle sur laquelle installer Ubuntu, puis à apprivoiser sur celle-ci les lignes de commande de base. Si vous utilisez pandoc pour convertir vos fichiers, vous aurez déjà testé certaines des commandes et ne serez pas surpris. Les vidéos qui permettent ensuite d’exploiter des données, comme par exemple rechercher des occurrences dans un poème, sont loin d’être toutes accessibles. Dans la version gratuite du cours, on dispose des fonctionnalisés de base, mais on ne peut guère en découvrir davantage sans s’acquitter de 99$ (peut-être faudrait-il parler de MOC, non de MOOC ?).

Dans le dernier axe, vous apprendrez à utiliser l’outil Voyant qui est assez fascinant à tester. Je vous laisse copier-coller du texte en .txt et vous amuser. Personnellement, j’ai testé avec un fichier .txt d’Ulysse de Joyce récupéré sur le site du Projet Gutenberg.

***

Un très bon cours pour découvrir les humanités numériques, même si le temps imparti est, de mon point de vue, assez juste pour explorer toutes les pistes données au fil des vidéos et autres ressources. Le nombre de projets présentés à explorer une fois le cours achevé est conséquent, ce qui permet de continuer l’apprentissage.

A noter qu’Harvard a mis en ligne, toujours sur EDX, une série de cours sur la visualisation de données, le langage R et bien d’autres.

La confiance créative, Tom et David Kelley

Light Bulb. CC : BY : Olga Reznik. Flickr

C’est Marion, qui est décidément une mine de ressources pour moi, qui me l’avait prêté il y a quelques temps. Ayant déjà parlé brièvement d’UX sur ce blog, je me suis dit qu’un billet sur La confiance créative de David et Tom Kelley (InterEditions, 2016) serait un bon prolongement de la question.

David Kelley est l’un des fondateurs d’Ideo, la boîte qui a produit le livret et le manuel sur le design thinking en bibliothèque qu’on trouve traduit sur Le recueil factice de Nicolas Beudon. Son frère Tom a rejoint l’entreprise assez vite. En plus d’avoir fondé une des agences de design les plus innovantes de ces vingt dernières années, David Kelley est aussi le fondateur de la d.school de Stanford, où il enseigne la méthodologie du design thinking.

David Kelley a un tableau blanc dans sa douche pour noter les idées qui lui viennent ; si ça vous perturbe, ce billet n’est peut-être pas pour vous ! Car c’est bien de créativité qu’on va parler ici, même si, rassurez-vous, vous n’allez pas voir surgir des post-it à chaque ligne de ce billet. Le propos des Kelley est de montrer que tout le monde est capable d’avoir plein idées, dès lors qu’on n’est pas totalement inhibé à ce sujet depuis l’enfance.

On n’échappe pas à un peu de storytelling dans ce livre, avec des phrases chic et choc, « le point central de la confiance créative est de croire en sa propre capacité à changer le monde qui nous entoure ». Rien que ça ! J’avoue avoir soulevé un sourcil à cette lecture, moi qui suis plutôt part du colibri. Mais continuons.

Le propos des Kelley est de dire qu’à la maternelle nous étions tous créatifs. Malheureusement, une quinzaine d’années de formatage scolaire plus tard, au mieux nous avons oublié, au pire nous nous croyons incapables d’avoir une quelconque idée.

Un des premiers exemples cités est celui d’un concepteur de machines à IRM, en visite dans un hôpital pour observer le fruit de son travail, et désolée de voir une fillette en pleurs avant l’examen. Il faut reconnaître que ce grand tunnel si bruyant est plutôt oppressant. Malgré un budget limité, l’ingénieur veut trouver une solution. Il commence par aller dans des écoles et des crèches pour observer les enfants et être à leur écoute. Puis il expérimente plusieurs scénarios pour finir par déboucher sur une solution fort simple, qui est de décorer le tube si angoissant avec des autocollants représentants un bateau pirate. Le technicien qui fait l’IRM leur raconte une histoire et leur dit d’être attentif au moment où le bateau va entrer dans l’espace, qui n’est autre que l’affreux bruit de l’IRM. Une fois sorti de son voyage intergalactique, le jeune patient peut choisir un cadeau. Et voilà comment, avec peu de moyens mais une belle dose de créativité, les taux d’anesthésie avant une IRM ont beaucoup baissé chez les enfants.

Le propos des Kelley reste néanmoins réaliste. Votre belle idée doit trouver le juste équilibre entre la désirabilité (l’humain), la faisabilité (la technique) et la viabilité (l’économique). Il faut pas céder aux sirènes du tout humain : vous vous souvenez du Nabaztag ? Tout le monde en voulait un tellement c’était mignon, mais économiquement ça a quand même très mal marché.

Les différentes phases de l’approche d’Ideo sont bien connues, et j’en ai déjà parlé ici, je ne les détaille pas. L’intérêt principal de ce petit ouvrage réside plutôt dans les différentes étapes décrites pour retrouver sa créativité.

Pour être créatif, il faut commencer par oser, ce qui implique nécessairement d’oser échouer. Plus vous allez tester de nouvelles idées, plus vous allez rater certaines choses, qu’importe, les Kelley vous invitent à persévérer. C’est tout de même ainsi que vous avez appris à marcher, le processus est rigoureusement le même. Il paraît même que c’est de cette façon qu’est née la fameuse chaise Node de Steelcase, bien connue des bibliothécaires. Ou encore l’ampoule à incandescence d’Edison, fruit de milliers de tentatives ratées.

La créativité passe en partie par le dessin et, si vous êtes comme moi, vous vous crispez rien qu’à cette lecture. Malheureusement, on considère à l’école qu’on est bon en dessin ou pas, comme si c’était quelque chose d’inné. On apprend durant des mois à écrire, à lire, à compter, mais pas à dessiner, et c’est bien dommage. Rassurez-vous, c’est rattrapable moyennant un peu d’entraînement. Il ne s’agit pas de devenir un artiste, mais bien de se réapproprier le dessin, pour être capable de faire quelques croquis sur un tableau blanc. Si vous doutez encore, allez voir #unpictoparjour.

Prêt à vous lancer ? Il faut maintenant un déclencheur. Les frères Kelley recommandent de penser comme un voyageur en observant votre lieu de travail avec des yeux neufs, puis d’examiner attentivement les comportements des usagers, en vous arrêtant un instant dans vos tâches quotidiennes. Demandez-vous systématiquement pourquoi ils font les choses de telle manière plutôt que de telle autre (par exemple, venir emprunter pour la millième fois et attendre qu’on leur demande leur carte pour la chercher partout dans leur sac. Oui, POURQUOI ?). Le livre regorge de toutes sortes de techniques pour parvenir à faire jaillir les idées, seul ou à plusieurs. Le fameux tableau blanc dans la douche ou le petit carnet qui vous suit toujours sont là pour recueillir le fruit de ce qui naîtra pendant une phase dite d’attention détendue. Vous pouvez aussi installer un tableau communautaire dans les locaux professionnels, où chacun notera des idées. Sont livrées ensuite de nombreuses techniques pour redéfinir un problème qu’on vient d’identifier. Après la phase « pourquoi », vient la phase « comment pourrait-on » ?

Une fois le problème correctement reformulé, il faut se lancer. Globalement, ne planifiez pas trop, foncez, ratez, recommencez. Faites-le à plusieurs, dans un cadre bienveillant, afin de créer de l’émulation et passez très vite à des phases de prototypage et d’expérimentation, elles ne seront sans doute pas très bonnes au départ, mais qu’importe, vous apprendrez d’elles et vous améliorerez peu à peu votre projet.

Un chapitre entier est consacré à ceux qui se sentent mal dans leur travail, comme David Kelley lui-même au début de sa carrière, tout jeune ingénieur chez Boeing payé à imaginer des loupiotes « Occupé » pour les toilettes d’avion. Fort de cette expérience, il recommande de s’interroger tous les jours sur les tâches, les moments, les interactions où l’on s’est senti le mieux. Ce sont vers elles qu’il faut aller expérimenter. Il est possible de commencer par des projets périphériques (une commission dans une association professionnelle, par exemple), où la créativité peut s’exprimer, avant de réorienter sa carrière.

La fin de l’ouvrage est consacrée à dix défis créatifs, à faire seul ou en groupe, pour libérer votre potentiel. Les frères Kelley anticipent nos râleries sur la gestion de projet made in en…ib et proposent, pour chaque projet réalisé de façon traditionnelle voulu par le n+1, de l’imaginer en parallèle avec leurs méthodes et de voir ce qui en sort.

Et pour finir, « posez ce livre ou éteignez votre écran. Choisissez une ou deux expérimentations, en sachant qu’elles ne réussiront pas toutes », recommandent-ils. « Une fois que vous aurez embrassé votre confiance créative, l’effort, la pratique et l’apprentissage continu peuvent vous permettre, vous aussi, de réimaginer votre vie et votre carrière ».

« Older posts