Catégorie : billet (Page 1 of 42)

Data Cartels / Sarah Lamdan

21 octobre 2023 / Cécile Arènes

La lecture de Data cartels de Sarah Lamdan m’a suffisamment marquée pour que je rouvre ce blog qui n’avait pas servi depuis bientôt deux ans.

« Si tout ce que vous avez est un marteau, tout ressemble à un clou. Si tout ce que vous avez est une donnée, chaque problème semble pouvoir être résolu grâce à l’analyse des données. »
Lamdan, S. (2022). Data Cartels : The Companies That Control and Monopolize Our Information. Stanford University Press.

L’ouvrage de Sarah Lamdan porte sur les courtiers en données, entreprises qui agrègent de très nombreuses sources de données pour les revendre via des logiciels proposant des insights et des analyses. Quel que soit le secteur dans lequel ces entreprises opèrent, leur modèle économique repose sur la captation des droits des producteurs des données, l’aspiration des données personnelles et la création de « jardins clos » (« walled gardens ») pour assurer la vente d’analyse du contenu et d’analyses prédictives. On observe au fil des ans une baisse de la qualité du contenu au fur et à mesure que la collecte des données se fait toujours plus massive. Les sources de données et les algorithmes utilisés par ces entreprises sont des boîtes noires à propos desquelles il ne semble pas possible d’obtenir des informations. Données et algorithmes reproduisent des biais malheureusement bien connus en matière de discriminations et d’inégalités. Sarah Lamdan déplore que les courtiers en données, dont Relx et Thomson Reuters sont dans ce livre les principaux exemples, soient des entreprises complètement méconnues du grand public.

Quelques précisions, le livre porte entièrement sur la situation aux États-Unis, c’est un point à garder à l’esprit, notamment sur les sujets liés aux données personnelles, car les différences sont grandes avec leur traitement en Europe au regard du RGPD. Les titres des parties de ce billet correspondent aux titres des chapitres du livre, que j’ai traduits. La plupart des références citées sont issues du livre lui-même.

Préface

Avant d’être professeur de droit, Sarah Lamdan était bibliothécaire. Son intérêt pour Relx et Thomson Reuters date de 2017 quand elle découvre que ces deux entreprises ont pour client ICE (Immigration and Customs Enforcement), la police de l’immigration américaine. Vous aviez d’ailleurs peut-être déjà lu son article de 2019 sur In the library with the lead pipe, « Librarianship at the crossroads of ICE surveillance », sur le sujet. Elle explique que c’est à cette époque qu’elle a commencé à se préoccuper de la situation : est-ce qu’elle enseignait à de futurs avocats spécialisés dans l’immigration à utiliser des produits qui aideraient ensuite ICE à arrêter leurs clients ?

Lorsqu’elle commence à interroger les entreprises à ce sujet et à écrire sur des blogs d’associations de bibliothécaires, les ennuis commencent. Ces entreprises qui, aux États-Unis, assurent elles-mêmes les formations des étudiants à leurs produits en leur offrant des collations, ont demandé à ceux-ci si elle évoquait en cours leurs liens avec ICE. Un article qu’elle avait été écrit a été retiré d’un site d’association par crainte de poursuites. C’est l’évolution extrêmement rapide du modèle économique de ces sociétés, d’éditeurs à courtiers en données, qui l’a amenée à travailler sur le sujet. En tant qu’ancienne bibliothécaire attachée à la vie privée, elle s’est aussi interrogée sur l’impossibilité de protéger ses données personnelles lorsqu’on utilise ces outils.

Les cartels de données : une vue d’ensemble

Dans ce livre, il faut entendre « data cartels » dans le sens économique, à savoir des entreprises qui contrôlent un marché par une sorte d’« alliance des rivaux », ce qui nuit aux consommateurs. En Europe, nous avions eu deux exemples avec le cartel du jambon et le cartel de la compote ; en Amérique du Nord, le cartel du sirop d’érable est dans tous les esprits¹. Dans le cas qui nous occupe ici, cela aboutit à un duopole qui contrôle le marché du courtage en données. Ces entreprises dominent désormais un secteur qui comprend des réservoirs immenses d’informations sur la recherche, la finance, les informations, le droit et les données personnelles. Elles n’ont pas produit les données qu’elles revendent, puisqu’une partie d’entre elles ont été créées par d’autres, parfois gratuitement. Leur modèle économique consiste à les aspirer ou les acheter pour les agréger et les revendre. Désormais, Relx et Thomson Reuters sont des entreprises milliardaires dont les marges dépassent celles de la big-tech.

Ces entreprises fonctionnent comme des jardins clos, ce qui ne fait qu’accroître la désinformation, selon l’autrice. La vérité est sous paywall, mais que les fake news sont gratuites. À cet égard, je trouve que cet ouvrage est une sorte de pendant à Toxic Data de David Chavalarias qui traite des données des réseaux sociaux et des manipulations de l’information.

L’accumulation compulsive par les courtiers en données pose également problème. Tout bon bibliothécaire sait bien qu’une collection foutraque et non désherbée baisse en qualité, c’est également ce qui se passe avec les produits vendus par Relx et Thomson Reuters. Sarah Lamdan cite plusieurs exemples, dont celui d’un locataire qui s’est vu refuser un appartement parce que le bailleur utilisait le logiciel d’une des sociétés et que la requête sur son nom renvoyait à un homonyme au casier chargé. Parmi les clients de ces géants aux États-Unis, on trouve de très nombreux services publics, que ce soit au niveau fédéral ou dans les différents états, des compagnies d’assurance, des propriétaires et la police. Dans un pays où une protection comme celle du RGPD n’existe pas, Sarah Lamdan attribue cette situation à une indéfectible croyance dans le capitalisme où tout s’achète et tout se vend.

Les données agrégées étant le reflet des systèmes et des personnes qui les ont produites, elles génèrent des analyses où les inégalités et les discriminations se reproduisent à l’infini.

Le courtage des données

En 2021, Cash Investigation avait fait une émission « Nos données personnelles valent de l’or ». Si vous l’avez vue, vous aurez un goût de déjà vu en lisant ce chapitre².

Relx et Thomson Reuters sont spécialisées dans le courtage institutionnel des données, vendant des données aux gouvernements ou aux entreprises de services, comme les assurances. Leurs systèmes d’analyse des données s’appuient sur des logiciels créés par des personnes comme Hank Asher, surnommé le « père de la fusion des données »³, dont l’entreprise a été rachetée par Relx⁴. La surveillance des citoyens aux États-Unis étant devenue particulièrement renforcée après 2001, même des services comme la poste traquent les réseaux sociaux pour identifier de potentielles menaces sur ses employés ou ses infrastructures.

Le problème est qu’une donnée non contextualisée peut donner lieu à une fausse analyse. Sarah Lamdan prend l’exemple de Steven Rich, qui a rapporté sur Twitter avoir reçu une alerte de son GPS lui disant que son freinage brutal pouvait lui faire perdre le contrôle de son véhicule⁵. Si les données du GPS avaient été transmises à son assurance, il est fort probable qu’il aurait perdu son bonus de conducteur prudent. Problème, le GPS ne pouvait pas savoir que le brusque coup de frein était dû au fait qu’une voiture devant avait fait un écart dangereux… « Sans contexte, la donnée n’est pas juste incorrecte, mais dangereuse. »

Aux États-Unis, ces sociétés aspirent des données des réseaux sociaux, des données des citoyens vendues par certains états, des données bancaires ou de santé qui leur sont vendues et les croisent pour établir des dossiers sur des millions de personnes. Quand bien même vous quittez les réseaux sociaux, vous n’échappez pas à leur surveillance. Chez Relx, il existe un LexID⁶, un identifiant maison pour les personnes présentes dans leur base. Comme les courtiers en données n’ont pas créé les données, il n’existe pratiquement aucune chance pour les personnes qui sont victimes d’une erreur de faire rectifier les informations, elles sont systématiquement renvoyées vers les producteurs de données eux-mêmes.

Ces dossiers créent un autre biais. Les personnes pauvres sont par exemple celles qui ont le plus recours aux services sociaux. Les traces dans leurs dossiers les désavantageront pour souscrire une assurance privée par exemple. Le fonctionnement nocif est le même pour les hommes noirs, qui se font beaucoup contrôler par la police. Ils seront discriminés d’emblée pour trouver un travail ou se loger sur la foi de ces informations non contextualisées. Certains états tentent de poser des garde-fous aux courtiers en données, mais ils sont encore peu nombreux.

Sarah Lamdan explique aussi que les accès à de telles bases nominatives par les services publics, les universités, la police et les entreprises donnent lieu à de nombreux mésusages. Et de donner comme exemple ses propres étudiants découvrant ces outils et vérifiant leurs propres dossiers, avant de stalker très rapidement ceux de leurs camarades.

Recherche scientifique

Le chapitre consacré à l’édition académique est sans doute celui qui offrira le moins de surprises pour qui connaît la documentation universitaire. De façon classique, il rappelle que le travail fourni par les auteurs et les reviewers est entièrement gratuit et que les éditeurs privatisent une ressource financée par des fonds publics. Une étude estime qu’en 2020, les reviewers ont produit plus de cent millions d’heures de travail gratuites pour les revues académiques⁷. L’autrice déplore aussi que les jardins clos créés par les éditeurs nuisent à la recherche des pays qui n’ont pas les moyens de souscrire ces types d’abonnements et elle rappelle que les droits des auteurs sont entièrement captés par les éditeurs, qui grignotent peu à peu le fair use.

Il y a des pages surprenantes dans cette partie sur l’impossibilité de conserver un article comme on pouvait le faire avec des photocopies. J’avoue que je connais mal les conditions appliquées par les éditeurs pour l’accès à leurs bases à l’étranger pour savoir s’il leur est impossible de télécharger un pdf.

Sarah Lamdan fait un parallèle entre la course aux métriques et le développement des collectes massives de données personnelles. Traçant les données des lecteurs aussi bien que des auteurs (rappel, on parle ici de la situation américaine où les données nominatives remontent aux éditeurs), les entreprises se sont mises à imaginer des produits qui proposent des analyses utilisées par les bailleurs de fonds et les administrations universitaires pour savoir qui titulariser ou qui financer. L’étude de la German Research Foundation est mentionnée⁸ et l’autrice déplore que ces entreprises basculent de l’acquisition de la connaissance à un programme de surveillance. La course aux métriques a également donné lieu à de la manipulation, comme le montre le cas d’un éditeur qui, en 2009, payait des reviews positives pour augmenter ses ventes⁹…

Ce chapitre traite aussi des clauses de non-divulgation et de confidentialité imposées aux bibliothèques américaines, empêchant les différents établissements de se comparer pour connaître les tarifs qui leur sont facturés. Les bibliothécaires américains bataillent contre cette situation, mais leurs moyens sont dérisoires.

Sarah Lamdan déplore enfin que ces entreprises aient investi la totalité des services liés à la recherche, des services de financement aux bibliothèques, en passant par les données personnelles. Ainsi que le déplore un bibliothécaire, « there is no individual or organization within any university that I am aware of that is responsible for the full suite of research workflow services »¹⁰.

Le coût des archives ouvertes est également traité. Le maintien d’arXiv par l’université Cornell est par exemple de deux millions de dollars par an. Le chapitre se referme sur le piratage massif des articles, vu par des activistes comme Aaron Swartz ou Alexandra Elbakyan comme une réponse à cette privatisation de la connaissance.

Information juridique

Aux États-Unis, Relx et Thomson Reuters dominent également le marché du droit avec deux produits, Lexis pour le premier et Westlaw pour le second. Comme les plateformes publiques dédiées au droit pèchent par leurs mises à jour tardives, ces entreprises sont devenues indispensables à toutes les personnes qui ont besoin d’accéder aux textes. Sans infrastructure adaptée, tous les services publics restent dépendants des outils de Relx et de Thomson Reuters.

Outre la loi, les logiciels vendus agrègent les données des procès, le comportement des juges et des avocats, autant d’éléments censés assurer l’analyse. Là encore, le comportement des lecteurs est tracé et récupéré.

Sarah Lamdan rappelle que les données que nous produisons et les requêtes que nous faisons ne sont pas neutres. Les données sales (« dirty data »), qui reflètent les discriminations issues d’affaires précédentes, ne sont pas corrigées dans les résultats de recherche, favorisant de fait celles et ceux des justiciables qui le sont déjà. L’analyse des données par ces outils reproduit les inégalités.

Information financière

Le chapitre sur la finance est moins strictement consacré à Relx et Thomson Reuters. Il mentionne aussi des entreprises comme Bloomberg par exemple.

Les informations financières dont certaines devraient être publiques, même aux États-Unis, sont là encore accessibles sur abonnement. Les entreprises proposent des outils d’analyses des tendances inaccessibles au grand public. Les inégalités entre celles et ceux qui ont accès à ces informations et les autres, dont les connaissances économiques sont déjà plus fragiles, sont criantes. De nombreux particuliers ont ainsi perdu leurs économies investies dans des actions d’entreprises en faillite à la suite d’informations trompeuses diffusées sur Reddit¹¹.

Dans un pays où tout est coté en bourse, la santé, les retraites, il est crucial pour les plus fragiles de ne pouvoir avoir accès aux informations financières. Pire, les courtiers en données peuvent également espionner les banques, via leurs activités sur leurs logiciels d’analyse.

De manière assez ironique, c’est le seul chapitre où la mauvaise qualité des données n’est pas abordée et où l’emploi massif d’analystes est mentionné. Où l’on se dit que la qualité des données semble possible quand on décide qu’elle a vraiment de l’importance…

Actualités

Le dernier chapitre porte sur les activités de presse, qui sont désormais concentrées entre quelques acteurs. Alors que les journaux, la radio et la télévision avaient été protégés en raison de leur intérêt général pour le public au 20e siècle, l’administration Clinton a affaibli ces garanties à partir de 1996. L’objectif à l’époque était de supprimer les limites pour les entreprises du web de façon à ce que leurs nouveaux médias se consolident. Les entreprises se sont développées, puis concentrées.

Les radios publiques, de même que les médias d’éducation, ne sont pratiquement plus subventionnées. Cela répond aussi à la réticence d’une partie de l’opinion américaine à financer des médias.

Radios et journaux locaux ont fermé en nombre. Il n’est pas rare que les radios locales qui perdurent soient possédées par de grands groupes qui ont automatisé les programmes avec un bulletin d’informations standardisé. Cette situation a été particulièrement dramatique en janvier 2022 quand un train transportant des matières toxiques a déraillé. Les radios locales ayant été vendues à un grand groupe, le personnel a été drastiquement réduit. La police n’a pas été en mesure de joindre des journalistes dans les stations pendant des heures et les radios ont continué à diffuser des informations standardisées sans alerter de la situation, créant un chaos sans nom¹².

Sarah Lamdan attribue également le développement des fake news à la concentration des médias. De plus en plus de communautés créent des groupes d’information sur les réseaux sociaux pour faire connaître les nouvelles de leur lieu de résidence. Les rumeurs s’y propagent malheureusement souvent. L’autrice cite Ethan Zuckerman qui estime qu’une taxe d’un pour cent sur la publicité ciblée permettrait de dégager entre un et deux milliards de dollars par an pour financer des médias de service public¹³.

Conclusion

Sarah Lamdan plaide pour que l’information dans son ensemble soit considérée comme un bien public de façon à sortir de la situation actuelle. Elle souhaiterait la création d’infrastructures publiques pour les données d’intérêt général qui devraient être accessibles à tous. Elle insiste sur le fait que les courtiers en données devraient être considérés comme des entreprises d’intérêt public, ce qui correspond au statut qu’ont déjà les compagnies d’électricité et d’eau aux États-Unis. Une régulation serait enfin nécessaire pour arrêter le siphonnage massif des données personnelles. L’autrice formule le vœu que nous puissions un jour tous nager dans l’océan de la connaissance.

———

J’ai toujours rêvé de placer le cartel de la compote dans un billet de blog, j’avoue. ↩︎
Le replay n’étant plus disponible, voici un article résumant l’émission : Legrand, D. (2021). Cash Investigation s’intéresse à l’exploitation des données personnelles. NextInpact. https://www.nextinpact.com/article/45662/cash-investigation-sinteresse-a-exploitation-donnees-personnelles ↩︎
Sur Hank Asher et le LexID : Funk, M. (2023). The Man Who Trapped Us in Databases. The New York Times. https://www.nytimes.com/2023/09/22/magazine/hank-asher-data.html ↩︎
Reed Elsevier’s LexisNexis Acquires Seisint for $775 Million (2004). Spectrum Equity https://www.spectrumequity.com/news/reed-elseviers-lexisnexis-acquires-seisint-for-775-million ↩︎
Rich S. (2020), “Here’s a brief thread on decontextualized data and why it’s bad, through the lens of the data collected by my car insurance company for the purpose of determining a discount based on how I drive,” Twitter, https://twitter.com/dataeditor/status/1342877187251310592 ↩︎
Cf. note 3 ↩︎
Aczel, B., Szaszi, B., & Holcombe, A. O. (2020). A Billion-Dollar Donation : Estimating the Cost of Researchers’ Time Spent on Peer Review. MetaArXiv. https://doi.org/10.31222/osf.io/5h9z4 ↩︎
DFG-Committee On Scientific Library Services And Information Systems. (2021). Data tracking in research : Aggregation and use or sale of usage data by academic publishers. A briefing paper of the Committee on Scientific Library Services and Information Systems of the Deutsche Forschungsgemeinschaft. Zenodo. https://doi.org/10.5281/ZENODO.5937995 ↩︎
Rohrer, F. (2009). The Perils of Five-Star Reviews, BBC News Magazine. http://news.bbc.co.uk/2/hi/uk_news/magazine/8118577.stm ↩︎
Schonfeld, R. C. (2018). Big Deal : Should Universities Outsource More Core Research Infrastructure? Ithaka S+R. https://sr.ithaka.org/publications/big-deal-research-infrastructure/ ↩︎
Brown, A. (2021). Reddit Traders Have Lost Millions Over GameStop: But Many Are Refusing To Quit. Forbes. https://www.forbes.com/sites/abrambrown/2021/02/04/reddit-traders-have-lost-millions-over-gamestop-but-many-are-refusing-to-quit/ ↩︎
Shafer, J. (2007). What Really Happened in Minot, N.D.? Slate. https://slate.com/news-and-politics/2007/01/the-whole-story-about-that-toxic-spill-and-the-clear-channel-monopoly.html ↩︎
Zuckerman, E. (2020). The Case for Digital Public Infrastructure. Knight First Amendment Institute at Columbia University. http://knightcolumbia.org/content/the-case-for-digital-public-infrastructure ↩︎

FAIRiser ses formations

18 décembre 2021 / Cécile Arènes

Echelle 5 étoiles de l’open data. https://5stardata .info/en/

J’en étais à me dire que j’avais beau déposer certains de mes supports sur Zenodo, c’était loin de suffire et, surtout, c’était trop en décalage par rapport au discours que je répète sur la science ouverte (rendez vos données FAIR, utilisez des formats ouverts, déposez sur un entrepôts, etc.). Bref, il me fallait rendre ces supports entièrement reproductibles.

J’ai commencé à regarder attentivement la façon dont les collègues s’y prenaient. Certains déposent sur osf.io comme Mathieu, d’autres déposent leurs matériels sur Github comme Antoine. Suivant l’outil utilisé, on trouve du contrôle de version ou un DOI, mais rarement tout ça à la fois. J’en étais là de mes élucubrations lorsque j’ai lu cet article :

Garcia, Leyla, Bérénice Batut, Melissa L. Burke, Mateusz Kuzak, Fotis Psomopoulos, Ricardo Arcila, Teresa K. Attwood, et al. « Ten Simple Rules for Making Training Materials FAIR ». PLOS Computational Biology 16, no 5 (21 mai 2020): e1007854. https://doi.org/10.1371/journal.pcbi.1007854.

Voici les dix règles de cet article, qui répond assez simplement à toutes mes interrogations !

Rule 1: Plan to share your training materials online
Rule 2: Improve findability of your training materials by properly describing them
Rule 3: Give your training materials a unique identity
Rule 4: Register your training materials online
Rule 5: Define access rules for your training materials
Rule 6: Use an interoperable format for your training materials
Rule 7: Make your training materials (re)usable for trainers
Rule 8: Make your training materials usable for trainees
Rule 9: Make your training materials contribution friendly
Rule 10: Keep your training materials up-to-date

Voyons ces règles dans le détail. Les traductions de l’anglais sont les miennes, j’espère qu’elles sont à peu près correctes.

1. Prévoir de partager son matériel de formation en ligne

Se préparer

Qui n’a pas voulu partager un support de formation a posteriori, l’a rouvert, s’est demandé d’où venait telle illustration, puis s’est reproché d’avoir un lien mort à la suite d’une citation et a finalement renoncé en refermant rageusement ledit support ?

Partager son matériel de formation nécessite de réfléchir à ces questions en amont. Dès lors qu’elles sontanticipées, il est facile d’aller jusqu’à la diffusion.

Dans mon cas, j’archive désormais tout ce que j’utilise pour une formation, des images aux références, dans un dossier Zotero spécifique. Si j’ai mal rédigé une référence, ça arrive parfois, il est facile de la retrouver.

Astuce : pour éviter de s’arracher les cheveux avec des liens morts, on peut utiliser les plugins Memento ou Robust Link dans Zotero pour avoir un lien pérenne sur archive.org. J’avais un excellent exemple de plan de gestion des données pour les parties sécurité et sauvegarde ; le site de l’université a été refondu et le PGD a disparu, ô rage, etc.

Méthodes de partage

J’ai actuellement deux méthodes de partage de mes supports :

lorsque je dois utiliser powerpoint, je dépose la version corrigée à l’issue de la formation, ainsi que son export en pdf, sur Zenodo.
quand je suis plus libre des outils, j’utilise RStudio avec le package Xarrigan pour les slides, je crée un répertoire sur Github, puis je dépose ensuite le répertoire entier sur Zenodo. Dans ce second cas, l’ensemble du matériel, toutes les images, la bibliographie, les exercices peuvent être partagés facilement. C’est aussi plus facile de corriger le répertoire et de le mettre à jour sur Github et Zenodo que de devoir recharger fichier par fichier.

2. Rendez vos supports de formation faciles à trouver en les décrivant correctement.

Ici, je me borne à soigner les champs à remplir sur Zenodo et à ajouter des mots-clés, mais je ne vais pas au-delà…
Pour une formation, j’avais créé un fichier Readme assez conséquent à partir du modèle figurant dans ce dépôt :

Blumer, Eliane, Samath, Sitthida, Varrato, Francesco, & Borel, Alain. (2020, April 28). Optimizing your research data management. Zenodo. https://doi.org/10.5281/zenodo.3773657

3. Attribuez un identifiant pérenne à vos supports de formation

Le dépôt sur Zenodo me permet d’obtenir un DOI pour mes supports et de le lier à mon ORCID.
J’ai ajouté le logo pointant vers mon ORCID dans ma signature, je me dis que ça peut permettre aux curieux de voir ce que je propose en matière de formations.

4. Enregistrez vos supports de formation en ligne

La formulation de cette règle est curieuse, en français commme en anglais, mais il s’agit de déposer ses supports sur un entrepôt. J’ai déjà parlé de mon utilisation de Zenodo, je n’y reviens pas.

5. Définissez des règles d’accès pour vos supports de formation

« Sans entrave, sans délai, sans paiement », that’s the law!

6. Utilisez un format interopérable pour vos supports de formation

Si je reprends les deux méthodes que j’utilise :

des fichiers en pptx pour la première, puisque c’est l’outil de mon établissement et largement utilisé par mes collègues, et un export en pdf
des formats plus ouverts avec des fichiers en Rmd avec export en html et en pdf, ainsi que du png ou du jpg pour les images, mais il restait quelques docx et xlsx dans le dépôt, honte à moi 😉

7. Rendez vos supports de formation (ré)utilisables par les formateurs.

Voir des tas de supports partagés uniquement en pdf m’énerve au plus haut point. C’est en CC:BY, mais dans les faits on est réduit à recopier ou à faire des copies d’écran moches. Autant laisser des supports non réutilisables dans ce cas…

Chaque fois que vous ne partagez pas vos supports sous une forme vraiment réutilisable, un chat est contrarié.

C’est pour cette raison que j’ai commencé par partager les versions pptx de mes supports, puis à tester le Rmd pour qu’on puisse reprendre et adapter plus facilement les textes.

Actuellement, je bricole une base de connaissance issue des supports et de l’annexe de ma mémoire, aka Zotero (10 ans d’utilisation quotidienne, pas loin de 4000 références, des annotations, et je vous jure que pourtant j’y fais du ménage). Je complète cette base au fur et à mesure et j’espère qu’elle sera suffisamment exploitable pour être partagée un jour.

8. Rendez vos supports de formation utilisables par les stagiaires

Pour la règle 8, j’ai encore du travail, pour l’heure je me borne à envoyer les supports.

J’ai de grandes interrogations en ce moment en ce qui concerne lesdits supports : comme les structures dans lesquelles j’ai fait des présentations sont nombreuses à me les demander pour les absents, j’ai pris l’habitude de faire des supports dits « autoportants », c’est-à-dire qu’ils peuvent être compréhensibles par des personnes qui n’étaient pas présentes.

Inévitable conséquence, les supports sont de plus en plus chargés. Idéalement, il faudrait deux supports, un léger pour la formation elle-même, un dense pour l’envoi ultérieur. Et idéal de l’idéal, il faudrait que je rédige, un peu comme Mathieu l’avait fait pour ses formations OpenRefine.
Problème, j’ai besoin de 9h de sommeil par nuit…

Bobleponge31, https://commons.wikimedia.org/wiki/File:Marmotte_Gavarnie.jpg, CC BY-SA 3.0, via Wikimedia Commons

9. Rendez vos supports de formation accessibles aux contributions

C’était l’idée quand j’ai déposé du matériel sur Github. J’ai aussi indiqué dans le fichier Readme du dépôt Zenodo que tous les retours seraient les bienvenus.

10. Maintenez vos supports de formation à jour

Pour cette dernière règle, je plaide coupable… Je me console en me disant que mes supports sont quand même accessibles et réutilisables, c’est déjà deux lettres de FAIR de respectées.

Bref, quand j’aurai réussi à être au point pour les dix règles et les principes FAIR, vous pourrez m’offrir ceci !

Et vous où en êtes-vous de vos méthodes de partage de formation ?

En butinant #20/12

10 janvier 2021 / Cécile Arènes

D’octobre à décembre, une sélection très partielle de lectures diverses

Une formation avec Zoom

22 octobre 2020 / Cécile Arènes

J’en ai parlé sur twitter et j’ai promis de faire un billet rapide. Quelques petits trucs et astuces utilisées pour une formation à distance faite avec Zoom.

En butinant #20/9

10 octobre 2020 / Cécile Arènes

De mai à septembre, en vrac…

En BUtinant #20/4

1 mai 2020 / Cécile Arènes

Quelques lectures et grappillages de printemps

Installer Zotero sur un chromebook, et le chromebook en général

20 avril 2020 / Cécile Arènes

Note, trois ans plus tard : ce tutoriel est ancien, il est probablement périmé…

Où le vieux Mac rendit l’âme et où il fallut le remplacer, dans les mois compliqués de l’année 2020, qui fut comme chacun sait à nulle autre pareille. Il fallut donc faire le deuil du Mac et renoncer à en acheter un nouveau, les livraisons en direction du logis ayant fâcheuse tendance à s’évaporer au pays des rapines. Sur le site de dame Fnac, qui faisait la réclame d’une livraison par coursier, on a procédé par tri croissant de prix . Ledit coursier se perdit un peu, on s’inquiéta beaucoup, mais la machine finit par arriver, et l’on se retrouva muni d’un Chromebook, 300€ en soldes, en faisant la grimace des jours où l’on a oublié son stylo plume et où l’on se trouve contrainte et contrite d’écrire au stylo Bic. Ça commençait mal.

Le Chromebook fonctionne sous Chrome OS, qui n’est pas reconnu par grand chose. Première déconvenue, la messagerie professionnelle, Outlook web app, ne s’affiche qu’en version light, ce qui empêche par exemple de consulter les boîtes génériques dont on a la responsabilité. Côté traitement de texte, la publicité vantait qu’on pouvait installer la suite Microsoft Office, mais c’est une suite office light, la même que celle pour les téléphones. En fait, un Chromebook basique, c’est un peu un téléphone avec une coque d’ordinateur. On pioche dans les applis Android et on a des applis pour téléphone. Pour certaines d’entre elles, l’affichage n’est même pas adapté à l’ordinateur. Pour peu qu’on veuille utiliser quelques logiciels spécifiques, il faut donc très rapidement activer Linux, qui est déjà installé sur le Chromebook.

L’activation de Linux se fait très facilement dans les paramètres, juste un curseur la première fois à cocher une fois pour toutes. Ensuite, il va falloir parler à Linux via le Terminal, en employant des lignes de commandes. C’est là que les choses se compliquent.

Trêve de plaisanterie, j’avais l’intention de faire seulement quelques tweets au sujet du Chromebook avant que des échanges – toujours sur Twitter, avec @boite_a_outils ne me fassent réaliser que de nombreux étudiants s’équipent avec ce genre de machines et qu’ils sont bien en peine ensuite d’utiliser un certain nombre de logiciels, dont Zotero. Et me voilà en train de bloguer, devant l’effroyable réalité qui consisterait à se passer de Zotero.

Finissons-en avec le Chromebook lui-même, qui n’a qu’un avantage à mon sens, son prix. Si vous êtes un peu geek et que vous avez le goût d’aller lire des forums pour comprendre comment procéder, tout va bien, restez-en au Chromebook. Si vous êtes mal à l’aise avec l’informatique et que vous pouvez mettre un peu plus cher, faites-le. Pour donner des exemples simples, j’avais téléchargé Pandoc sur le Mac (au passage, c’est génial, Pandoc, merci @arthurperret), ce qui requiert d’utiliser le terminal et je m’étais un peu familiarisée avec, mais mes connaissances restent très limitées. Sur le Chromebook, j’ai réussi à installer Firefox sous Linux, mais je n’ai toujours pas le son. De même, mon imprimante très récente et le Chromebook ne se reconnaissent pas alors que l’installation avait pris moins de cinq minutes sur le Mac. Et ce matin, c’est Atom ne se lançait pas sans que je comprenne le problème. Tout ça doit pouvoir se régler facilement, mais avec l’âge je mollis, j’ai la flemme de chercher.

Installer Zotero

Cela dit, il fallait installer Zotero. Je me suis donc plongée, en jurant que c’était bien la dernière fois, dans les forums pour l’installer. A vrai dire, j’ai d’abord tenté l’installation via Linux, qui a planté et je suis allée piteusement sur les forums de Zotero qui sont de vraies mines d’informations pour les présomptueuses dont je suis qui pensent pouvoir s’en sortir en un clic.

Le procédure la plus simple que j’ai trouvée est celle-ci. Trois lignes de commande, et c’est presque tout.

wget -qO- https://github.com/retorquere/zotero-deb/releases/download/apt-get/install.sh | sudo bash
sudo apt update
sudo apt install zotero

[Je les note ici mais avant de vous lancer, lisez attentivement la page citée ci-dessus]

Pour ceux qui ne seraient pas du tout familiers du Terminal, je détaille pas à pas. Il faut taper chaque ligne de commande sans faute (pas de souris dans le terminal, si vous vous trompez, vous devrez vous déplacer avec les flèches), puis appuyer sur Entrée, avant de laisser votre machine travailler, puis de taper la ligne suivante quand ça vous est demandé. A moment donné (de mémoire, entre la deuxième et la troisième ligne), la question suivante vous sera posée :

C’est tout bête, mais au cas où, quand on vous demande si vous êtes d’accord [Y/n], vous devez taper Y et appuyer sur Entrée.

Une fois l’installation terminée, vous trouverez votre Zotero installé avec les applis Linux dans toutes les applis de votre Chromebook et vous pourrez le lancer comme sur n’importe quelle autre machine.

Il ne vous restera plus qu’à ajouter le connecteur sur Chrome via la page de téléchargement sur le site Zotero et vous pourrez utiliser votre logiciel de bibliographie préférée !

Et comme vous serez très heureux d’utiliser Zotero, un petit cadeau piqué dans Le Bureau des légendes, saison 5, épisode 3, où ces agents chevronnés décodent le message d’un espion nerd.

« Et booléen, heu, j’ sais pas trop ce que ça veut dire.
– Booléen c’est vrai ou faux.
– Ou alors oui ou non.
– Il nous demande ce qu’il doit faire !
– J’imagine. »

Vous, vous avez su ce que vous demandait ce satané terminal, vous avez écrit Y et vous avez votre Zotero tout beau !

En BUtinant #20/2

21 février 2020 / Cécile Arènes

Quelques lectures et grappillages d’hiver

Introduction to Digital Humanities

22 juin 2019 / Cécile Arènes

J’ai suivi ces dernières semaines le MOOC de Harvard, Introduction to Digital Humanities, sur la plateforme EDX. C’est un très bon cours pour découvrir le sujet et en comprendre les multiples facettes. Le cours n’est malheureusement plus accessible, tout a été retiré après huit semaines environ (l’accès aux archives est disponible moyennant 99$). Il sera probablement repris, d’où ce billet.

Le MOOC est structuré en cinq axes. Après un rappel sur l’histoire de la discipline, le premier axe est constitué de plusieurs présentations de projets en humanités numériques, avec des retours d’expériences de chercheurs et de bibliothécaires. Des projets de musées sont également présentés.

Le second axe porte sur les outils auxquels les chercheurs ont eu recours. Démonstrations d’encodage de texte en TEI et utilisation de Gephi sont à l’honneur dans cette partie du cours. Rien de neuf si vous travaillez en BU et que vous faites de la veille régulièrement, vous avez comme moi déjà entendu parler de ces outils, même sans les avoir testés. Ce qui m’a sans doute le plus intéressée est le retour d’expérience d’une historienne qui a travaillé sur des cartes historiques de l’empire russe. La chercheuse a travaillé à reprendre de nombreuses cartes historiques, afin de fournir des outils d’analyse sur la démographie et bien d’autres données à l’époque de l’empire russe. Elle explique sa démarche et son apprentissage des outils de GIS (Geographic Information Systems) et c’est assez passionnant.

Le troisième axe du cours est beaucoup plus technique. Il est consacré aux données, à leurs types, à leur structuration et à la façon de générer des données. Contrairement aux modules précédents, presqu’exclusivement constitués de vidéos, ce chapitre est plus aride, avec des définitions et des bouts de code. Vous n’ignorerez plus rien des API et de l’OCR si vous le suivez correctement. Plusieurs vidéos sont consacrées à la question des licences et du copyright, avec une assez longue présentation des Creative commons.

Dans l’axe quatre, on apprend à, soyons fous, installer une machine virtuelle sur laquelle installer Ubuntu, puis à apprivoiser sur celle-ci les lignes de commande de base. Si vous utilisez pandoc pour convertir vos fichiers, vous aurez déjà testé certaines des commandes et ne serez pas surpris. Les vidéos qui permettent ensuite d’exploiter des données, comme par exemple rechercher des occurrences dans un poème, sont loin d’être toutes accessibles. Dans la version gratuite du cours, on dispose des fonctionnalisés de base, mais on ne peut guère en découvrir davantage sans s’acquitter de 99$ (peut-être faudrait-il parler de MOC, non de MOOC ?).

Dans le dernier axe, vous apprendrez à utiliser l’outil Voyant qui est assez fascinant à tester. Je vous laisse copier-coller du texte en .txt et vous amuser. Personnellement, j’ai testé avec un fichier .txt d’Ulysse de Joyce récupéré sur le site du Projet Gutenberg.

***

Un très bon cours pour découvrir les humanités numériques, même si le temps imparti est, de mon point de vue, assez juste pour explorer toutes les pistes données au fil des vidéos et autres ressources. Le nombre de projets présentés à explorer une fois le cours achevé est conséquent, ce qui permet de continuer l’apprentissage.

A noter qu’Harvard a mis en ligne, toujours sur EDX, une série de cours sur la visualisation de données, le langage R et bien d’autres.

Oraux de bibliothécaire interne, session 2017

28 juin 2017 / Marion Brunetti

Ayant été candidate à de nombreux concours et lauréate parfois, j’ai parcouru régulièrement les retours d’écrits et d’oraux de concours aussi je me suis laissée convaincre par Cécile de vous écrire un billet sur mes oraux de bibliothécaire interne (session 2017) – Marion B.

Avant de vous soumettre les références des textes et les questions qui m’ont été posées, je souhaite vous en dire un peu plus côté contexte. On entend beaucoup de choses sur les jurys de concours et avant tout je tiens à mentionner que les deux commissions devant lesquelles je suis passée étaient bienveillantes. J’en parle d’autant plus qu’on a cherché à nous préparer au pire en formation pour l’oral de culture générale et que cela me stressait énormément. Les jours J, j’ai eu devant moi un jury de culture générale qui ne m’a pas ri au nez même si mes connaissances n’étaient pas assez approfondies, quant à l’oral de motivation professionnelle, j’ai vraiment eu l’impression de parler, de façon formelle certes, avec des encadrants de mon métier. Il m’a souvent été précisé que le jury cherchait avant tout à recruter des collègues et je trouve que c’était visiblement le cas sur ces oraux.

Pensez donc aussi à l’image que vous renvoyez, à votre attitude. Le jury veut voir également comment vous vous comporterez dans la vie professionnelle et ici d’autant plus qu’en tant que bibliothécaire vous risquez fortement (de plus en plus à l’avenir) d’être amené·e à manager. A une question que vous ne connaissez pas, vous pouvez bien sûr élargir “je ne saurais pas dire mais par contre du point de vue de…” (sans chercher à noyer le poisson dans l’eau toutefois…) mais si rien ne vient mieux vaut un “je vous avoue que je ne sais pas” poli et posé à une attitude agressive ou démoralisée. Et un conseil : pensez à sourire ! On me l’a répété x fois en oraux blancs, j’ai finalement réussi à le faire le jour J, ce n’est pas ce qui vous fera réussir le concours mais une attitude positive malgré le stress est toujours bienvenue.

Au vu des discussions avec mes collègues de prépa concours pour les épreuves orales, je précise que j’ai vu une nette différence dans le niveau exigé en culture générale en externe et en interne. Quand je vois les questions proposées ici, je me rends compte de la chance que j’ai eue.

Une dernière chose avant d’enfin arriver à la partie que vous attendez : apprenez à gérer le stress, autorisez-vous de la détente, des moments où vous dites stop à la pression. Pour moi une partie non négligeable du concours repose là-dessus, surtout si vous êtes de nature stressée. Vous ne saurez pas tout sur tout, alors privilégiez la méthodologie et gardez vous un espace de vie. Je me suis offert 48h de jeu de rôle grandeur nature (GN) pendant mes révisions et je n’ai pas regretté : j’ai fait le vide dans ma tête, la pression qui annihilait mes capacités de révision est retombée et je pense avoir été bien plus efficace après.

Et voici (enfin) ce que vous attendiez :

Oral de Culture Générale

Texte : Abescat Michel, 2016, « “Rose bobonne” : pour les filles, la littérature jeunesse ne voit la vie qu’en rose », Telerama, 24 décembre 2016.

Thème : Stéréotypes de genre en littérature jeunesse

Mon plan :
I Genre et littérature jeunesse
II Genre et marketing jeunesse

Questions :

Y a-t-il un média moins genré que le livre pour la jeunesse ? (attendu : la télé)
Pouvez-vous nous parler de la loi sur la parité ?
Pouvez-vous nous parler des mouvements de libération de la femme à travers le temps ?
Pouvez-vous nous citer des noms de femme en politique ?
Et une qui a été “plus que Ministre” ? (attendu : Edith Cresson)
C’était quand ?
Connaissez-vous des femmes chefs de grandes entreprises ?
Que pouvez-vous nous dire sur l’édition jeunesse ?
Vous avez parlé des livres en supermarché, entre la librairie indépendante et le supermarché il y autre chose ? (attendu : Fnac, Amazon)
Et en terme d’ebooks et de bibliothèques, vous connaissez quelque chose qui favorise les librairies ? (attendu : PNB)
Une initiative ministérielle pour justement lutter contre les stéréotypes de genre ? (attendu : les ABC de l’Egalité, s’en est suivi une discussion sur “A poil la maîtresse” et l’affaire “Tango a deux papas”)
Vous avez parlé d’héroïnes de jeux vidéo aux mensurations improbables, vous pouvez nous en citer ? Et savez-vous s’il y a des mouvements sur le sujet dans le milieu du jeu vidéo ? (attendu : Lara Croft et ses nouvelles mensurations plus réalistes)
N’y a-t-il pas un autre mouvement artistique qui a récemment milité pour la reconnaissance des femmes ? (attendu : l’affaire du festival d’Angoulême où seuls des auteurs hommes étaient nominés)
Pouvez-vous nous parler de femmes auteures de BD ?

Oral Motivation Professionnelle

Texte : Sève Marie-Madeleine, 2016, « Gestion d’équipe : Faire face à une équipe hostile », Entreprises et Carrières, 6 septembre 2016.

Thème : Stratégies pour faire face à une équipe hostile

Mon plan :
I Les stratégies possibles
II Les limites