Web sémantique : catalogage reloaded ? – Liber, libri, m. : livre

Journée du 26/06/2008, auditorium du MNHN

Où l’auteur de ce blog revient d’une journée sur le web sémantique, essaie d’en rédiger le compte-rendu pour le publier céans avant de mesurer l’étendue de son ignorance informatique et de décider de vous conter une jolie histoire**.

Il était une fois un informaticien qui rencontra une bibliothécaire. Chignon ou pas, t-shirt tâché de pizza ou pas, l’histoire n’en dit mot. Ce que l’on sait, par contre, c’est que ces deux êtres que tout séparait à première vue, se découvrirent un point commun : les données. Elle se désolait des rires qui fusaient dès qu’elle parlait de $a et d’autres grossièretés marciennes, et rêvait de termes communs à toutes les données. Lui, déjà séduit par cette jeune femme, se dit qu’il inventerait par amour un langage qui satisfasse son besoin de normalisation et qu’il lui offrirait l’interopérabilité dont elle rêvait. Et des amours, desquelles nous parlons, naquirent des rejetons qui ne gazouillèrent pas « areuh, areuh » mais « uri, uri ». Le web sémantique était né.

Venons-en maintenant à un petit résumé de la journée (n’hésitez surtout pas à me corriger si je me mélange les balises ;-)). Je tiens à dire que j’ai été impressionnée par la limpidité des communications des intervenants. La néophyte que je suis est ressortie en ayant l’impression d’avoir tout compris ! Pour un vrai compte-rendu, cependant, je ne saurais que trop vous conseiller le travail de Cécile Touitou, de Tosca Consultants (co-organisateur de cette journée). Les slides devraient être mis en ligne, je les attends avec impatience et je ferai une mise à jour du billet dès que ce sera le cas.

Raphaël Troncy, chercheur au CWI (Center for Mathematics and Computer Science)

Ce chercheur a rappelé les origines et les évolutions du web : html, http, url puis xml, dtd…

xml : langage qui sépare les données de la présentation, le fond de la forme. Métalangage.

dtd : standardise les structures (balises autorisées, attributs et enchaînements).

Il a ensuite présenté les principales caractéristiques du web sémantique. Le web sémantique est un web de données, à savoir que chacune d’entre elles est dotée d’une URI (Uniform Ressource Identifier), une sorte de plaque d’immatriculation. Le langage utilisé est le RDF : Ressource Description Framework, c’est la première couche du web sémantique. Le RDFS (S pour schéma) permet de construire des triplets, sous la forme sujet/prédicat/objet, qui seront compréhensibles par la machine. Là, la littéraire a vu réapparaître ses bons vieux cours de grammaire et en était ravie 🙂 La machine va pouvoir donc pouvoir effectuer des requêtes composites. C’est SPARQL qui permet d’effectuer lesdites requêtes (pour faire geek, dites « requêter en SPARQL » ;-)).

On parle aussi de Linked Data pour le web sémantique : les données, une fois identifiées, peuvent être reliées entre elles, presque à l’infini. On s’achemine donc vers un graphe géant.

Pour résumer, si j’ai bien tout compris, le web sémantique fonctionne selon un modèle proche de notre FRBR. En réalité, les catalogueurs sont de grands sémantiques qui s’ignorent ! Il s’agit cette fois pour nous de ne plus créer notre langage dans notre coin mais de participer à une grande aventure commune qui nous ouvrirait des perspectives géniales et qui nous offrirait une visibilité accrue.

Deux exemples de web sémantique : DBpedia et Geonames.

Olivier Walbecq, Archimed

Bibliothèque 2.0 : donner des espaces d’échanges entre les utilisateurs, créer des communautés, rendre l’utilisateur contributeur.

Fonction du web sémantique : analyse de documents, recherche intelligente, analyse des comportements.

Applications en bibliothèques : à partir d’une sélection faite par l’utilisateur, analyse sémantique et propositions.

Remarque de Gautier Poupeau : il s’agit là de recherche sémantique, non de web sémantique.

Lucile Grand, direction des Archives de France

Présentation du projet du Guichet unique du Ministère de la culture, pour permettre une recherche plus aisée au sein des nombreuses bases du ministère. Effort fait pour la généalogie (exemple des variantes de noms comme Le Normand ou Lenormand).

Dominique Stutzmann, BnF

Nouveau département à la BnF : département de l’information bibliographique et numérique, fusion de la Bibliothèque numérique et de la Bibliographie nationale.

A présenté les différents projets de la BnF dans ce domaine.

Pas plus de détails, j’avais faim, j’avoue ! Et je comptais sur les slides :’-(

Yann Nicolas, ABES

Le SUDOC est né de la fusion de trois bases. Quand l’ABES a réalisé cette fusion, d’immenses cartes de tous les formats existants étaient affichées, sorte de land art bibliothéconomique* 🙂

Aujourd’hui, il va s’agir de faire interagir 3 applications : SUDOC, Calames et STAR.

Bref historique du web et du catalogage :

Web 1.0 : Z39.50, FTP, hyperliens 856.

Web 2.0 : SRU, xml, AJAX.

Limites du web 2.0 : pas très générique.

Web sémantique : RDF, RDF & OWL ; RDF/XML & RDFa & SPARQL (SRU qui ne parle pas qu’aux bibliothécaires) ; AJAX. Argh ! Que n’ai je les slides pour vous détailler tout cela. Bis repetita…..

Le web sémantique excite les bibliothécaires qui ont l’impression que leurs vices cachés vont enfin pourvoir s’exposer au grand jour. Si ! Si !*

Calames bientôt en RDF + plugins (Operator : identifie les ressources par URI).

Isabelle Westeel, médiathèque Jean Lévy, Lille

Authenticité des données grâce aux URI versus les moteurs actuels qui indexent des liens commerciaux sans faire de distinction.

Web sémantique : fondé sur les métadonnées, vise à créer des liens entre elles.

Web 2.0 : services

Web sémantique : données

Le web sémantique remet le traitement des données et de l’information au coeur de la bibliothéconomie et du métier (importance du catalogage).

La BM de Lille commence à cataloguer un certain nombre de ressources de la bibliothèque numérique en utilisant le RDF et en attribuant une URI à chacune des données. La question de la pérennité des URI se pose.

Gautier Poupeau, Atos Origin

Le web de données et le web social se complètent, ils ne sont pas disctincts. Notion d’utilisacteur : intégrer les contributions de l’usager au travail du professionnel. Grâce à l’identification de chaque donnée, le problème de la validité de l’information est résolu et l’utilisacteur peut commenter et tagguer gaiement.

Jusqu’à maintenant, la notice était assimilée à un document, pas à des données. Maintenant, chaque composante de la notice, chaque donnée aura son URI. On ne répète donc plus les données, on les lie entre elles.

Bibliothèques : FRBR (modèle), Marc (format), Z39.50, SRU/SRW (protocole)

Web de données : RDF (modèle), Dublin Core, SKOS, MarcOnt (format), SPARQL (protocole)

SPARQL : interroge du RDF. C’est un Z39.50 partagé à l’ensemble des utilisateurs du web.

Web sémantique = web de données géant.

Interview de Tim Berners Lee dans « La Recherche » : le web est un gisement énorme de données. Web sémantique = les relier.

Le web et les bibliothèques ont chacun des besoins qui convergent : le web a besoin d’une structuration des données (notamment à cause de leur croissance exponentielle) Du côté des bibliothèques, on sait déjà structuré les données mais on a besoin d’effectuer un décloisonnement salutaire. Du côté du SIGB, cela passe notamment par le fait d’aller d’un système intégré (top down) vers un système modulaire (bottom up). En effet, le but est de parvenir à une portabilité des données, de créer des ponts entre les différents silos de données. Décloisonner la communauté des données : importance des mashups qui rassemblent les données éparses.

En guise de conclusion, je vous dirai que ce fut une journée extrêmement intéressante et que j’ai eu l’impression d’écouter des personnes qui avaient une vision panoramique sur la bibliothéconomie de demain, avec sans doute quelques années d’avance sur nos pratiques 🙂

Pour aller plus loin, je ne peux que vous renvoyer vers le blog de Gautier Poupeau et vers le Figoblog (notamment ce joli article) où l’on trouve beaucoup de billets sur le sujet. Et bien sûr, ne manquez pas les sites du W3C et Web sémantique.

Update le lendemain : je découvre ce matin via Pintini que les recommandations du W3C ont été traduites en français.

** L’allusion aux amours de la bibliothécaire et de l’informaticien n’est pas de moi, la broderie qui suit est par contre née de mon imagination débordante. Et vous aurez reconnu un petit bout de vers de Ronsard dans mon histoire (palimpseste, quand tu nous tiens…).

* Ceci ne vous apporte rien mais c’était si joli que je ne saurais vous en priver, dans ma grande bonté !

3 Comments

Lionel Dujol
4 juillet 2008 at 9 h 00 min

Utilisacteur … j’aime bien bien ce concept !
Sophie
4 juillet 2008 at 21 h 25 min

des compte-rendus comme ça on en veut tous les jours 😉
Liberlibri
20 juillet 2008 at 18 h 06 min

@ Sophie : merci 🙂

@ Lionel : je le trouve parfaitement juste. Il fera sans doute l’objet d’un prochain billet.