L’archivage du web : de la mémoire immédiate au patrimoine mondial ?

Conférence de Gildas Illien, BnF, à la bibliothèque Buffon, Paris.

A l’heure actuelle, la représentation que l’on se fait du web n’est pas patrimoniale : pourtant, il est urgent de démontrer que le web appartient au patrimoine et d’expliquer la notion de cet héritage qui se transporte vers un autre support.
Internet est un média qui permet de nouvelles formes d’expression que l’on se doit archiver. Il est essentiel de conserver ce matériau pour assurer la continuité du patrimoine et de la mémoire. L’archivage du net a débuté en 2006.
Internet présente la spécificité de combiner communication et information, créant des “zones grises”, ce qui va conduire à de nouvelles interprétations de l’espace public.

L’histoire du dépôt légal est à la fois marquée par des grandes inventions (1537 : DL livres, 1925 : DL photos, 1975 : vidéogrammes, 1992 : documents audiovisuels…) et par des faits de société (collectes de tracts pendant les élections). Le dépôt légal ne juge pas mais il a la prétention de l’exhaustivité.
En France, le DL est lié au territoire : on collecte ce qui est produit en France. En Suisse, il concerne tout ce qui a trait à la Suisse [update : sur le cas de la Suisse, voir les précisions dans le commentaire de Sous la poussière, ci-dessous]. D’autres pays collectent ce qui paraît dans leur langue.

Cadre juridique du DL du web : le titre IV de la loi DADVSI étend le DL au web puisque “sont également soumis au dépôt légal les signes, signaux, écrits, images, sons ou messages de toute nature faisant l’objet d’une communication au public par voie électronique.” Désormais dans le code du patrimoine.
Avec le web, c’est la bibliothèque qui s’occupe de la collecte. La seule obligation pour l’éditeur est de “fournir les codes et les informations techniques susceptibles de favoriser l’archivage de leur site en cas de difficulté”.

Dépôt légal : avec l’imprimé, on avait les moyens de tout conserver. On ne les a plus avec Internet : responsabilité intellectuelle dans les choix de collectes.
Le DL monographies représentait plus de 70.000 titres en 2008. Les sites en “nomdedomaine.fr” sont environ un million et ils ne représenteraient que le tiers des sites français. Un site français est défini par son extension .fr, ou par le fait que le responsable d’édition a son siège en France, ou parce que son contenu a été produit en France.

Du point de vue d’un robot, la notion de document n’existe pas, le robot ne voit qu’une continuité d’adressage.
2 approches pour la collecte :
– une approche inspirée des Scandinaves avec des collectes très larges : le résultat est un instantané assez superficiel,
– une approche inspirée des Anglais avec un choix de sites d’excellence et validés : le résultat est trop limité.
La BnF réalise des collectes des deux types.
A l’heure actuelle : 136 teraoctets de fichiers, 12 milliards de fichiers.
La collecte se fait par d’une URL, puis par liens à partir de cette URL (graines ou seeds).
Le logiciel utilisé est un logiciel libre, Heritrix.

Le service du DL du web se compose de 7 ETP et d’un réseau de 80 correspondants qui veillent sur des sujets ciblés. Parmi les 7 ETP, des chargés de collections numériques (affectueusement nommés “mutants” puisqu’ils sont capables de parler aux robots et aux humains) et des ingénieurs. L’informatique et la bibliothéconomie sont de plus en plus souvent amenés à se rencontrer.
Le travail du “mutant” est de veiller à ce que le robot ne tombe pas dans des pièges : les calendriers génèrent des liens jusqu’en 2050 par exemple.
Le format utilisé est le format (W)ARC (actuellement ARC, bientôt WARC), qui est cours de normalisation à l’ISO. L’archivage est daté.
Les serveurs qui conservent les collections du web pour le libre accès sont appelés les petaboxes (les stars, dont j’espère bien que vous pourrez voir des photos si la présentation est mise en ligne, je surveille. A propos, j’avoue que j’ajoute Petabox à ma liste de noms pour l’hypothétique poisson rouge/combattant/japonais qui rejoindra peut-être un jour mon bureau ;-)).
Les données seront conservées dans l’entrepôt numérique de la BnF, SPAR, en OAIS.

A l’heure actuelle, la recherche dans les archives peut se faire par URL et par dates de capture. Pas encore d’indexation plein texte, mais on peut toujours espérer qu’un jour nous aurons un équivalent libre de Google.

Consortium IIPC : collecte de l’Internet sur 3 continents (Europe, Asie, Amérique du Nord, Océanie) : souvent archives et bibliothèques nationales.
Lobbying pour qu’il y ait une loi sur le DL du web dans chaque pays.

Exemples de parcours dans ces archives :
– les élections présidentielles (ce site-là est par exemple archivé),
– S’écrire en ligne

Services à créer : un listing des sites archivés pour faciliter la recherche. La consultation ne se fait que sur les sites de Tolbiac et Richelieu : dans la mesure où la collecte concerne aussi des données payantes, la consultation ne peut pas être libre.

Les juristes sont intéressés par ce type de ce service qui leur permet de savoir à quel moment une information a été modifiée (grâce à la date d’archivage).

Une conférence passionnante, vraiment :-)

Voir aussi la page de la BnF sur le DL du web