Comprendre le dépôt légal du web

La BnF assure le dépôt légal du web français. Sa collection de sites archivés, qui est parmi les plus anciennes et les plus riches dans le monde, est ouverte à toute personne justifiant d’une recherche.

Salle des machines © Gilles Coulon/ Tendance Floue/ BnF

Cadre juridique

Le dépôt légal, institué au XVI^e siècle, a pour objectif de conserver la mémoire de toute la production éditoriale française, quel que soit le public visé (production scientifique, artistique, de loisir, etc.). Il s’est adapté à l’évolution des supports et permet la constitution d’une collection patrimoniale unique en son genre et irremplaçable.

Ainsi depuis la loi DADVSI (Loi sur les droits d’auteur et les droits voisins dans la société de l’information) votée le 1^er août 2006 et son décret d’application, voté en 2011, la Bibliothèque nationale de France a pour mission de collecter, conserver, signaler et communiquer les sites web du domaine français au titre du dépôt légal. Contrairement au dépôt légal traditionnel des publications imprimées, le dépôt légal du web n’oblige à aucune démarche active de la part du producteur de site, les collectes se faisant de manière automatique à l’aide d’un robot. Cette loi qui a transposé en droit français la directive européenne relative au droit d’auteur et aux droits voisins dans la société de l’information a également permis l’adoption d’un certain nombre d’exceptions au droit d’auteur et aux droits voisins dans la législation française.

Elle a notamment introduit dans le code du patrimoine (articles L. 132-4, L.132-5 et L.132-6) une exception aux droits de propriété intellectuelle (droit d’auteur, droits voisins et droit des producteurs de bases de données) en faveur des organismes en charge du dépôt légal. Les organismes en charge du dépôt légal peuvent ainsi désormais licitement sans avoir à requérir d’autorisation préalable, ni à verser de rémunération (Code du patrimoine, articles L131-1 à L133-1 et R131-1 à R133-1) :

reproduire sur tout support et par tout procédé les œuvres pour les besoins du dépôt légal : collecte, conservation, consultation,
offrir à la consultation ces œuvres sur place, à des chercheurs accrédités, sur des postes individuels de consultation.

Fonctionnement du robot de collecte

La BnF utilise Heritrix, un robot crawler, soit le principe d’un « aspirateur » ou d’un « moissonneur » de sites. Lancé sur une liste d’adresses URL de départ dites « graines », il en extrait les liens dans le code des pages, en les suivant tel un internaute automatisé. Il copie ensuite les éléments (pages, images, etc.) qu’il trouve et qui font partie du périmètre de la collecte.

Fréquence et profondeur

La fréquence et la profondeur (tout ou partie d’un site) des collectes sont adaptées selon la nature des sites et au rythme de leurs mises à jour afin d’en conserver des versions successives et représentatives de leur évolution. Chaque capture est datée et référencée avec précision, ce qui permet ensuite, via l’application Archives de l’internet, de remonter le temps et de naviguer à l’intérieur des sites archivés.

Points d’attention et limites

Les technologies du web évoluent plus vite que les outils de collecte et il peut donc arriver que le robot moissonneur ne collecte pas un site dans son intégralité. C’est le cas notamment des sites à affichage dynamique. Parfois les robots de la BnF sont bloqués par certains sites, empêchant ainsi leur collecte.

La collecte des réseaux sociaux est instable : selon les périodes, la collecte de certains contenus (Facebook, Instagram, Twitter) est partielle ou impossible en raison des contrôles de sécurité. Ainsi, la collecte des contenus Facebook n’est plus possible depuis la fin de l’année 2020 et depuis juillet 2023 pour Twitter.

Lorsqu’elles sont intégrées à un site, les vidéos ne peuvent être collectées pour des raisons techniques. On retrouve toutefois dans les collections des vidéos issues de chaînes Youtube (depuis 2017) et de chaînes Dailymotion (de 2007 à 2013).

Organisation des collectes

La collecte ne prétend pas à l’exhaustivité mais repose sur un principe de représentativité. La BnF conjugue à cet effet deux modes de collecte complémentaires :

la collecte large : réalisée une fois par an, l’objectif de cette collecte est d’avoir un échantillon du plus grand nombre de sites possibles. La liste de ces sites lui est communiquée par des bureaux d’enregistrement partenaires, tels que l’Association française pour le nommage de l’internet en coopération (Afnic) et OVH. Chaque année, la BnF tente d’améliorer la couverture du web : entre 2007 et 2022, le nombre de domaines collectés est passé de 0,9 millions à 5,8 millions (soit environ 60% du web français).
les collectes ciblées : ces collectes ont des paramètres de fréquence et de profondeur variables sur plusieurs dizaines de milliers de sites sélectionnés par des bibliothécaires, à la BnF et dans les bibliothèques de dépôt légal imprimeur en région ainsi que par des spécialistes ou des chercheurs.

Au sein de ces collectes ciblées, les collectes dites « courantes » portent sur des sites de référence, dans la continuité des autres types de collections de la BnF. Les collectes projets, en coopération, documentent quant à elles les thématiques transverses, ou les événements majeurs, à l’instar des élections.

Enfin il existe des collectes d’urgence qui concernent des événements inattendus ayant un fort impact sur la société et qui sont relayés de façon spontanée dans les réseaux sociaux.

L’actualité est bien représentée dans les collections au travers des sites de presse en ligne, des journaux au format PDF des titres de la presse quotidienne régionale et des réseaux sociaux.

Principes de selection documentaire

Constituées par la BnF et ses partenaires en région, ces collections couvrent un très large spectre de champs disciplinaires et de thématiques. Elles visent à constituer, par échantillonnage, la mémoire du web français, et à rendre compte de la diversité de ce média incontournable pour l’étude des représentations, des évolutions de nos façons de créer, communiquer, se divertir, militer, voyager, etc. Les plus anciennes collections ont été acquises rétrospectivement auprès d’Internet Archive pour la période de 1996 à 2000.

A défaut d’exhaustivité, un objectif de représentativité et d’échantillonnage est retenu pour capturer les actions, les savoirs, mais aussi les idées, les représentations qui circulent sur le web sur un sujet donné et rendre compte de la diversité du web, média et espace d’échange.

Les sélections complètent et prolongent les collections imprimées de la BnF, suivant la Charte documentaire. Il s’agit ainsi de :

Collecter des objets désormais nativement numériques : programmes des candidats, carnets de recherche, programmes de spectacle, etc.
Couvrir l’actualité de la recherche dans une discipline donnée : sites académiques, organisation d’un champ disciplinaire, colloques et événements, organismes et programme de formation
Capturer les appropriations d’un domaine par divers acteurs, diversité des actions et représentations (web académique mais aussi blogs d’amateurs en histoire, blogs d’écrivains connus et blogs de lecteurs, sciences participatives, ressources sur la musique savante comme populaire)
Documenter les pratiques émergentes (écritures en ligne, art numérique), amateurs et les sites du quotidien (jeux vidéo)
Rendre compte des débats d’idées et de la diversité des opinions
Documenter le renouvellement des formes d’engagement et militantisme avec l’arrivée d’internet, vote en ligne, administration en ligne…

Découvrir les collections d’archives du web de la BnF

Contact

Dépôt légal des sites web

depot.legal.web@bnf.fr

Comprendre le dépôt légal du web

Cadre juridique

Fonctionnement du robot de collecte

Fréquence et profondeur

Points d’attention et limites

Organisation des collectes

Principes de selection documentaire

Contact

Dépôt légal des sites web

Catalogue général

CCFr

Data

Gallica

Archives et manuscrits

Médailles et antiques