Le dépôt légal numérique
Le dépôt légal des documents audiovisuels
La BnF est dépositaire des documents sonores depuis 1925, des vidéogrammes, documents multimédias composites depuis 1975 et des documents multimédias, logiciels et bases de données depuis 1992. Elle a suivi les transformations numériques de ces différents secteurs, avec des documents d’abord diffusés sur support et de plus en plus dématérialisés. Quelle que soit leur forme, Ils sont aujourd’hui soumis au dépôt légal et sont pris en charge par le département Son, vidéo, multimédia.
Les documents en ligne : le dépôt légal des sites web
Dès 1999, la BnF a considéré que sa mission de conservation patrimoniale devait s’appliquer à l’internet et aux publications numériques en ligne. Cela a nécessité la mise en place d’un circuit complet d’archivage des sites web, ainsi que l’adaptation des principes scientifiques et patrimoniaux du dépôt légal au contexte de l’internet.
La BnF a testé la collecte automatique pour la première fois en 1999, dans le cadre du projet européen NEDLIB, puis a réalisé un « instantané » du domaine .fr en juin 2002. De 2002 à 2006, elle a poursuivi ses expérimentations, notamment lors des scrutins présidentiels de 2002 et régionaux de 2004. En 2006, la loi DADVSI a officiellement instauré le dépôt légal de l’internet et ainsi offert une véritable assise juridique à cette activité de collecte. Le décret d’application de 2011 en a précisé le champ d’application, le limitant au web français, et l’a inscrit au Code du patrimoine. Durant cette période, la BnF s’est dotée des outils de sélection, de planification et d’accès aux archives de l’internet.
Le dépôt légal des sites web diffère du dépôt légal traditionnel des publications imprimées ou sur support audiovisuel, par exemple. Il n’oblige à aucune démarche active de la part de l’éditeur, les collectes se faisant de manière automatique, à l’aide d’un robot. Compte tenu des masses de données en jeu, il ne prétend pas à l’exhaustivité, mais vise à assurer la meilleure représentativité possible de l’internet français.
Aujourd’hui la BnF est dotée d’un circuit d’archivage des sites web complet, qui lui permet de collecter plus de 4 millions de sites et 2 milliards de pages web par an.
De nouveaux circuits de dépôt pour les documents numériques dématérialisés
Depuis 2012, la BnF tente de faire évoluer le dépôt légal numérique. En effet, constatant qu’une partie de la production numérique échappait à la collecte du web ou au dépôt légal audiovisuel, elle a entrepris de mettre en place des circuits de dépôt alternatifs.
L’un des principaux défis pour la bibliothèque est d’accueillir une production de documents dématérialisés d’une volumétrie et d’une diversité toujours croissante. Les circuits ont donc d’abord été pensés pour un dépôt de masse ou « dépôt par flux ». Ce processus de traitement automatisé nécessite de la part des éditeurs la fourniture de métadonnées standardisées. A ce jour le dépôt par flux concerne les livres numériques et les documents sonores. Il est particulièrement adapté aux distributeurs ou aux opérateurs en charge d’une production de masse mais il est également ouvert à tout déposant capable de suivre les standards techniques nécessaires à son bon fonctionnement.
Concrètement, le déposant transmet à la BnF un lot de fichiers (livres, documents sonores) accompagnés de leurs métadonnées via un serveur sécurisé (FTPS). La BnF traite ensuite ces dépôts en suivant les mêmes étapes que pour les documents imprimés : enregistrement, signalement au catalogue, conservation dans un magasin numérique et diffusion en espace Recherche.
Consciente que le dépôt par flux ne correspond pas au profil de tous les éditeurs, la BnF prévoit également de développer un circuit de « dépôt à l’unité » des fichiers numériques via l’Extranet du dépôt légal. Cette procédure permettra à l’éditeur de remplir sa déclaration et d’ajouter en ligne le fichier du document numérique qu’il doit déposer. A l’heure actuelle, le « dépôt à l’unité » est en instruction.