Formats de données pour la préservation numérique

Dans le cadre de ses missions de collecte, conservation, enrichissement et communication du patrimoine documentaire national, la Bibliothèque nationale de France (BnF) a développé des techniques appropriées de conservation curative ou préventive. De même qu’elle surveille l’état de ses collections physiques, elle réalise une veille technologique sur les formats d’encodage des fichiers.
 

La politique de la BnF sur les formats  

La BnF publie sa politique en matière de formats de données : 

Ce document présente les formats qu’elle préfère, ainsi que ceux qu’elle accepte dans ses filières de préservation à long terme, les critères de choix qu’elle applique, la méthode de détermination du format, les stratégies adoptées lorsque des données ne correspondent pas à ses préférences et une description des formats qu’elle a choisis.

Un dépliant imprimable est également mis à disposition ; il se contente de lister les formats préférés par la BnF et introduit brièvement les objectifs de la politique.

Ces documents ont vocation à être périodiquement revus. Tout commentaire ou question sur leur contenu est à envoyer à formats.num@bnf.fr.

Il faut noter que chaque filière d’entrée de la BnF peut appliquer une politique plus restrictive que celle exprimée dans ces documents.  

 

Pourquoi une politique de formats pour la préservation numérique ?

La donnée numérique étant stockée sur support sous une forme binaire – une série de « 0 » et de « 1 » –, la préservation numérique consiste à garantir à la fois l’intégrité des données (préservation du train d’octets) et l’accessibilité, la compréhensibilité et l’utilisabilité des données pour ses usagers (préservation « sémantique »). La connaissance du format d’encodage est une condition nécessaire si ce n’est suffisante de la transformation des données en information accessible, compréhensible et utilisable par les usagers.

Au-delà des quelques dizaines de formats les plus courants, la variété de formats utilisés par les producteurs de données est considérable, particulièrement dans les communautés scientifiques spécialisées. Une bonne partie d’entre eux est susceptible de se retrouver dans les collections numériques des institutions de conservation. La diversité des formats augmente d’autant les risques pesant sur les capacités de telles institutions à restituer correctement leurs collections. Parmi ces risques multiples, on peut citer :

  • l’incapacité à identifier le format et donc l’outil de restitution adapté ;
  • la disparition de logiciels de lecture ou leur indisponibilité en raison de leur coût, de la politique de l’entreprise qui les développe ou de leur mode d’achat ;
  • l’utilisation d’outils inadaptés ou mal employés donnant lieu à une restitution non fidèle, ou à la perte d’information involontaire à la suite d’une migration mal maîtrisée.
Afin de réduire ces risques et l’investissement de l’institution (achat et maintenance de matériel, de logiciels, de normes, développement et maintien de compétences, etc.), il est donc souhaitable, autant que faire se peut, de se limiter à une liste de formats connus et maîtrisés.
 
  • En tant qu’institution commanditaire ou productrice de données numérisées, la BnF veille à choisir avec soin les formats dans lesquels elle demande la production de données.
  • Lorsque la BnF acquiert des données de producteurs, elle négocie la remise de celles-ci dans un format connu et maîtrisé.
  • Lorsque la BnF hérite de données dans un format qu’elle ne peut choisir, elle envisage en cas de risque avéré portant sur elles de les convertir dans un format maîtrisé.
     

Depuis 2017, un groupe de travail permanent a été mis en place à la BnF pour élaborer et faire évoluer sa politique de formats. Composé de membres de nombreux départements, il assure une veille régulière et formalise les bonnes pratiques liées à la manipulation des ressources numériques en vue de leur préservation.

 

 

la mise en œuvre dans SPAR

Le système de préservation et d’archivage réparti (SPAR) applique cette politique en définissant quatre niveaux de connaissance sur les formats, soit, du risque le plus élevé au plus réduit

Catégorie de format Description
Stocké
 
Format dont on ignore les caractéristiques techniques (non identifié) et pour lequel on n’assure que la conservation du train de bits
Identifié
 
Format dont on connaît les caractéristiques techniques (détectées par un outil d’identification) mais pour lequel aucun suivi et aucune trajectoire de migration / émulation ne sont prévus. Un format identifié devient maîtrisé ou connu si on met en œuvre une telle trajectoire
Connu
Format non maîtrisable pour lequel la BnF possède au moins un outil de référence, connaît les usages qui en sont faits, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini une trajectoire en vue de sa transformation en format maîtrisé ou de son émulation.
Maîtrisé
Format maîtrisable pour lequel la BnF possède la documentation publiée et au moins un outil de référence, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini des contraintes d’application vis-à-vis des producteurs.

Pour chaque filière, les experts en préservation numérique de la BnF ont établi une liste de formats de données qui peuvent être utilisés dans SPAR. Ces formats sont l’objet d’une veille permanente et sont susceptibles de changer avec l’évolution des techniques.