Pour rappel, tous les sites de la BnF sont fermés les mercredis 25 décembre et 1er janvier.
Formats de données pour la préservation numérique
La politique de la BnF sur les formats
La BnF publie sa politique en matière de formats de données :
- Formats de données pour la préservation à long terme : la politique de la BnF,
Paris : Bibliothèque nationale de France, octobre 2021, identifiant HAL : hal-03374030. Accessible sur https://bnf.hal.science/hal-03374030.
Ce document présente les formats qu’elle préfère, ainsi que ceux qu’elle accepte dans ses filières de préservation à long terme, les critères de choix qu’elle applique, la méthode de détermination du format, les stratégies adoptées lorsque des données ne correspondent pas à ses préférences et une description des formats qu’elle a choisis.
Un dépliant imprimable est également mis à disposition ; il se contente de lister les formats préférés par la BnF et introduit brièvement les objectifs de la politique.
Ces documents ont vocation à être périodiquement revus. Tout commentaire ou question sur leur contenu est à envoyer à formats.num@bnf.fr.
Il faut noter que chaque filière d’entrée de la BnF peut appliquer une politique plus restrictive que celle exprimée dans ces documents.
Pourquoi une politique de formats pour la préservation numérique ?
La donnée numérique étant stockée sur support sous une forme binaire – une série de « 0 » et de « 1 » –, la préservation numérique consiste à garantir à la fois l’intégrité des données (préservation du train d’octets) et l’accessibilité, la compréhensibilité et l’utilisabilité des données pour ses usagers (préservation « sémantique »). La connaissance du format d’encodage est une condition nécessaire si ce n’est suffisante de la transformation des données en information accessible, compréhensible et utilisable par les usagers.
Au-delà des quelques dizaines de formats les plus courants, la variété de formats utilisés par les producteurs de données est considérable, particulièrement dans les communautés scientifiques spécialisées. Une bonne partie d’entre eux est susceptible de se retrouver dans les collections numériques des institutions de conservation. La diversité des formats augmente d’autant les risques pesant sur les capacités de telles institutions à restituer correctement leurs collections. Parmi ces risques multiples, on peut citer :
- l’incapacité à identifier le format et donc l’outil de restitution adapté ;
- la disparition de logiciels de lecture ou leur indisponibilité en raison de leur coût, de la politique de l’entreprise qui les développe ou de leur mode d’achat ;
- l’utilisation d’outils inadaptés ou mal employés donnant lieu à une restitution non fidèle, ou à la perte d’information involontaire à la suite d’une migration mal maîtrisée.
- En tant qu’institution commanditaire ou productrice de données numérisées, la BnF veille à choisir avec soin les formats dans lesquels elle demande la production de données.
- Lorsque la BnF acquiert des données de producteurs, elle négocie la remise de celles-ci dans un format connu et maîtrisé.
- Lorsque la BnF hérite de données dans un format qu’elle ne peut choisir, elle envisage en cas de risque avéré portant sur elles de les convertir dans un format maîtrisé.
Depuis 2017, un groupe de travail permanent a été mis en place à la BnF pour élaborer et faire évoluer sa politique de formats. Composé de membres de nombreux départements, il assure une veille régulière et formalise les bonnes pratiques liées à la manipulation des ressources numériques en vue de leur préservation.
la mise en œuvre dans SPAR
Catégorie de format | Description |
---|---|
Stocké
|
Format dont on ignore les caractéristiques techniques (non identifié) et pour lequel on n’assure que la conservation du train de bits
|
Identifié
|
Format dont on connaît les caractéristiques techniques (détectées par un outil d’identification) mais pour lequel aucun suivi et aucune trajectoire de migration / émulation ne sont prévus. Un format identifié devient maîtrisé ou connu si on met en œuvre une telle trajectoire
|
Connu
|
Format non maîtrisable pour lequel la BnF possède au moins un outil de référence, connaît les usages qui en sont faits, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini une trajectoire en vue de sa transformation en format maîtrisé ou de son émulation. |
Maîtrisé
|
Format maîtrisable pour lequel la BnF possède la documentation publiée et au moins un outil de référence, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini des contraintes d’application vis-à-vis des producteurs. |
Pour chaque filière, les experts en préservation numérique de la BnF ont établi une liste de formats de données qui peuvent être utilisés dans SPAR. Ces formats sont l’objet d’une veille permanente et sont susceptibles de changer avec l’évolution des techniques.