Document numérique et métadonnées
Qu’est-ce qu’un document numérique ?
Un document numérique est une suite de fichiers : il est décrit par un identifiant unique et un ensemble de métadonnées :
- des métadonnées descriptives pour :
- donner une description bibliographique approfondie et détaillée dans un format normalisé permettant l’échange de données ;
- rattacher le document à l’original ou à différentes versions d’un document ;
- donner accès à la copie numérique.
- des métadonnées de structure pour :
- rattacher les fichiers d’un même document entre eux ;
- reconstituer la structure du document : connaître tous les fichiers qui composent un document (fichiers textes, images…) ; connaître la relation physique entre ces fichiers (ordre d’affichage, fichier cible donnant accès à l’ensemble).
- des métadonnées administratives pour :
- gérer les droits : d’accès (droits d’auteur, confidentialité) et d’usage (droits d’impression, de reproduction, de modification…) ;
- préserver les informations techniques nécessaires à la lecture des fichiers ;
- garantir l’intégrité des fichiers et le suivi de leurs éventuelles modifications.
Les métadonnées ne décrivent pas nécessairement des documents électroniques.
Identification d’un document numérique : le schéma METS
Le schéma METS (Metadata Encoding and Transmission Standard), maintenu par la Bibliothèque du Congrès, est un standard permettant d’encoder les métadonnées descriptives, administratives et de structure spécifiques aux objets numériques.
- en-tête (metsHdr) : cette section fournit des indications sur le fichier de métadonnées lui-même (notamment les dates de création et de dernière modification) ;
- bibliographie (dmdSec) : ces données générales décrivent le type de document original (iconographique, monographie, périodique), le titre, l’auteur, la date d’édition, le nombre de pages. Elles ne se substituent pas aux données du catalogue ;
- gestion (amdSec) : ces données renseignent sur les conditions de numérisation, notamment date de numérisation, données liées à la livraison, liste des traitements et leur historique, liste des agents responsables de ceux-ci ;
- inventaire des fichiers (fileSec) : il s’agit de la liste des fichiers composant le document numérique, classés en différentes familles selon leur usage (image, OCR, etc.) ;
- structure (structMap) : cette partie permet d’exprimer des modes de navigation particuliers du document numérique sous la forme de cartes de structure (par exemple la table des matières d’une monographie).
Les fichiers METS de la BnF intègrent des schémas de métadonnées spécifiques : Dublin Core (métadonnées bibliographiques) et PREMIS (métadonnées de provenance).
Ce profil METS est disponible sous la forme d’un fichier XML comportant des clauses de validation exprimées à l’aide du langage Schematron.
Identification d’un document numérique : le schéma XML refNum
Dans les années 1990, pour gérer les métadonnées de production des documents numériques, la BnF a mis au point le schéma XML refNum, schéma propre à l’établissement et utilisé par les applications de contrôle des données livrées par les prestataires et les ateliers internes. Les fonctionnalités du schéma refNum sont proches de celles du standard METS mais sa structure est plus simple.
À compter de 2014, les métadonnées des documents numériques ont été exprimées en METS dans les nouveaux marchés de numérisation.