Les métadonnées techniques pour la préservation numérique

Problématique

Les métadonnées de préservation gérées dans SPAR avec METS et PREMIS s’appliquent à tout type de document numérique. D’autres informations, essentielles à la pérennisation, sont spécifiques à un type de contenu particulier.

Par exemple :

  • Pour le texte : l’encodage, la structure éventuelle en XML…
  • Pour l’image : la résolution, le profil colorimétrique, la profondeur d’encodage…
  • Pour le son : le débit, le codec, la fréquence d’échantillonnage…
  • Pour la vidéo : le nombre d’images par seconde, le profil colorimétrique, la durée…
  • Pour des contenus web: le format déclaré dans l’en-tête, la réponse du serveur collecté…
Ces informations ont donc vocation à être exprimées dans un schéma XML spécifique à chaque type de contenu. Elles sont extraites des fichiers par des outils d’analyse, qui produisent généralement une sortie XML exploitable. Pour chaque type de métadonnées techniques, une étude approfondie a permis de déterminer quels schémas utiliser dans SPAR. Trois grands types de critères ont été pris en compte :
  • Interopérabilité et pérennité : caractère standard du format
  • Finesse de structuration : capacité du format à exprimer toutes les informations souhaitées
  • « Sociabilité » du format : large adoption par d’autres institutions, maintenance collaborative, présence d’une liste de diffusion…

Formats de métadonnées techniques utilisés dans SPAR

Ces formats et les outils associés sont l’objet d’une veille permanente et sont susceptibles de changer avec l’évolution des techniques.
 
Liste des formats de métadonnées en usage au quatrième trimestre 2015
Type de contenu Format géré Format de métadonnées Outil de validation et de caractérisation
IMAGE
TIFF
JPEG
JPEG2000
MIX version 1.0
TEXTE
XML
HTML
TXT
textMD version 3.0
SON
WAV
MPEG-7 version 2.0
VIDEO 
MPEG-2
MPEG-7 version 2.0
ARCHIVES DU WEB
ARC
WARC
containerMD version 1.0
LIVRES NUMERIQUES
EPUB
MULTIPLE
PDF