METS : Metadata Encoding and Transmission Standard
Structure d’un document METS
METS est exprimé sous forme d’un schéma XML. Tout fichier METS est donc un document XML.
METS se décompose en 7 sections, dont une seule est obligatoire, structmap décrivant la structure du document. Chacune de ces sections comprend différents types de métadonnées :
- metsHdr donne des informations sur le fichier METS lui-même : par exemple la date de création et de dernière modification du fichier, le créateur du fichier, identifiant du fichier…
- dmdSec comprend l’information bibliographique ; il peut également servir à décrire des sous parties d’un document (page d’un livre, face d’une cassette audio…) ;
- amdSec comprend des métadonnées de gestion du document numérique décrit, divisées en 4 sous-sections :
- sourceMD donne des informations sur la source dont le document numérique décrit est issu ; par exemple il s’agit du document physique original dans le cas d’une numérisation ;
- techMD donne des informations techniques sur le document dans son ensemble (identifiants, version…) ainsi que sur chacun des fichiers qui le composent (format de fichier, caractéristiques techniques du fichier) ;
- digiprovMD donne des informations sur l’historique du document numérique, depuis sa création (numérisation, océrisation…) jusqu’au moment présent en passant par toutes les opérations (entrée dans un entrepôt, conversion de format…) qu’il a pu subir ;
- rightsMD donne des informations sur le statut juridique du document : libre de droit / sous droit, et les restrictions de communication qui en découlent (diffusable ou non, copie autorisée ou pas, etc.) ;
- fileSec fait l’inventaire de l’ensemble des fichiers qui composent le document, qu’il classe en différentes familles nommées « fileGrp » (par exemple : master, ocr, table des matières…). Il exprime les caractéristiques techniques de base de chacun de ces fichiers : taille, empreinte, emplacement du fichier… ;
- structMap (seule section obligatoire) décrit une structure du document, qui correspond à la fois à un mode de navigation particulier et à une vue particulière sur le document. Chacune de ces cartes de structure permet d’identifier plusieurs niveaux de granularité dans le document :
- types de cartes de structure : la carte de structure par défaut est physique, et peut être complétée par des cartes de structure de type logique. Une carte de structure physique exprime une navigation linéaire dans le document et correspond à la manière dont le document numérique est segmenté — par exemple numérisation et navigation page à page pour un imprimé —, tandis qu’une carte de structure logique permet une navigation non linéaire et indépendante de la manière dont le document a été numérisé (par exemple table des matières structurée en XML permettant de naviguer dans un ouvrage numérisé) ;
- niveaux de granularité : chaque carte de structure exprime les différents niveaux de granularité qui composent le document. Par exemple : titre de périodique, fascicule, page, fichier constituent 4 niveaux de granularité différents d’un périodique numérisé. Ce système permet, grâce à des liens internes, de relier toute information exprimée dans une ou une sous-section d’ au niveau de granularité adéquat. Par exemple, la description bibliographique concerne le document dans son ensemble, tandis que le signalement d’une page particulière comme une page de titre ne concernera qu’un élément particulier.
- structLink permet d’exprimer des liens structurels entre différents éléments du document, par exemple des hyperliens entre une page et une autre si le document décrit est un site Web ;
- behaviorSec permet d’associer explicitement des fichiers à des programme permettant de les lire.
Quelques grands principes
- La manière d’exprimer l’information dans la section dmdSec et toutes les sous-sections d’amdSec n’est pas imposée. Ces sections fonctionnent comme des enveloppes vides dans lesquelles on peut choisir :
- d’encapsuler directement une description (élément mdWrap), le plus souvent en XML (élément xmlData).
Exemple : l’information bibliographique dans dmdSec pourra être exprimée en Dublin Core simple, en Dublin Core qualifié, en EAD, en MARCXML, en MODS, etc., selon le besoin d’expressivité. - de faire référence à une description (élément mdRef).
Exemple : faire référence à l’identifiant de la notice bibliographique dans le catalogue depuis dmdSec.
- d’encapsuler directement une description (élément mdWrap), le plus souvent en XML (élément xmlData).
- Un grand nombre de valeurs exprimées dans fileSec et structMap sont laissées au choix de l’utilisateur, notamment : les différents types de cartes de structure et les noms des différents niveaux de granularité qu’elles comprennent, ou encore les différents types de fileGrp.
- Un grand nombre d’éléments en METS font l’objet d’identifiants internes au fichier : identifiants des sections, des fichiers… La manière dont ces identifiants sont structurés est laissée à l’appréciation de l’utilisateur.
Avantages et inconvénient
Les deux principaux avantages de METS qui découlent de ces caractéristiques :
- sa très grande souplesse — grande liberté pour exprimer l’information,
- et donc forte adaptation aux besoins de chacun — et par conséquent sa grande expressivité.
Le relatif inconvénient est qu’il requiert un certain nombre de choix de la part des utilisateurs.
Ces choix peuvent être consignés dans un profil METS, qui liste les différentes restrictions qu’un utilisateur ajoute aux contraintes existant déjà dans METS ; il peut s’agit par exemple des schémas utilisés dans dmdSec et amdSec, des règles de nommage des identifiants, des types de fileGrp ou de structMap, des niveaux de granularité dans la carte de structure ; il permet également de rendre certaines sections facultatives et d’autres obligatoires.
METS à la BnF
METS est actuellement utilisé dans le cadre du projet SPAR (Système de Préservation et d’Archivage Réparti), qui est un entrepôt de préservation des documents numériques. Tout document versé dans SPAR fait l’objet d’une description détaillée dans un fichier METS. Les sections structLink et behaviorSec et la sous-section rightsMD ne sont pas utilisées pour l’instant.
En 2015, METS est également en cours d’adoption par la BnF comme format de métadonnées de production pour la numérisation patrimoniale. Son utilisation conjointe avec le format PREMIS est décrite dans le référentiel d’enrichissement des métadonnées (version METS).