La BnF numérise plus d’un million de pages par mois à partir de ses collections patrimoniales. Depuis 2013, cette production est complétée par des documents numériques produits dans le cadre des accords conclus par BnF-Partenariats. Pour assurer tous ces travaux de numérisation, la BnF s’appuie sur ses ateliers internes à hauteur de 20% et sur des prestataires choisis dans le cadre de marché public.
Collections numérisées
Les documents numérisés sont issus des collections patrimoniales de la BnF mais également de bibliothèques partenaires dans le cadre de la coopération nationale. La part de numérisation des bibliothèques partenaires représente 30% des images numérisées dans le cadre du principal marché de numérisation des livres reliés.
Organisation de la numérisation à la BnF
Les marchés de numérisation sont organisés par typologie de document à traiter :
- livres reliés (majorité) ;
- presse ;
- collections spécialisées : photographies, estampes, cartes, plans, etc. ;
- livres exceptionnels : livres les plus précieux issus de la réserve des livres rares et de la bibliothèque de l’Arsenal .
La numérisation s’effectue majoritairement sur les sites de la BnF pour assurer la sécurité des déplacements des collections. Parfois elle peut être réalisée sur le site du prestataire, notamment pour les supports microformés (microfilms, microfiches). Un état contradictoire est systématiquement établi afin de vérifier qu’aucune dégradation n’est survenue lors du processus de numérisation.
Les techniques de numérisation ayant évolué, certains documents numérisés selon d’anciennes règles n’ont pas tous les éléments des documents produits actuellement. C’est pourquoi des marchés spécifiques sont mis en place pour compléter ces documents avec :
- la segmentation et la reconnaissance optique de caractères ;
- la saisie des tables des matières ;
- une version « livre électronique » (généralement au format ePub) du document.
La BnF n’ayant pas de moyen propre de segmentation, de reconnaissance de caractères et de saisie des tables des matières, ces marchés servent également à compléter la numérisation effectuée en interne. Les ateliers internes numérisent les documents spécifiques qui ne pourraient être confiés à un prestataire (grande fragilité, préciosité, etc.) ou qui nécessitent un circuit de numérisation court.
Dans ces cas, le processus de numérisation suit des règles établies par la BnF.
De plus, la BnF est impliquée dans de nombreux projets de recherches.
Constitution d’un document numérisé
Constitution d’un document numérisé - BnF
Actuellement, un document numérisé est constitué des éléments suivants :
- des images au format JPEG 2000 en couleur ou en niveau de gris en résolution minimale à 400 DPI. Gallica permet de zoomer dans les images les plus grandes ;
- un manifeste : véritable fiche d’identité du document, il indique la pagination, l’historique des opérations de numérisation à fin de conservation, les légendes des images, etc ;
- la table des matières avec les index saisie en haute qualité afin de mieux parcourir le document dans Gallica et d’améliorer la recherche plein-texte ;
- la reconnaissance optique de caractères (OCR) qui permet la recherche plein-texte. Lors de cette opération la position du mot dans la page est repérée afin de permettre la surbrillance des occurrences recherchées dans Gallica. Le repérage des mots est compris dans les opérations de segmentation qui vise à établir la structure de l’ensemble du texte (mot, ligne de texte, bloc de texte, etc.).