Techniques et formats de conversion en mode texte

Certains types de documents gagnent à être diffusés en mode texte, afin de faciliter la recherche au sein des contenus textuels ainsi qu’une meilleure qualité de lecture.

Cette valorisation implique plusieurs traitements : océrisation de l’image du document en vue d’un extraire le texte, création de tables de navigation dans le document numérique, et éventuellement conversion des documents sous forme de livres numériques. Tous ces traitements s’appuient sur des formats et des normes en matière de structuration et de diffusion du texte : ALTO, ePub, TEI.
 

L’océrisation

La technique d’OCR (optical character recognition) permet de situer et de reconnaître les chaînes de caractères dans une image et donc de faire la conversion des mots qui peuvent ensuite être utilisés pour faire une recherche plein texte. Cette conversion est assurée automatiquement par un logiciel et fait l’économie de la retranscription manuelle, beaucoup plus chère. Les mots et chaînes de caractères stockés dans un fichier texte peuvent être réutilisés pour une nouvelle mise en page, exploités dans une base de données, etc.

 

Exemple de segmentation d’une page de presse

 

Le principe est la reconnaissance des différentes zones de la page et des caractères contenus dans les zones textuelles. Les caractères sont identifiés à partir de formes mémorisées par le logiciel et de termes déjà connus car présents dans le dictionnaire utilisé par l’outil.

Ce traitement est composé de différentes étapes :

  • prétraitements : redressement de la page, suppression des bords ;
  • binarisation : conversion en noir et blanc ;
  • segmentation : extraction des zones de la page, découpage en lignes, mots, caractères ;
  • reconnaissance des caractères ;
  • reconnaissance des mots (avec des ressources linguistiques).

Qualité de l’OCR

Les techniques d’OCR sont en progrès constant pour répondre à la demande très forte, mais la qualité de reconnaissance dépend malgré tout d’un grand nombre de facteurs liés tant au document original qu’à la numérisation elle-même. Ainsi :

  • les images numériques doivent être suffisamment contrastées et redressées ;
  • les défauts d’impression (caractères trop empâtés, bavures, a fortiori transparence entre deux pages) diminuent la qualité de reconnaissance et de segmentation des mots ;
  • les ouvrages en colonnes et/ou illustrés, dans lesquels la lecture n’est pas linéaire sont plus complexes à traiter que les ouvrages à la présentation homogène ;
  • d’une manière générale, les polices très petites ou au contraire très grandes, et/ou à caractères espacés, sont difficilement traitables ;
  • les ouvrages en alphabets non latins sont également complexes à traiter, mais les progrès sont plus avancés que sur l’écriture manuscrite ancienne.
Contrôler l’OCR
La BnF propose une méthode de contrôle de la qualité de l’OCR, ainsi que les outils permettant de la mettre en œuvre.

Basée sur les enseignements du projet de recherche Europeana Newspapers, cette méthode vise à évaluer la qualité d’un OCR à travers ses deux principales dimensions :
  • l’analyse de la page et la reconnaissance de ses différentes composantes (ou « segmentation »)
  • la reconnaissance des contenus textuels de la page.

 

Projet de recherche FUI12 Ozalid

Dans le but d’améliorer la qualité de l’OCR, la BnF a participé au projet de recherche FUI12 Ozalid dont l’objectif était la conception et le développement de la plateforme de crowdsourcing CORRECT (correction et enrichissement collaboratifs de texte).

En savoir plus

Le format ALTO

Afin d’exploiter les résultats de l’OCR, on utilise à la BnF un format basé sur XML et géré par un schéma, le format ALTO (Analyzed Layout and Text Object) qui est maintenu par la Bibliothèque du Congrès.

Principe de la conversion

ALTO est un des formats les plus couramment utilisés pour la conversion des textes contenus dans des images de documents patrimoniaux. Il conserve toutes les coordonnées géométriques des contenus (textes, illustrations, graphiques) dans l’image et permet la superposition de l’image et du texte (par exemple dans un fichier PDF multicouche) ainsi que la surbrillance des mots recherchés lors d’une requête.

Éléments et sous-éléments composant le format ALTO

ALTO permet la segmentation d’une page en différents éléments composés de sous-éléments.

 

Exemple de segmentation d’une page de presse avec le format ALTO

L’élément page peut contenir cinq éléments:

  • TopMargin : désigne la zone supérieure de la page du bord gauche au bord droit hors zone de texte. Quand c’est possible, il s’agit de la zone contenant le titre courant, l’ours, etc.
  • BottomMargin : désigne la zone inférieure de la page du bord gauche au bord droit hors zone de texte.
  • LeftMargin : désigne la zone gauche de la page hors zone supérieure, zone inférieure et zone de texte
  • RightMargin : désigne la zone droite de la page hors zone supérieure, zone inférieure et zone de texte.
  • PrintSpace : désigne la zone de texte. Cet élément est obligatoire. Il contient au moins un élément BlockGroup.
Dès que l’un de ces éléments contient une information (texte, illustration, etc.), cette information est décrite dans un ou plusieurs éléments BlockGroup.

Les éléments BlockGroup peuvent être de quatre types différent :
  • TextBlock : désigne le bloc de texte. Cet élément est utilisé pour regrouper les lignes de textes en un ensemble cohérent ;
  • Illustration : désigne une image ou un dessin ;
  • GraphicalElement : désigne un élément graphique autre qu’une image ou un dessin. Il peut être utilisé pour décrire un élément de séparation intertextuel ou un élément textuel non reconnu en tant que tel par l’OCR ;
  • ComposedBlock : est utilisé pour permettre l’imbrication d’éléments BlockGroup.

A l’intérieur d’un TextBlock, l’élément String rassemble les chaînes de caractères.

 

VOIR AUSSI

 

Taux qualité

Le logiciel de reconnaissance de caractères attribue pour chaque mot une valeur de fiabilité, indiquée dans la balise («word confidence»), et pouvant aller de 0 à 10. Cette valeur sert à calculer :

  • le taux de qualité de chaque page : somme des pour chaque page divisée par le nombre de mots ;
  • puis le taux de qualité de chaque document : somme des de toutes les pages du document, divisée par le nombre de mots du document.

Pour chaque document numérisé par la BnF, le taux de qualité calculé automatiquement par le logiciel est vérifié manuellement par le prestataire sur un échantillon de mots, conformément à la norme ISO 2859-1. Cette opération permet de confirmer le taux de qualité annoncé.

Pour une partie des documents numérisés, la BnF exige un taux de qualité supérieur à 99,9%. Pour tous ces documents, quel que soit le taux de qualité après OCR, le prestataire doit garantir ce taux en employant tous les moyens de corrections nécessaires, y compris manuels.

Table des matières et index

Les tables des matières et les index (géographiques, des auteurs, des personnes citées, etc.) sont des outils de consultation et de navigation très utiles dans un document numérique.

Lorsque ces tables existent dans le document original, elles sont restituées dans le document numérique de manière à créer des accès spécifiques (appelés génériquement « Table des matières » dans l’interface de consultation de Gallica).

Cette conversion se fait par saisie manuelle, puis balisage de chaque entrée à l’aide d’un format XML inspiré de la TEI et développé à la BnF (TdMNum). Chaque table des matières ou index est divisé selon ses grandes parties, à l’intérieur desquelles chaque entrée (intitulé et page cible) est balisée en tant que lien hypertexte vers la page cible à laquelle elle se réfère. Ceci n’est possible que par l’identification au préalable des pages constituant la(les) table(s) des matières ou le(s) index dans le manifeste numérique du document.

La gestion des tables des matières dites « multivolumes » (liens d’une entrée vers une ou plusieurs pages d’un autre document numérique) est également prise en charge dans le processus de numérisation des documents de la BnF.

Exemples de tables des matières dans Gallica :
Consulter

Schéma TdMNum

 

TEI simplifiée utilisée à la BnF

La TEI (Text Encoding Initiative), basée sur la norme SGML, permet d’encoder des textes sous forme électronique, en particulier les textes littéraires et linguistiques. Elle vise à rendre compte de l’organisation logique d’un texte et à reconstituer son arborescence hiérarchique (divisions, chapitres, sous-chapitres, sections, et jusqu’à ses parties les plus complexes telles que citations, vers, noms propres mentionnés dans le texte, soulignement et autres mises en évidence, etc.).

Une architecture conçue en modules permet de choisir des ensembles d’éléments répondant aux besoins d’encodage d’un type particulier de texte : poésie, pièces de théâtre, dictionnaires, corpus linguistiques, manuscrits, critiques textuelles, transcriptions de discours oraux, etc.

Les projets d’encodage en TEI à la BnF ont débuté à la fin des années 1990. Ils se sont appuyés sur la troisième édition de la TEI (P3) dans sa version simplifiée sous forme de DTD et notamment sur la traduction française de 1996 de celle-ci.

La TEI simplifiée est une sélection des éléments, attributs et paramètres indispensables et les plus utilisés de la TEI.
 

En savoir plus

Livre numérique au format ePub

En 2013, la BnF a décidé d’accroître son effort de valorisation des contenus patrimoniaux sous la forme de livres électroniques au format ePub. Cette nouvelle forme de valorisation vise à tirer parti des atouts du livre numérique comparé aux formats classiques proposés par les bibliothèques numériques (web, PDF) :
  • lecture nomade, hors site web de la bibliothèque numérique ;
  • lecture sur un dispositif dédié, dans un format dédié à la lecture numérique ;
  • dissémination des contenus facilitée.
Du fait des caractéristiques propres du livre numérique et de ses formats techniques, cette action est pensée en tant que diversification des formats de consultation de la bibliothèque numérique. Elle n’a pas d’objectif de conservation. En effet, la conversion d’un ouvrage en livre numérique implique le plus souvent la perte d’informations de forme (mise en page, typographie, etc.), voire de contenus.

Pourquoi le format ePub et non le PDF ?

La BnF a préféré le format ePub au format PDF comme support de l’action de publication de livres numériques car il s’agit d’un format recomposable : contrairement à un format paginé comme le PDF, un livre numérique au format ePub a la capacité de s’adapter à tout type de périphérique ou d’écran de lecture. Cette caractéristique en fait un format particulièrement adapté aux contenus majoritairement textuels.
Le format ePub est un format standardisé de publication numérique, normalisé par l’IDPF (International Digital Publishing Forum) depuis 2006. La version 2.0.1 a été publiée en 2007 et la version 3.0 en 2011.

Ce format de livre numérique se caractérise par les choix techniques suivants :
  • format orienté « flot de texte » recomposable (une variante avec mise en page fixe apparaît dans ePub 3) ;
  • basé sur les normes ou standards suivants : XHTML, CSS, Unicode, SVG;
  • incorporation de polices de caractères ;
  • table de navigation dans le livre ;
  • métadonnées bibliographiques (au format Dublin Core).
Consulter

Norme ePub

Choix des documents à traiter en ePub

La sélection des ouvrages à convertir en ePub est réalisée en prenant en compte plusieurs critères :
  • critères techniques : qualité des documents, difficulté d’océrisation prévisible, etc.
  • critères bibliographiques : genre documentaire, type de mise en pages, etc.
  • critères intellectuels : intérêt de la conversion en livre numérique.

Le processus de production

Il existe principalement deux types de processus de livres numériques au format ePub :
  • réfection de documents déjà numérisés ;
  • production concomitante à un marché de numérisation.
Lors de la production de livres au format ePub à partir de documents déjà présents dans la bibliothèque numérique de la BnF, on s’appuie sur les éléments suivants, contenus dans le paquet des documents numériques :
  • le manifeste numérique (format refNum) ;
  • les images du document ;
  • l’OCR (s’il est disponible, au format ALTO);
  • la table de navigation (table des matières ou index, si disponible, au format tdmNum).
La conversion vers le format ePub implique des tâches :
  • de montée en qualité des contenus texte : les contenus texte étant produits par océrisation, il est nécessaire de les corriger afin d’obtenir une qualité éditoriale ;
  • de structuration logique des contenus : la structuration et le typage des entités textuelles étant plus riches pour l’ePub que pour le format ALTO, la montée en qualité concerne également la structuration logique des contenus et donc leur mise en forme (la mise en forme s’appuyant sur les informations de structuration) ;
  • de mise en forme : la mise en forme des contenus dans l’ePub s’appuie sur la structuration logique des contenus, sur une ou plusieurs feuilles de styles de mise en page (au format CSS) et sur les consignes données par la BnF.

Exemple de table de navigation en format ePub

En fin de processus, les éléments suivants sont générés dans l’ePub :

  • sa couverture ;
  • sa table de navigation ;
  • ses métadonnées (issues du catalogue BnF).
Contrôle qualité des ePub
Des contrôles automatiques sont appliqués à tous les ePub livrés à la BnF. Il s’agit de vérifier les éléments suivants :
  • respect de la norme ePub ;
  • contrôle des métadonnées embarquées dans l’ePub ;
  • contrôle du format général de l’ePub relativement aux attendus de la BnF.
Un contrôle par échantillonnage visuel est également mené sur des lots d’ePub constitués selon un plan d’échantillonnage. Ce plan permet de définir un échantillon en termes de documents ePub contrôlés et d’extraits de contenu contrôlés au sein des documents.