Pour rappel, tous les sites de la BnF sont fermés les mercredis 25 décembre et 1er janvier.
Plateforme CORRECT
Ce projet de 3 ans (janvier 2012- juin 2015) a été porté par un consortium de 9 partenaires (Orange, Bibliothèque nationale de France, Jamespot, Urbilog, I2S, ISEP, INSA de Lyon, Université Lyon 1, Université Paris 8) piloté par Orange.
Enjeux techniques
Les principaux enjeux techniques étaient :
- de mettre à la disposition des outils intuitifs pour corriger facilement des textes issus de traitements OCR,
- de déployer des outils automatiques pour superviser la fusion des corrections, l’analyse de la cohérence et le contrôle de la qualité de ces corrections.
Pour la BnF, l’amélioration de l’OCR permet une meilleure indexation des collections dont les usagers peuvent bénéficier dans leur recherche de document.
En savoir plus Techniques et formats de conversion en mode texte
Contribution de la BnF
La BnF, en charge des expérimentations, a fourni des documents numérisés et a sollicité son réseau d’utilisateurs pour tester les prototypes développés. Quatre expérimentations ont été réalisées au cours des 3 années du projet de recherche :
- En avril 2013 pour tester le 1er prototype de l’éditeur de correction ;
- En juin 2013 suite à l’intégration du réseau social ;
- En juillet 2014 pour tester le prototype d’une interface vocalisée développée pour les personnes malvoyants et non-voyants ;
- Une dernière expérimentation a été réalisée en conditions réelles de novembre 2014 à juin 2015 permettant à tous de corriger des documents numérisés provenant de Gallica.
Cette expérimentation de grande ampleur a été l’occasion de mener une étude d’usages auprès de ses participants dont les résultats ont été publiés.