Pour rappel, tous les sites de la BnF sont fermés les mercredis 25 décembre et 1er janvier.
L’innovation au service des collections de presse
NewsEye, A Digital Investigator for Historical Newspapers
Avec pour objectif de faciliter l’accès à la presse ancienne numérisée pour la période 1850-1950 et d’accroître la capacité des utilisateurs à accéder, analyser et exploiter ces contenus, le projet européen NewsEye, A Digital Investigator for Historical Newspapers, a rassemblé des bibliothèques nationales, des groupes de recherche en sciences humaines et sociales, et des groupes de recherche en informatique.
En plus de son volet technologique, des études de cas ont été réalisées pour tester les outils existants, ainsi que ceux développés par la projet. Leurs thématiques portaient sur les migrations, le genre, le nationalisme, et les médias et le journalisme. Dans ce cadre, une série d’articles décryptant l’actualité au regard de la presse ancienne a été publiée sur le blog de Gallica. Les femmes en pantalon, l’histoire médiatique du masque de protection ou encore le couvre-feu sont autant de thèmes abordés.
En mars 2021, une journée d’étude organisée dans le cadre de ce projet s’est également interroger sur la recherche dans les corpus de presse ancienne numérisés. Faisant intervenir des spécialistes en humanités numériques, des chercheurs en informatique et des professionnels des bibliothèques, plusieurs outils ont été présentés par le biais d’exemples concrets de recherche ayant trait à la thématique des femmes.
Journée « À la recherche des femmes dans la presse ancienne numérisée (1850-1950) »
Réalisé entre mai 2018 et février 2022, le projet rassemble le laboratoire informatique image et interaction (L3i) de La Rochelle Université, coordinateur du projet, les bibliothèques nationales d’Autriche, de Finlande et de France ; et les universités d’Helsinki, d’Innsbruck, de Paul Valéry Montpellier 3, de Rostock et de Vienne.
NewsEye s’inscrit dans le sillage de projets antérieurs en termes de résultats obtenus – en particulier Europeana Newspapers – en matière d’OCR, d’analyse de la structure des journaux (extraction des thématiques, identification des articles) et de traitement multilingue des contenus (reconnaissance des entités nommées, analyse d’opinion et de sentiment, fouille de texte et de données).
La BnF a participé à ce projet afin de renforcer son expertise en matière d’enrichissement des documents numériques, de valoriser les collections de presse numérisées auprès de ses publics, et de développer des outils de fouille de texte et de données sur une collection au fort taux de consultation dans Gallica et de Retronews.
Europeana Newspapers
Ce projet avait pour objectif de faciliter l’accès à une collection de presse quotidienne européenne et multilingue de près de 18 millions de pages de journaux consultables via Europeana, grâce à une optimisation de la reconnaissance automatique des articles de presse et à un enrichissement sémantique des métadonnées relatives à ces contenus.
Projet précurseur concernant la numérisation des journaux et leur consultation en ligne, il a rassemblé quelques 17 partenaires dont 9 bibliothèques nationales (Autriche, Estonie, Finlande, France, Lettonie, Pays-Bas, Pologne, Royaume-Uni et Turquie).
La BnF a produit un total de 2,4 millions de pages de journaux numérisés dont 1,4 millions océrisées et 1 million de pages structurées au niveau de l’article (OLR/Optical Layout Recognition) intégrées dans Retronews et Gallica, améliorant ainsi la recherche en ligne de ces fonds.
Entre 2012 et 2015, ce projet a fortement contribué à l’évolution des traitements utilisés pour l’OCR et en particulier à l’amélioration du contrôle OCR pour ses marchés de numérisation de masse. Le développement de la reconnaissance automatique des entités nommées en français a été effectué avec le concours du Laboratoire d’Informatique de Paris 6 (LIP6) de la Sorbonne. Ce développement était alors une première.
Les projets Europeana Newspapers et NewsEye ont bénéficié de financements européens. Europeana Newspapers par le Competitiveness and Innovation Programme entre 2015 et 2017, et NewsEye par le programme cadre de recherche et innovation Horizon 2020 de l’Union européenne (accord de subvention n°770299).