Les projets de recherche – BnF DataLab

Dans le cadre de l’activité du BnF DataLab, la BnF et son partenaire Huma-Num ont lancé en juin 2024 leur quatrième appel à projet conjoint. À destination des chercheurs qui souhaitent travailler sur les collections numériques de la BnF (collections numérisées ou nativement numériques), cet appel à projet propose, sur une durée de 12 à 18 mois selon les projets, un accueil au sein du BnF DataLab, un accompagnement scientifique et technique ainsi qu’un financement. 4 projets ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et sont accueillis dans le BnF DataLab pour la période 2025-2026.

 

2025-2026

ManjuGisunTranscript

L’HTR pour les langues à graphies non latines. Transcription et exploitation d’ouvrages en mandchou sur Gallica

Porteuse du projet

Michela Bussotti, directrice d’études. École française d’Extrême Orient.

Présentation du projet

Ce projet vise à développer un modèle de reconnaissance d’écriture manuscrite (HTR) et un jeu d’entraînement spécifique à la langue mandchou, une langue toungouse parlée par les empereurs de la dernière dynastie impériale des Qing (1644-1911). La collection de documents en mandchou numérisés par la BnF représente l’opportunité de répondre au défi posé par l’absence actuelle de modèle HTR pour cette langue. Mené dans le cadre du projet ANR ChEDil (Dictionnaires sino-européens : manuscrits lexicographiques pour l’étude historique des échanges entre la Chine et l’Europe, fin XVIe-début du XIXe siècle), ce projet trouvera une application directe dans les travaux de ce programme. L’outil de transcription automatique et les données de transcription seront également mis à disposition en libre accès, facilitant ainsi les recherches de tout chercheur travaillant sur un corpus mandchou, une étape importante pour l’étude d’une langue jusqu’ici peu dotée en transcription librement accessible.

PaRAMHTRS

Philology And Resolution of Abbreviations in Manuscripts obtained by HTR at Scale

Porteur du projet

Thibault Clérice, chercheur. ALMAnaCH, Inria.

Présentation du projet

Le projet PaRAMHTRS s’inscrit dans la continuité du projet primé HTRomance (2022) et des collaborations fructueuses entre le BnF DataLab et Inria. Ce projet a pour ambition de réaliser, pour la première fois, des expérimentations à grande échelle sur les manuscrits médiévaux de la BnF en langues latine et vernaculaires, couvrant une période allant du VIIe au XVe siècle. L’objectif principal du projet est de démontrer l’efficacité des modèles de reconnaissance d’écriture manuscrite (HTR) génériques, multilingues et graphématiques, développés par l’équipe dans le cadre des projets HTRomance et CATMuS depuis 2022. Dans cette optique, le projet PaRAMHTRS s’articule autour de deux axes principaux : la création de très grands corpus (diachroniques et non thématiques pour le latin, diachroniques et thématiques pour l’ancien français et l’italien), et la résolution automatique des abréviations dans les textes obtenus par HTR.

Étude computationnelle des corpus oraux anciens

Évolution du système phonétique du français au XXe siècle

Porteur du projet

Juliusz Cecelewski, doctorant. UMR 7018 - Laboratoire de Phonétique et Phonologie.

Présentation du projet

Toute langue vivante est soumise à un changement incessant et inévitable. Tous ses niveaux évoluent, que ce soit à travers les emprunts visant à rattraper le progrès technologique, ou encore un lexique sans cesse renouvelé par les jeunes locuteurs. La prononciation n’échappe pas à cette dynamique, avec des changements perceptibles parfois même au sein d’une seule génération. L’objectif central du projet est de fournir une documentation expérimentale inédite sur l’évolution du système phonétique du français entre le XXe et le XXIe siècles, à travers une analyse acoustique automatisée des archives de la parole de la BnF. Outre son importance pour la linguistique du français, le projet vise à approfondir la compréhension de la mécanique interne et de la dynamique temporelle des processus de changement phonétique universels affectant différentes langues du monde. En effet, avec une documentation sonore considérablement plus riche que d’autres langues, le français constitue un cas d’étude particulièrement utile pour une investigation phonétique d’une portée théorique plus générale qu’une étude descriptive monolingue classique.

Galligeo

Une application de géoréférencement de cartes et plans de la BnF

Porteur du projet

Eric Mermet, ingénieur de recherche. TSE-R, consortium Huma-Num Projets Time Machine.

Présentation du projet

Galligéo est une application web existante, initialement développée comme preuve de concept dans le cadre du consortium Huma-Num Projets Time Machine. Elle permet de géoréférencer des cartes et plans provenant de Gallica. L’un des objectifs principaux du projet est de faire évoluer cette application en intégrant les retours des utilisateurs, recueillis lors d’ateliers organisés au BnF DataLab. Cette démarche vise à favoriser l’émergence d’une communauté d’utilisateurs pour échanger et collaborer, et qui seraient en mesure de constituer un fonds de cartes et plans géoréférencées. Le projet prévoit d’enrichir l’outil avec d’autres algorithmes de géoréférencement. Galligéo sera ainsi un outil précieux pour les chercheurs travaillant sur des données géohistoriques, tout en contribuant à valoriser les collections du département des Cartes et plans de la BnF.

2024-2025

EUROWEB

Les élections européennes sur le web : vers un espace politique transnational ?

Porteurs du projet
  • Morgane Le Boulay, ingénieure de recherche. UMR 7363 – Sociétés, Acteurs, Gouvernement en Europe (SAGE), CNRS et université de Strasbourg ;
  • Céline Monicolle, ingénieure d’étude. UMR 7363 – Sociétés, Acteurs, Gouvernement en Europe (SAGE), CNRS et université de Strasbourg.
Présentation du projet

Le projet EUROWEB entend utiliser les archives du web pour réexaminer la question de l’émergence d’un espace politique transnational lors des élections européennes. En quoi l’étude de pages web (sites Internet et comptes Twitter essentiellement) de différents types d’acteurs (partis politiques, candidats, Parlement européen, presse…) peut-elle améliorer les connaissances sur l’européanisation de l’espace politique opérée (ou non) lors de ces élections ? L’attention sera portée sur la présence de symboles ou de mots clés liés à l’UE, sur la mise en avant de l’appartenance des partis nationaux et des candidats à des partis et groupes politiques européens, mais aussi sur les contenus politiques. On pourra en effet comparer les enjeux politiques majeurs dans le domaine du web français lors de ces élections avec les débats au sein du Parlement européen ainsi que, dans le cadre d’un projet plus large, avec les archives du web allemandes. Une perspective longitudinale mettra en lumière les évolutions dans le temps.

Millenium

Le passage informatique à l’an 2000 : expression d’imaginaires et savoirs techniques dans une société pré-numérique

Porteur du projet

Céline Ferjoux, chercheuse associée. Centre d’Analyse et de Recherche Interdisciplinaire sur les Médias (CARISM), Panthéon-Assas Université.

Présentation du projet

Ce projet exploratoire se donne pour objectif de construire un terrain de recherche à partir d’un corpus multimodal, mobilisant des ressources de la BnF et principalement de la collection du dépôt légal de l’Internet français en les associant à celles de l’INA et à des corpus issus du web vivant afin d’établir une cartographie de la controverse socio-technique autour du passage informatique à l’an 2000, en France. En s’appuyant sur une multiplicité de sources, le questionnement portera sur plusieurs dimensions nécessaires pour délimiter les contours de cet événement, mais aussi analyser les imaginaires et les croyances associées au nouveau millénaire que cet événement traduit. L’étude du corpus et de la valeur médiatique et sémantique des discours permettra de situer ce moment dans la perspective d’une étude de la société pré-numérique et de la place des savoirs informatiques dans les imaginaires de la fin du XXe siècle.

READ_Chinese

Recognizing Automatically Dunhuang Chinese Manuscripts

Porteurs du projet
  • Marc Bui, professeur. UMR 8546 – Archéologie & Philologie d’Orient et d’Occident (AOrOc), CNRS et Université PSL ;
  • Frédéric Constant, professeur. UPR1198 – Équipe de Recherche sur les Mutations de l’Europe et de ses sociétés (ERMES), Université Côte d’Azur ;
  • Costantino Moretti, maître de conférences. UMR8155 – Centre de recherche sur les civilisations de l’Asie orientale (CRCAO), École française d’Extrême-Orient ;
  • Garance Chao Zhang, ingénieure de recherche. UMR8155 – Centre de recherche sur les civilisations de l’Asie orientale (CRCAO), École pratique des Hautes Études ;
  • Colin Brisson, collaborateur scientifique.
Présentation du projet

Le projet READ_Chinese entend réaliser une transcription de l’ensemble des manuscrits du fonds Pelliot-Chinois de la Bibliothèque Nationale. Copiés entre le Ve et le XIe siècle, ces documents sont d’une valeur inestimable pour l’histoire de la Chine médiévale et se distinguent par une diversité exceptionnelle de styles calligraphiques et de caractéristiques codicologiques. Au-delà de l’intérêt scientifique des transcriptions, le projet entend tirer profit de la diversité du fonds afin de développer une bibliothèque logicielle généraliste pour la transcription automatique des documents historiques chinois. Celle-ci sera mise à disposition de la communauté scientifique sous forme de paquet logiciel, permettant ainsi une amélioration significative de la qualité et de l’accessibilité des transcriptions des documents historiques chinois, ouvrant de nouvelles perspectives dans la recherche en études chinoises.

Une histoire culturelle du « sentiment maternel » depuis 1955

Porteur du projet

Anne-Laure Thomas Derepas, ingénieure de recherche. UAR 3611 – Institut des Systèmes Complexes de Paris Île-de-France (ISC-PIF), CNRS.

Présentation du projet

Depuis 2015 au moins, l’espace médiatique est occupé par la question des affects parentaux, souvent maternels et souvent négatifs (burnout, regret maternel, refus d’enfant…). L’injonction à devenir mère y semble constituée en débat de société. Or, si l’existence de cette injonction socio-culturelle est documentée, sa teneur exacte est peu étudiée et son inscription socio-historique peu précisée. Le bouleversement des rôles sociaux de genre, de la vie familiale et des pratiques reproductives de la deuxième partie du XXe siècle se sont pourtant probablement accompagnés d’un changement du référentiel culturel encadrant l’entrée en maternité pour les femmes. Comment les représentations socio-culturelles construisant la maternité comme une évidence biographique voire biologique pour les femmes se sont-elles transformées ?

Pour répondre à cette question, ce projet propose d’examiner plusieurs espaces de discours choisis pour leur diversité, qu’ils soient experts profanes, explicitement normatifs ou à visée narrative : un corpus de 130 manuels de grossesse postérieurs à 1955; plusieurs milliers d’articles scientifiques et médicaux de la deuxième moitié du XXe ; un ensemble de fictions ou autobiographies sur la maternité sont ainsi examinés. Afin de construire une histoire socio-culturelle du sentiment maternel, ces différents corpus seront étudiés sémantiquement et dans leur temporalité à l’aide de l’outil GarganText développé par l’Institut des Systèmes Complexes de Paris-Île-de-France.

Archives web et migrations numériques

Porteur du projet

Quentin Lobbé, post-doctorant. UMR 8577 – Centre d’analyse et de mathématiques sociales (CAMS), CNRS et EHESS.

Présentation du projet

Ce projet a pour but de plonger dans la mémoire du web, d’explorer les corpus d’archives web conservées à la BNF. En s’inspirant de la science des systèmes complexes, il étudiera l’émergence et les dynamiques temporelles de structures socio-culturelles ayant existées sur la toile il y a 10 ou 20 ans. Cette résidence se concentrera tout particulièrement sur les « migrations numériques » ; c’est à dire, le déplacement coordonné ou non de tout ou partie d’une communauté d’internautes d’un territoire du Web vers un autre. Grâce à l’aide du BnF DataLab, le projet tentera de développer des méthodes d’analyses qualitatives & quantitatives de ces migrations numériques.

Virtuel-Mucem

Histoire, interprétation et remédiation des sites web thématiques du MNATP et du Mucem (2005-2013)

Porteur du projet

Charles Riondet, chargé de projets numériques et open data. Musée des civilisations de l’Europe et de la Méditerranée (Mucem).

Présentation du projet

Le Musée national des arts et traditions populaires (MNATP) puis le Mucem ont produit ou participé à la réalisation de plusieurs sites internet thématiques entre 2005 et 2013. Véritables projets éditoriaux, ils ont été pendant une décennie un moyen privilégié de valorisation des collections et de la recherche du musée, notamment ses enquêtes-collectes, en particulier pendant la période de transition entre les deux musées. Le projet Virtuel-Mucem 2005/2013 vise à retracer l’histoire de ces sites thématiques et d’en permettre une remédiation à partir des archives du web de la BnF tout en s’interrogeant sur le regard que nous portons aujourd’hui sur ces formes historiques de médiation des collections, sur leur réactivation et leur patrimonialisation, comme objets et traces de la culture numérique des années 2000.

 

Années précédentes

4 projets ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et ont été accueillis dans le BnF DataLab pour l’année 2023.

GénéAlgoPsy

Généalogie culturelle de la douleur psychique : expressions, usages, représentations

Porteur du projet

Astrid Chevance, psychiatre, cheffe de clinique assistante de l’université de Paris. UMR 1153 / CRESS - centre de recherche en Epidémiologie et Statistique, équipe METHODS

Présentation du projet

GénéAlgoPsy s’inscrit dans un vaste programme de recherche de 4 ans autour de la notion de douleur psychique. Façonné par les aliénistes au 19e siècle, qui la différencient alors de la douleur physique, la notion de douleur psychique disparaît progressivement de la littérature savante, et ne transparaît plus que dans les thèmes littéraires investis par la sensibilité romantique. Inscrit dans le champ des humanités médicales, GénéAlgoPsy vise à repérer et à caractériser l’émergence de la notion de « douleur psychique » en s’appuyant sur un corpus composé à la fois de textes littéraires et «savants» (provenant par exemple du domaine médical ou philosophique) et construire une histoire culturelle du concept. Cette recherche s’inscrit dans un programme de recherche interdisciplinaire qui, mêlant sciences humaines et sociales, humanités numériques et épidémiologie clinique, va permettre, à terme, de créer un outil de mesure de la douleur psychique afin d’améliorer  le diagnostic, le soin et le suivi des patients.

ADAPTMED

Adaptation automatique des textes médicaux

Porteur du projet

Amalia Todirascu, professeure des universités. UR 1339 / LiLPa - Linguistique, Langue, Parole, Université de Strasbourg

Présentation du projet

La pandémie Covid-19 a mené à l’apparition de nouveaux termes et à la multiplication de textes de vulgarisation scientifique pour le grand public (articles de presse, blogs, sites institutionnels…). Cette vulgarisation du discours scientifique, rendu intelligible pour le grand public tout en limitant la perte d’information, se construit grâce à une adaptation du discours et à l’utilisation de synonymes, des reformulations et des transformations syntaxiques assez facilement identifiables. S’appuyant sur la collecte Covid-19 des archives de l’internet de la BnF, le projet ADAPTMED veut se saisir de ce riche corpus pour développer un système d’adaptation automatique de textes médicaux en textes de vulgarisation scientifique. Le corpus COVID-19 des archives de l’internet permettra d’enrichir une base de données de termes médicaux et de leurs équivalents simplifiés (synonymes, paraphrase ou définition), qui servira de base à la création d’un système d’adaptation de textes, appliqué aux articles scientifiques sur le Covid 19.

HTRomance

Porteurs du projet
  • Thibault Clérice, post-doctorant. Centre Jean-Mabillon, Ecole nationale des chartes et INRIA
  • Alix Chagué, doctorante. ALMAnaCH, INRIA et Université de Montréal
Présentation du projet

L’objectif du projet HTRomance est d’évaluer et d’améliorer les techniques de reconnaissance d’écritures manuscrites (HTR) des manuscrits littéraires en latin et langues romanes, du XIème au XIXème siècle. Pour cela, le projet prévoit la production de données d’entraînement et de modèles de transcription résistants aux changements de mains, voire de langues. Il entend également produire des modèles de langues applicables à des documents en langues anciennes, ou à des états de langue anciens. Le choix du corpus de textes est guidé par la nécessité de diversifier les écritures cursives (mains) et les thèmes des documents. Ce projet vise également à produire un processus d’évaluation sur la correction des données HTR, en mesurant la lisibilité des documents et le temps de reprise manuelle.

Valorisation numérique du fonds Dulaurier

Porteurs du projet
  • Bernard Coulie, professeur. Institut orientaliste de Louvain, UCLouvain
  • Chahan Vidal-Gorène, collaborateur scientifique, Calfa
  • Bastien Kindt, collaborateur scientifique. Institut orientaliste de Louvain, UCLouvain - projet GREgORI
Présentation du projet

Le projet poursuit plusieurs objectifs. Il s’agit tout d’abord de rendre accessible aux chercheurs la transcription des manuscrits du fonds Dulaurier de la BnF en utilisant les techniques de reconnaissance automatique d’écriture manuscrites (HTR). Ce fonds, constitué de manuscrits arméniens copiés ou fait copiés par Edouard Dulaurier (1807-1881), représente également l’opportunité de développer les technologies de traitement automatique des documents arméniens, encore à ses balbutiements. Par conséquent, ce projet se propose aussi d’être une preuve de concept d’un modus operandi pour le traitement de langues peu dotées, notamment celles à graphie non latine, et qui offrent pour le moment peu de données d’apprentissage.

Parmi les 21 projets réceptionnés, 5 ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et ont été accueillis dans le BnF DataLab pour la période 2021-2022.

AUREJ

Accès Unifié aux REssources de la Jouabilité 

Porteur du projet

Fabrice Pirolli, maître de conférences HDR en Sciences de l’Information et de la Communication - Le Mans Université / IUT de Laval

Présentation du projet

Le projet AUREJ (Accès Unifié aux REssources de la Jouabilité) se penche sur de nouvelles modalités d’exploitation des collections qui environnent le jeu vidéo : sources documentaires de type presse, vidéos de jeu, bande son… autant de ressources, documentaires et matérielles conservées par la BnF, mais dont la consultation sur un seul et même environnement soulève des contraintes techniques encore difficiles à surmonter. Le projet vise notamment une analyse transversale du corpus hétérogène ainsi constitué (jeux, supports, matériels, presse spécialisé, cédéroms, enregistrements vidéo, etc.) afin de dégager les fondements techniques et pratiques qui permettraient de proposer aux usagers un accès unifié aux ressources, en particulier pour les publics de chercheurs.

GallicaEnv

Porteurs du projet
  • Guillaume Sapriel, maître de conférences - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
  • Grégory Quenet, professeur des universités (1re classe) en histoire de l’environnement - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
Présentation du projet

La notion d’environnement, dans son acception actuelle, est relativement récente. La notion même est absente des catalogues, rendant difficile la constitution de corpus autour de cette notion. À travers les collections de Gallica, le projet GallicaEnv a pour objectif d’étudier l’émergence et la viralité de cette notion, à l’aide de techniques d’intelligence artificielle (apprentissage profond). L’enjeu est donc ici double, puisqu’il s’agit d’expérimenter la possibilité de construire un corpus thématique à l’aide d’une intelligence artificielle, mais aussi les points d’entrée dans les collections en enrichissant les métadonnées existantes et en développant une méthodologie de recherche sémantique. Les résultats de ces recherches (métadonnées, corpus, outils, articles) seront ensuite mis à disposition du public et des chercheurs. 

BUZZ-F

Porteur du projet

Valérie Schafer, professeure d’histoire européenne contemporaine - Université du Luxembourg, C²DH (Luxembourg Centre for Contemporary and Digital History)

Présentation du projet

Le projet BUZZ-F se propose d’étudier l’histoire des phénomènes de viralité et de circulation des contenus en ligne depuis les années 1990 à nos jours. Se fondant notamment sur la collecte COVID-19 menée par les équipes du dépôt légal du web et à travers l’analyse d’exemples précis (mèmes, gifs, vidéos de danse ou d’applaudissement…), le projet se donne pour objectif de reconstituer ces phénomènes relevant d’une culture numérique largement internationalisée à partir des traces nécessairement partielles laissées dans les archives web. La méthodologie retenue articulera analyse des plateformes de buzz, cartographie des circulations et repérage des « fantômes », c’est-à-dire de contenus absents des collections mais dont la diffusion massive a pu générer de multiples traces plus indirectes dans l’archive. La méthodologie et les résultats de recherche produits seront partagés dans le respect du droit d’auteur et viendront alimenter les échanges conduits dans le cadre des projets WARCnet, HIVI et Mars IMPERIUM.

AGODA

Analyse sémantique et Graphes relationnels pour l’Ouverture et l’étude des Débats à l’Assemblée nationale

Porteurs du projet
  • Pierre Vernus, maître de conférences en histoire contemporaine - Université Lumière Lyon 2
  • Marie Puren, enseignante-chercheuse en histoire et humanités numériques - Epitech Paris, laboratoire « Méthodes numériques pour les Sciences de l’Humain et de la Société »
Présentation du projet

Le projet AGODA propose une plateforme de consultation et d’exploration des débats parlementaires de la Chambre des députés, sur la période 1881-1940. Cette source, très riche en informations sur l’histoire politique et sociale, présente, par sa volumétrie et la formalisation des publications, un abord difficile pour la recherche et l’appréhension globale.
L’objectif du projet AGODA est de proposer par le biais d’une plateforme de consultation, non seulement un accès enrichi aux données numériques (correction, enrichissement, interopérabilité), mais aussi de mettre à disposition des outils pour l’exploitation de ces données (fouille, analyse, indexation).

Gallic(orpor)a

extraction, annotation et diffusion de l’information textuelle et visuelle en diachronie longue

Porteurs du projet
  • Benoît Sagot, directeur de recherche - INRIA
  • Simon Gabay, maître-assistant (humanités numériques) - Université de Genève
  • Jean-Baptiste Camps, maître de conférences - École nationale des chartes
Présentation du projet

Le projet Gallic(orpor)a propose de mettre en place une chaîne de traitement des documents anciens de Gallica, des premiers manuscrits aux imprimés révolutionnaires, afin de permettre aux chercheurs d’accéder non seulement aux extractions de textes (OCR, HTR) et aux images, mais également à des données enrichies. La chaîne de traitement mise en place proposera une annotation fine des documents, un enrichissement des données ainsi qu’une transcription en XML-TEI, autorisant ainsi des usages tels que la constitution de cartes, de graphiques, l’extraction d’entités nommées…