À noter : fermeture anticipée à 15 h de tous les sites de la BnF les mardis 24 et 31 décembre.
Pour rappel, tous les sites de la BnF sont fermés les mercredis 25 décembre et 1er janvier.
Quel est le lien entre la recherche du sosie de votre petit frère dans Gallica, la comparaison entre plusieurs graphies d’une notation musicale pour déterminer la main qui a copié une partition ancienne, et la prédiction des traitements à appliquer aux ouvrages de la BnF en vue de leur conservation ?
Ces trois tâches peuvent être assistées par les technologies de l’intelligence artificielle (IA), dont le périmètre d’action, très étendu, touche potentiellement toutes les activités, tous les services de la Bibliothèque, et promet des trouvailles et des pistes de recherche toujours plus enthousiasmantes.
Domaines d’application de l’IA à la BnF
L’IA se déploie à la BnF dans cinq principaux domaines. Ils font écho à ses missions de collecte, de catalogage, de conservation et de diffusion de collections d’une ampleur et d’une profondeur exceptionnelles :
L’aide au catalogage et au signalement
La gestion des collections, des entrées à la conservation
L’exploration des collections et l’amélioration de l’accès
La médiation, la valorisation et l’éditorialisation des collections
Pour apporter une cohérence globale aux développements et projets qu’elle mène dans ce domaine, mais également pour mieux répondre aux problématiques qu’ils soulèvent en matière d’éthique et de modification du rapport de l’homme à la machine, la BnF a rédigé une feuille de route pour la période 2022-2026.
Cinq actions
Présenté en décembre 2021 à l’occasion d’une conférence internationale qu’elle organisait dans ses murs sur le sujet, ce document décrit cinq actions :
Inscrire l’IA dans la stratégie de l’établissement
Organiser la R&D
Acquérir de nouvelles compétences, indispensables à l’émergence et à la conduite des projets IA
Préparer l’infrastructure et les données
Monter un programme pluriannuel sur l’IA en partenariat avec des acteurs clés
Le programme pluriannuel détaillé dans la feuille de route fédère six projets structurants destinés à intégrer l’IA dans les processus courants de la Bibliothèque. Cette intégration suppose par exemple de passer de l’expérimentation à l’industrialisation : c’est ce à quoi s’attache le projet de fouille dans les images numériques de Gallica. Il s’agit d’apprendre à la machine à reconnaître une image dans un document de n’importe quelle nature (livre, journal…), et d’ajouter des mots clés ou d’en analyser le contenu visuel pour faciliter l’exploration des contenus. Comme le projet de fouille, tous les projets de la BnF impliquant l’IA sont directement reliés aux outils et projets existants, par exemple à la refonte de l’outil de catalogage dans le cadre de la transition bibliographique, ou encore à la gestion physique des collections et au projet de construction du nouveau site de conservation à Amiens.
Voici la liste des 6 projets :
Fouille d’images dans Gallica (ou comment transformer les modalités de recherche dans Gallica en permettant une recherche d’images par mots clés ou par similarité)
Reconnaissance d’écriture manuscrite (HTR) dans une perspective d’intégration dans Gallica (cette technologie est la promesse d’une exploration nouvelle des manuscrits, mais aussi d’imprimés anciens et de documents en langues rares, etc.)
Chantiers catalogue (facilitation de tâches liées au traitement des documents, et optimisation d’un système de catalogage qui dispose déjà de certains mécanismes d’automatisation)
Recommandation personnalisée avec une approche éthique (l’enjeu de ce projet est d’utiliser l’intelligence des données pour proposer des réponses et des itinéraires plus pertinents aux usagers qui consultent les ressources en ligne de la BnF tout en évitant d’enfermer les utilisateurs dans le champ de leurs recherches de prédilection (c’est-à-dire qu’on cherchera à éviter les bulles de filtres) et en respectant la confidentialité de leurs données. Ce qui prime reste le souci de mettre en avant la diversité des ressources et d’ouvrir vers la découverte…)
Repérage de documents autonomes dans les archives du web (après avoir exploré la masse des archives du web pour y reconnaître des documents autonomes (articles scientifiques, publications officielles…) l’intelligence artificielle saurait en extraire les caractéristiques essentielles et générer des notices sommaires pour les décrire dans le catalogue de la bibliothèque)
Aide à la décision pour la conservation et la gestion des collections. Ce projet est étroitement lié à IGDC et au projet de nouveau centre à Amiens (cette fois, l’IA s’applique à la gestion matérielle des collections : elle permet d’anticiper le traitement à appliquer à des collections en mauvais état ; elle réalise des projections bâtimentaires combinant l’espace disponible dans les magasins et l’espace occupé par les documents…)
Dans le cadre de ces projets mais également au gré des occasions qui se présentent (en particulier en matière de partenariats de recherche), des expérimentations sont menées en continu. Le DataLab de la BnF s’avère de ce point de vue un outil essentiel.
Conserver la mémoire de l’IA sur le web
La BnF ne se contente pas d’implémenter des technologies d’intelligence artificielle pour le traitement et la diffusion de ses collections, elle se charge aussi, dans le cadre du dépôt légal numérique, de collecter les ressources qui traitent de l’IA sur le web. Durant l’été 2021, plus de 700 sites web ou comptes Twitter, sélectionnés au préalable par les départements de collections, ont par exemple été moissonnés par les robots de la BnF – ce qui représente plus de 10 millions d’URL. Ces ressources couvrent aussi bien les enjeux éthiques de l’IA que ses déclinaisons littéraires et artistiques, ses impacts socio-économiques ou ses applications scientifiques et techniques.