La BnF et l'intelligence artificielle
Quel est le lien entre la recherche du sosie de votre petit frère dans Gallica, la comparaison entre plusieurs graphies d’une notation musicale pour déterminer la main qui a copié une partition ancienne, et la prédiction des traitements à appliquer aux ouvrages de la BnF en vue de leur conservation ?
Ces trois tâches peuvent être assistées par les technologies de l’intelligence artificielle (IA), dont le périmètre d’action, très étendu, touche potentiellement toutes les activités, tous les services de la Bibliothèque, et promet des trouvailles et des pistes de recherche toujours plus enthousiasmantes.
Domaines d’application de l’IA à la BnF
L’IA se déploie à la BnF dans cinq principaux domaines. Ils font écho à ses missions de collecte, de catalogage, de conservation et de diffusion de collections d’une ampleur et d’une profondeur exceptionnelles :
- L’aide au catalogage et au signalement
- La gestion des collections, des entrées à la conservation
- L’exploration des collections et l’amélioration de l’accès
- La médiation, la valorisation et l’éditorialisation des collections
- L’aide à la décision et au pilotage
Feuille de route
Un enjeu de cohérence et de responsabilité
Pour apporter une cohérence globale aux développements et projets qu’elle mène dans ce domaine, mais également pour mieux répondre aux problématiques qu’ils soulèvent en matière d’éthique et de modification du rapport de l’homme à la machine, la BnF a rédigé une feuille de route pour la période 2022-2026.
Cinq actions
Présenté en décembre 2021 à l’occasion d’une conférence internationale qu’elle organisait dans ses murs sur le sujet, ce document décrit cinq actions :
- Inscrire l’IA dans la stratégie de l’établissement
- Organiser la R&D
- Acquérir de nouvelles compétences, indispensables à l’émergence et à la conduite des projets IA
- Préparer l’infrastructure et les données
- Monter un programme pluriannuel sur l’IA en partenariat avec des acteurs clés
En savoir plus (entretien avec Emmanuelle Bermès)
Lire la feuille de route (synthèse visuelle)
Projets majeurs et expérimentations
Le programme pluriannuel détaillé dans la feuille de route fédère six projets structurants destinés à intégrer l’IA dans les processus courants de la Bibliothèque. Cette intégration suppose par exemple de passer de l’expérimentation à l’industrialisation : c’est ce à quoi s’attache le projet de fouille dans les images numériques de Gallica. Il s’agit d’apprendre à la machine à reconnaître une image dans un document de n’importe quelle nature (livre, journal…), et d’ajouter des mots clés ou d’en analyser le contenu visuel pour faciliter l’exploration des contenus. Comme le projet de fouille, tous les projets de la BnF impliquant l’IA sont directement reliés aux outils et projets existants, par exemple à la refonte de l’outil de catalogage dans le cadre de la transition bibliographique, ou encore à la gestion physique des collections et au projet de construction du nouveau site de conservation à Amiens.
Voici la liste des 6 projets :
- Fouille d’images dans Gallica (ou comment transformer les modalités de recherche dans Gallica en permettant une recherche d’images par mots clés ou par similarité)
- Reconnaissance d’écriture manuscrite (HTR) dans une perspective d’intégration dans Gallica (cette technologie est la promesse d’une exploration nouvelle des manuscrits, mais aussi d’imprimés anciens et de documents en langues rares, etc.)
- Chantiers catalogue (facilitation de tâches liées au traitement des documents, et optimisation d’un système de catalogage qui dispose déjà de certains mécanismes d’automatisation)
- Recommandation personnalisée avec une approche éthique (l’enjeu de ce projet est d’utiliser l’intelligence des données pour proposer des réponses et des itinéraires plus pertinents aux usagers qui consultent les ressources en ligne de la BnF tout en évitant d’enfermer les utilisateurs dans le champ de leurs recherches de prédilection (c’est-à-dire qu’on cherchera à éviter les bulles de filtres) et en respectant la confidentialité de leurs données. Ce qui prime reste le souci de mettre en avant la diversité des ressources et d’ouvrir vers la découverte…)
- Repérage de documents autonomes dans les archives du web (après avoir exploré la masse des archives du web pour y reconnaître des documents autonomes (articles scientifiques, publications officielles…) l’intelligence artificielle saurait en extraire les caractéristiques essentielles et générer des notices sommaires pour les décrire dans le catalogue de la bibliothèque)
- Aide à la décision pour la conservation et la gestion des collections. Ce projet est étroitement lié à IGDC et au projet de nouveau centre à Amiens (cette fois, l’IA s’applique à la gestion matérielle des collections : elle permet d’anticiper le traitement à appliquer à des collections en mauvais état ; elle réalise des projections bâtimentaires combinant l’espace disponible dans les magasins et l’espace occupé par les documents…)
Dans le cadre de ces projets mais également au gré des occasions qui se présentent (en particulier en matière de partenariats de recherche), des expérimentations sont menées en continu. Le DataLab de la BnF s’avère de ce point de vue un outil essentiel.
Conserver la mémoire de l’IA sur le web
La BnF ne se contente pas d’implémenter des technologies d’intelligence artificielle pour le traitement et la diffusion de ses collections, elle se charge aussi, dans le cadre du dépôt légal numérique, de collecter les ressources qui traitent de l’IA sur le web. Durant l’été 2021, plus de 700 sites web ou comptes Twitter, sélectionnés au préalable par les départements de collections, ont par exemple été moissonnés par les robots de la BnF – ce qui représente plus de 10 millions d’URL. Ces ressources couvrent aussi bien les enjeux éthiques de l’IA que ses déclinaisons littéraires et artistiques, ses impacts socio-économiques ou ses applications scientifiques et techniques.
–––––––—
Illustrations de cette page : C.Ardenti et L.Giocanti
–––––––—
Ressources
Feuille de route de la BnF sur l’IA, 2021-2026
- Feuille de route : synthèse visuelle (PDF à télécharger)
L’IA à la BnF
- La BnF et l’intelligence artificielle : itinéraire dans le schéma numérique de la BnF
- Dossier sur l’IA dans le numéro 93 de Chroniques, janvier 2022 et en particulier :
- Présentation générale : «L’intelligence artificielle au service de la Bibliothèque et de ses usagers»
- Entretien avec Emmanuelle Bermès : «Une feuille de route pour l’intelligence artificielle à la BnF»
- Quelques projets d’intelligence artificielle en cours à la BnF
L’IA dans les bibliothèques, dans les institutions culturelles
- Futurs fantastiques 2021 : 3e conférence internationale l’intelligence artificielle appliquée aux Bibliothèques, Archives et Musées
En savoir plus sur l’IA
- La théorie de l’apprentissage de Vapnik et les progrès récents de l’intelligence artificielle, par Yann Le Cun (1 h 15, 2018)
- Le geste galiléen par temps de big data, par Etienne Klein (1 h 15, 2018)
- Cycle Débats au cœur de la science sur l’IA en 2022