Pour rappel, tous les sites de la BnF sont fermés les mercredis 25 décembre et 1er janvier.
L’intelligence artificielle au service de la Bibliothèque et de ses usagers
Aujourd’hui, quand vous dictez des messages à votre téléphone portable, quand vous évitez des embouteillages en suivant l’itinéraire proposé par votre GPS, ou quand vous découvrez un nouvel album recommandé par votre application de musique, vous interagissez avec des intelligences artificielles. Ce champ de recherche apparu dans les années 1950 a vu naître des techniques permettant à des machines de simuler des facultés de l’intelligence humaine – comme le langage, le calcul, l’apprentissage, la logique ou la déduction.
Sur la base de ces travaux, ont ensuite été développés des systèmes d’aide à la décision dans les domaines de la médecine, du design industriel ou de la gestion de stocks, puis quantités d’applications informatiques qui se sont immiscées dans nos pratiques quotidiennes. C’est le cas de la traduction automatique ou des agents conversationnels (chatbots) – comme ceux qui vous guident dans la réservation de votre billet de train. C’est aussi le cas de la reconnaissance optique de caractères, qui vous permet de faire des recherches au sein des millions de documents disponibles dans Gallica, la bibliothèque numérique de la BnF et de ses partenaires.
Un immense gisement documentaire
Parce que l’IA permet d’analyser et de traiter des informations beaucoup plus rapidement et massivement qu’un œil et un cerveau humains, elle intéresse au premier chef une institution comme la BnF, qui se distingue par l’ampleur et la richesse de ses collections.
La numérisation des fonds patrimoniaux, entamée dans les années 1990, la collecte de documents nativement numériques et la production des métadonnées nécessaires à la gestion et à la diffusion de l’ensemble des collections concourent à la massification des données traitées à la BnF.
Plus de 40 millions de documents de multiples natures (livres, manuscrits, cartes, partitions, objets, documents sonores et jeux vidéo) dans les magasins physiques de la Bibliothèque, près de 9 millions de documents numérisés et accessibles dans Gallica, 15 millions de notices dans le catalogue général, 40 milliards d’URL collectées dans les archives de l’internet : ces chiffres donnent une idée de l’immensité des gisements documentaires sur lesquels la Bibliothèque veille.
Face à une telle volumétrie, l’IA ouvre aux bibliothécaires comme aux publics de nouvelles voies vers l’intelligibilité des collections.
Une aide à la compréhension et à l’exploitation des collections
Les outils reposant sur la fouille de textes, tels ceux au cœur du projet NewsEye, ou sur la fouille d’images, comme le moteur d’indexation GallicaSnoop, permettent d’explorer avec une finesse et une précision nouvelles des corpus de presse ancienne ou des collections iconographiques dont les descriptions sont insuffisantes pour accéder aux trésors qu’elles recèlent.
L’IA permet d’envisager des recherches sur des fonds jusqu’alors inexploités et de faire émerger de nouveaux champs d’étude en humanités numériques, comme en témoignent les projets retenus à l’issue de l’appel lancé par le DataLab de la BnF et Huma-Num. Les potentialités de l’IA sont aussi susceptibles d’accompagner les missions traditionnelles de la Bibliothèque, à l’image du projet DALGOCOL qui ambitionne d’aider à la gestion sanitaire des collections grâce à des dispositifs prédictifs.
Faire évoluer les tâches et les métiers
S’il a déjà été entamé dans certains secteurs de la Bibliothèque, le déploiement progressif de l’IA dans ses différents champs d’activité implique pour les années à venir une évolution des tâches et des métiers. « Évolution, et non pas remplacement, note Jean-Philippe Moreux, qui accompagne les projets d’IA à la BnF. L’autonomie apparente des outils ne doit pas masquer l’implication réelle de l’humain dans tous les processus. »
Car ces outils sont conçus, programmés, entraînés et alimentés avec des données choisies et produites par des humains, via une préparation souvent longue et fastidieuse. Rosalba Agresta, qui pilote le projet REMDM, en sait quelque chose : avec plusieurs collègues du département de la Musique, elle a passé une partie du confinement du printemps 2020 à examiner à la loupe les manuscrits musicaux en ligne dans Gallica pour répertorier les manuscrits autographes et en vérifier les notices descriptives. « Ce travail, qui relève de l’expertise propre aux spécialistes du département, nous a conduits à déclasser 45 manuscrits de Concertos de Tartini que nous avons identifiés comme des copies de Giulio Meneghini », explique-t-elle.
C’est là un des enjeux majeurs de l’appropriation de l’IA à la BnF, souligne Arnaud Beaufort, directeur des Services et des réseaux :
« Il s’agit pour nous de fournir des données correctement mises en forme pour être exploitées par des machines, et de déployer une architecture appropriée, suffisamment souple pour épouser les évolutions technologiques qui ne vont pas manquer d’advenir dans les prochaines années. »
Produire des données de qualité, comprendre l’utilisation qui en sera faite, s’adapter aux évolutions des usages – autant de compétences au cœur des métiers traditionnels des bibliothèques, qui invitent la BnF à prendre place parmi les acteurs de l’intelligence artificielle.
Céline Leclaire et Mélanie Leroy-Terquem
Dossier paru dans Chroniques n° 93, janvier-mars 2021