Intelligence artificielle et collections de la BnF : le consortium Huma-Num pictorIA

La reconnaissance automatique d’images a fait de nombreux progrès ces dernière années, les GAFAM ayant largement investi ce sous-champ du deep learning, avec des résultats extrêmement satisfaisants sur des corpus récents. Cependant, dès qu’il s’agit de corpus de documents plus anciens, comme les estampes, dessins, enluminures, photos anciennes, ou techniques comme les photos de chantier de fouilles archéologiques, les modèles patinent, faute d’entrainement.

 

La BnF, qui conserve en ses murs d’énormes corpus visuels (dessins, estampes, images fixes ou animées), est depuis longtemps impliquée dans des programmes de reconnaissance automatique d’image, qui constitue un enjeu majeur pour le signalement et la valorisation des collections. Comment favoriser la recherche d’images par similarité dans les 16 millions d’estampe/dessins/photographies ? Comment extraire des images au sein des collections de presse qui comptent près de 420 000 titres ? Comment retracer le parcours d’une image dans le temps ?

Le traitement des collections d’images s’est avéré moteur dans le cheminement général de la BnF vers l’intégration de l’intelligence artificielle dans ses processus et outils, tant la valeur ajoutée de la promesse de l’analyse sémantique des images semble évidente.

L’exemple d’un partenariat avec le monde de la recherche

C’est donc assez naturellement que la BnF, par le biais du BnF DataLab, s’est associé à la cinquantaine de membres du consortium Huma-Num pictorIA pour participer à la réflexion globale autour du traitement de l’image. Dédié à l’analyse de corpus visuels numériques en sciences humaines et sociales par le biais d’outils d’intelligence artificielle, pictorIA est un espace de dialogue et de pratiques pour les acteurs académiques, les institutions culturelles et le public intéressé par l’impact des technologies sur le patrimoine visuel.

Plusieurs groupes de travail structurent le consortium :

  • cartographie des outils existants ;
  • élaboration de protocoles, référentiels et tutoriels ;
  • formations et ateliers ;
  • développement ou amélioration de prototypes afin de tester et d’enrichir les pratiques de recherche.  

L’un des enjeux principaux du consortium pictorIA est de mettre à disposition des ressources et outils immédiatement exploitables par la communauté des chercheurs. La part de la formation, qu’elle soit sous forme d’ateliers de prise en main, de datathons, de tutoriels, de mise à disposition de jeux de données… occupe donc une place pivot au sein du consortium et rejoint les objectifs de formation du BnF DataLab. Toutes ces ressources à destination des chercheurs et professionnels engagés dans le domaine de l’IA et des études visuelles sont mises à disposition sur le carnet hypothèses du consortium.

Les projets et événements mis en place

Depuis sa mise en place en janvier 2024, le BnF DataLab a ainsi participé et organisé plusieurs évènements :

15 mai 2024 – IA et images en SHS – journée de lancement du consortium

Cette journée de lancement a été l’occasion de présenter les enjeux du consortium ainsi que les projets et outils développés par les institutions partenaires : diverses interventions :

  • Présentation des projets menés à l’Institut national d’Histoire de l’art (Jean-Christophe Carius, INHA)
  • Présentation des projets IA au BnF DataLab (Catherine Eloi, BnF)
  • IIIF et IA (Jean-Philippe Moreux, BnF)
  • Ontologie et annotation : bonnes pratiques et cas d’usage (Marion Charpier, Musée des arts décoratifs)
  • Les outils en open-source de Teklia pour le traitement de documents numérisés : ArkIndex (Christopher Kermovant, Teklia)

Supports et vidéos

26 juin 2024 – IA et IIIF

IIIF est un ensemble de protocoles qui définissent un cadre d’interopérabilité pour la diffusion des images numériques sur le web. Il vise à favoriser l’interopérabilité des bibliothèques numériques et à proposer une expérience utilisateur enrichie en termes d’accès, de manipulation et d’exploitation des images en ligne en facilitant l’accès, l’annotation et le partage des images numériques, transformant ainsi la gestion et la diffusion des collections et corpus d’institutions différentes.
Cette journée a permis de présenter des outils et plateforme qui utilisent IIIF et son compte-rendu est disponible sur le carnet du consortium :

Voir le compte-rendu

11 septembre 2024 – Vision distante

Cet atelier était consacré à la notion de « vision distante » développée par Taylor Arnold et Lauren Tilton dans leur essai Distant Viewing: Computational Exploration of Digital Images (MIT Press) (mettre le lien). Les interventions ont permis d’aborder les questions soulevées par cette nouvelle approche, à mi-chemin entre l’histoire sociale et l’histoire de l’art, et de tester des scripts et applications en ligne pensés pour analyser massivement les corpus iconographiques.

Voir l’intervention sur Youtube

17 octobre 2024 – L’IA pour l’archéologie et les arts visuels anciens

Les sources étudiées et les documents produits par l’archéologie sont d’une grande diversité : photographies de sites archéologiques à différentes étapes de la fouille, images du mobilier archéologique, d’objets figurés ou de décors architecturaux, inscriptions, tracés de plan, élévations, carnets de fouilles, croquis, restitutions dessinées, 3D, etc. Les questionnements et les attentes relatifs aux apports de l’IA et à ses méthodes en sont d’autant multipliés. Le séminaire-atelier du 17 octobre a permis d’amorcer un dialogue sur l’IA appliquée à l’archéologie et aux objets patrimoniaux anciens grâce un choix de présentations et un atelier reflétant cette diversité.

Voir le compte-rendu

19-20 décembre 2024 – Hackathon pictorIA

À partir de jeux de données visuels de diverses institutions (Archives nationales, BnF, INHA…), les participants à ces 2 journées ont pu s’interroger sur la recherche autour de la circulation des images, la segmentation et l’exploration des similarités.

Le développement de scripts et applications et la structuration de ces données, en vue de leur mise à disposition sur le GitLab de pictorIA.

  • Exploration de jeux de données visuelles peu structurées issus des collections de la BnF et d’autres partenaires du consortium ;
  • Circulation des images, du précatalogage et l’exploration des similarités ;
  • Le développement de scripts et applications et la structuration de ces données, en vue de leur mise à disposition sur le GitLab de pictorIA.

En parallèle du développement de scripts et applications (à retrouver sur le GitLab de pictorIA) et la structuration des données, les groupes ont pu tester l’outil Panoptic, développé par le CERES (Centre d’expérimentation en méthodes numériques pour les recherches en sciences humaines et sociales), sur des données issues des archives du web. Cette expérimentation sera prolongée dans le cadre du projet Skybox, projet sélectionné dans le cadre du plan quadriennal de la recherche 2024-2027.
Après une première année de collaboration réussie, le BnF DataLab accueillera de nouveaux événements PictorIA en 2025.

Découvrir les réalisations de PictorIA

Connaître les prochains événements du BnF DataLab