L’intelligence artificielle au service de la conservation des collections

La BnF abrite plusieurs dizaines de millions de documents patrimoniaux qui relèvent de problématiques de conservation matérielle très variées. Pour aider les experts à traiter une telle masse, Alaa Zreik, doctorant en informatique, travaille depuis trois ans à l’élaboration d’un programme d’intelligence artificielle capable de prédire l’état sanitaire des collections de la Bibliothèque.

« Le plus difficile pour moi, ce n’est pas de modéliser des données, c’est d’expliquer simplement ce que je fais à des gens qui ne sont pas familiers du machine learning », confie Alaa Zreik avec un sourire. Après une licence en informatique à l’université libanaise de Beyrouth, il a rejoint l’université de Versailles-Saint-Quentin-en-Yvelines (UVSQ) et découvert le monde de la conservation patrimoniale avec un master sur la qualité des données au musée du Louvre. Sa thèse de doctorat, commencée en 2018, s’inscrit dans le cadre d’un projet financé par la Fondation des sciences du patrimoine et intitulé « Fouille de données et algorithmes de prédiction de l’état des collections (DALGOCOL) », qui associe l’UVSQ et la BnF. « Les musées et les bibliothèques, explique-t-il, sont des institutions riches en données qui offrent un grand intérêt pour les chercheurs travaillant sur l’intelligence artificielle. »

Alaa Zreik © Laurent Julliand / BnF

 

Un volume considérable d’informations sur les documents

De fait, la mise en place des systèmes d’information de la BnF à l’ouverture du site François-Mitterrand en 1995 a conduit à la production de quantités massives de données concernant l’état des documents, qu’il s’agisse des traitements de conservation et de restauration ou de l’historique des communications aux lecteurs. Or ces informations n’ont pas toujours été structurées de façon uniforme et ont pu varier en fonction des types de documents, des métiers concernés ou des applications utilisées. Philippe Vallas, directeur adjoint du département de la Conservation de la BnF, a ainsi dénombré 28 bases de données susceptibles de fournir des informations sur l’état physique des collections.

Recenser les données de conservation…

La première tâche d’Alaa Zreik a donc consisté à comprendre le fonctionnement des applications et des bases de données utilisées par les bibliothécaires de la BnF, puis à identifier et classer les dégradations et traitements que peuvent subir les documents. Les différentes catégories de rayures, pliures, mouillures ou déchirures, les protocoles de dépoussiérage, désinfection ou désacidification, les réparations effectuées par les restaurateurs, ou encore les procédures de reliure manuelle ou mécanisée ont été recensés afin de définir une terminologie stable. Une trentaine de types d’événements susceptibles de ponctuer la vie d’un document ont ainsi été identifiés.

…pour prédire l’état des documents

« À partir de là, j’ai créé une ontologie, c’est-à-dire un modèle conceptuel définissant des relations possibles entre les différents événements qui peuvent affecter les documents, et j’ai représenté l’histoire de la conservation des documents par des trajectoires sémantiques », explique Alaa Zreik. Cette ontologie, qui a vocation à être utilisée par d’autres institutions patrimoniales, a été publiée et a valu au chercheur et à sa directrice de thèse le prix du meilleur article de la 15e conférence RCIS (Research Challenges in Information Science).

Une fois ce modèle établi, il devient possible de calculer, en fonction des données disponibles sur les collections, la similarité des trajectoires de documents – et de prédire leur état futur.
« DALGOCOL nous donne à voir l’intérêt que peut présenter l’intelligence artificielle pour la conservation, souligne Philippe Vallas, mais il nous montre aussi – et ça a donné lieu pour nous à une véritable prise de conscience – que ce type de projet ne peut se transformer en outil de travail que si les données sur lesquelles on s’appuie sont de bonne qualité. » Pour l’heure, les informations sur l’état matériel des collections, parce qu’elles sont lacunaires ou non encore informatisées, ne permettent pas d’envisager le passage à une application effective : une réflexion est en cours pour améliorer la description matérielle de l’ensemble des collections de la BnF.

Mélanie Leroy-Terquem

Article paru dans Chroniques n° 93, janvier-mars 2021