BnF DataLab, IA et collections numériques

De l’utilité de l’IA pour étudier nos collections numériques
Comment traiter des volumes croissants de contenus et faire en sorte qu’ils se répondent les uns les autres ? Comment promouvoir la connaissance et la découvrabilité des fonds ? Ces questions sont constitutives de l’histoire de la BnF, et la démocratisation de certaines technologies de l’IA font apparaître de nouveaux horizons pour favoriser l’exploration des centaines de millions de documents présents dans ses collections.

 

Les premiers programmes, menés en partenariat dans le cadre de projets européens, ont démarré en 2008 (programme QUAERO) et 2012 (programme IMPACT) et visaient à améliorer la reconnaissance des caractères des documents imprimés (OCR).

Ces premières initiatives ont rapidement été suivies par d’autres autour de la segmentation des documents (OLR), l’extraction des images, l’analyse de documents et de données, le traitement automatique des langues… soutenues par une dynamique au sein des sciences humaines et sociales, qui ont manifesté un intérêt croissant pour les humanités numériques et les analyses de masse.

L’intelligence artificielle à la BnF

S’il reste encore quelques étapes à franchir, le BnF DataLab perpétue cette tradition de partenariat et d’innovation en permettant un accès facilité aux collections en masse et en se plaçant comme le laboratoire de prototypage d’outils de fouille. Exemple avec la reconnaissance automatique d’écritures manuscrites et le consortium Huma-Num PictorIA !