Les collections numériques à la BnF
La grande diversité des collections numériques
Constituées depuis une trentaine d’années, les collections numériques de la BnF représentent aujourd’hui une masse considérable de données d’une grande diversité, tant par leur typologie que par leur contenu :
- documents issus de la numérisation des collections et disponibles dans Gallica (images, textes issus de l’OCR, métadonnées, objets)
- ressources électroniques acquises
- collections audiovisuelles et multimédias sur support (jeux vidéos, DVD, CD-Rom…)
- archives de l’Internet et autres documents numériques collectés par dépôt légal
- métadonnées des différents catalogues (catalogue général de la BnF, Archives et manuscrits, Catalogue collectif de France)
Les métadonnées des documents, qui documentent l’histoire des collections, sont considérées comme des collections numériques au même titre que certaines données administratives et techniques comme par exemple les traces d’usage ou « logs » de Gallica.
Qu’elles soient issues de la numérisation ou nativement numériques, ces documents numériques s’inscrivent dans le continuum des collections de la BnF et ouvrent de nouveaux champs de recherche et des perspectives inédites pour l’étude et l’exploitation des corpus, suscitant de nouveaux usages : analyse de masse, fouille de texte, visualisation de données, cartographie, analyse d’images, de réseaux, etc. Face à cette diversité et à la complexité technique qui parfois conditionne leur exploitation, la BnF mobilise différents niveaux d’expertise pour répondre aux besoins des chercheurs qui souhaitent constituer des corpus massifs et exploiter ces données : le catalogue général et les exports csv, le portail API et données, le rapport de recherche Gallica, le portail data.bnf.fr… Le BnF DataLab entre à présent dans cette offre de service, pour accompagner les chercheurs dans des parcours à définir, selon les modalités d’inscription des chercheurs à la bibliothèque de recherche et dans le respect du cadre juridique.
Les collections numériques et la recherche
Ce passage du document à la donnée a permis de nouveaux usages et a également ouvert de nouveaux champs dans la recherche, toutes disciplines confondues.
Pour répondre aux besoins des chercheurs qui souhaitent constituer des corpus et exploiter ces données, la BnF a mis en place de la documentation et des outils pour extraire et analyser ces données :
- le portail API et jeux de données, qui permet d’accéder à la documentation sur les API mises en place par la BnF et des jeux de données exploitées dans le cadre de programme de recherche
- l’export au format csv des notices du catalogue général
- le rapport de recherche de Gallica
- le portail data.bnf et le sparkl endpoint
- les parcours guidés dans les archives de l’internet
- réutiliser les données de la BnF
Le BnF DataLab, comme lieu identifié d’accueil et d’accompagnement, s’inscrit dans cette continuité de services. Il permet aux usagers un suivi dans leur usages de ces outils et un accompagnement expert autour des collections.