- Actualités Professionnelles
Lancement de la 20e collecte large annuelle des sites web français
Dans le cadre de sa mission de dépôt légal du web, la BnF lance au mois de novembre 2024 sa campagne annuelle de collecte du plus grand nombre de sites web dont les producteurs sont domiciliés en France ou dont les données sont hébergées en France.
La liste de ces sites composée de plus de 5,9 millions de noms de domaines de départ est le résultat d’un travail de compilation de différentes sources issues de la BnF et de ses partenaires tels que le Centre ISSN France et des bureaux d’enregistrements comme l’Afnic, l’ICANN et OVH.
C’est ensuite un robot moissonneur prénommé Heritrix qui pendant plus d’un mois va copier les pages de ces millions de sites en récupérant tous les fichiers associés.
Une fois les pages web collectées, archivées et indexées, elles viendront enrichir les Archives de l’internet de la BnF dont les collections remontent à 1996, constituant ainsi la mémoire numérique de demain pour le patrimoine et la recherche.