Capture de votre site web par le robot de la BnF
Cette opération est réalisée dans le cadre du dépôt légal de l’internet, régi par le Code du patrimoine (art. L131-1 à L133-1 et R131-1 à R133-1) depuis la parution de la loi n° 2006-961 du 1er août 2006 relative au droit d’auteur et aux droits voisins dans la société de l’information (DADVSI). Le dépôt légal constitue l’un des principaux modes d’enrichissement des collections patrimoniales de la BnF.
Paramètres de collecte
La BnF utilise le robot Heritrix (http://crawler.archive.org) pour réaliser la collecte des sites web. Le robot s’identifie avec le champ «User-Agent : Mozilla/5.0 (compatible; bnf.fr_bot; …)». Il applique des délais élevés entre deux requêtes (principe de politesse) afin de ne pas gêner les serveurs des producteurs.
Protocole robots.txt
En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé robots.txt. Ce protocole vise à diriger l’activité des robots d’indexation utilisés par les moteurs de recherche, en filtrant les contenus non textuels et/ou non indexables (fichiers binaires comme images, sons ou vidéos ; feuilles de style ou fichiers d’administration du site web).
Afin d’accomplir sa mission de dépôt légal, la BnF peut choisir de capturer certains des fichiers concernés par le robots.txt, quand ceux-ci sont nécessaires pour reconstituer la forme éditoriale du site (dans le cas notamment des fichiers image ou feuille de style). Ce non-respect du robots.txt n’entre pas en conflit avec la protection de la correspondance privée garantie par la loi, car toutes les données mises à la disposition sur l’internet sont considérées comme publiées, qu’elles soient ou non filtrées par le robots.txt.
Traitement du Javascript
Les pages web interactives utilisent le langage Javascript qui construit des liens et déclenche des actions sur des événements (chargement de page, navigation dans un menu, clic ou scroll de souris…).
N’étant pas capable d’interpréter précisément tout le code Javascript, Heritrix peut générer de fausses URL : ce comportement n’est pas considéré comme une erreur dans la fonctionnalité du robot (https://github.com/internetarchive/heritrix3/wiki/crawling%20JavaScript).
La BnF fait son maximum pour éviter la génération de ces fausses URL, en posant de nombreux filtres dans les profils de collecte, et se concentre sur les URL pertinentes.
En cas de difficultés
Si l’opération de collecte a un impact sur les performances de votre site web, signalez-le par la messagerie électronique robot@bnf.fr. Nous vous proposerons rapidement une solution.