Métiers du livre /
Journée d'étude « L'HTR des langues peu dotées »

L’HTR des langues peu dotées dans les programmes de recherche et dans les établissements de conservation français (1/2)

Journée d'étude « L'HTR des langues peu dotées » (1/2) BnF

Description
Intervenants

Vidéo

00:10 - Allocutions d’ouverture par Tiphaine Vacqué, adjointe à la directrice des services et des réseaux, déléguée aux systèmes d’information et au numérique (BnF) et Mercedes Volait, directrice de recherche (CNRS-INHA, InVisu).

12:27 - L’HTR des textes en chinois classique par Marie Bizais-Lilig (université de Strasbourg), Frédéric Constant (Université de Nice) et Colin Brisson (EPHE - Centre de recherche sur les civilisations de l’Asie orientale).

57:58 - L’HTR des textes en hébreu médiéval par Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +)

14 fév. 2024

Organisée à la BnF le 14 février 2024, en partenariat avec le consortium HumaNum DISTAM, cette journée d’étude permet de faire le point sur les projets de recherche en cours et sur la place de l’HTR (Handwritten Text Recognition) dans les établissements français conservant des manuscrits.

La reconnaissance optique des écritures manuscrites (handwritten text recognition - HTR), étape préalable à toute entreprise d’analyse ou de fouille de texte, pose des défis spécifiques pour les graphies non latines (arabe, arménienne, chinoise, hébraïque, etc.). Depuis quelques années, différents projets d’HTR ont ainsi été lancés ou menés à bien notamment dans le cadre du programme CollEx Persée, de projets soutenus par l’Agence nationale de la recherche (ANR), des travaux du DataLab de la BnF ou de projets de coopération numérique que l’établissement mène à l’international.

La plupart parviennent à des taux de reconnaissance supérieurs à 90%, mais avec une marge de progression qui semble limitée en l’état actuel des technologies employées, et un défi qui est celui de la correction des textes extraits.

La journée d’étude se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées en matière d’HTR. Il s’agira de s’interroger sur les capacités de progression des outils utilisés, sur ce que recouvrent exactement les taux de reconnaissance obtenus, sur les perspectives que cette mise à disposition massive d’extractions de textes manuscrits ouvre pour la recherche en termes de lecture distante et de traitement automatique de la langue ainsi que sur la normalisation des modèles et la publication des modèles et des données d’entrainement. On examinera enfin la place de l’HTR dans les programmes des établissements de conservation français, ainsi que l’intégration des extractions obtenues dans les bibliothèques numériques.

Tiphaine Vacqué

BnF

Mercedes Volait

CNRS INHA - InVisu

Marie Bizais-Lilig

Université de Strasbourg

Frédéric Constant

Université de Nice

Colin Brisson

EPHE - Centre de recherche sur les civilisations de l’Asie orientale

Daniel Stoekl Ben Ezra

EPHE et Equipex Biblissima +

Explorer cette thématique : Métiers du livre

26 nov. 2024

Détruire le livre ? – Deuxième partie

Regarder

24 Mai. 2021

Éloge de la traduction. Confucius ou la Science des princes

Regarder

20 mar. 2023

Papier aujourd’hui et demain : association Culture papier, pour le développement durable du papier et de l’imprimé

Regarder

10 jan. 2012

Cultures numériques

Regarder

Explorer cette thématique : Journée d'étude « L'HTR des langues peu dotées »

14 fév. 2024