Un script pour interroger l'API de Transkribus et générer des fichiers XML-TEI et leur métadonnées.
-
requestingTranskribus.pypermet de récupérer l'ensemble des transcriptions disponibles dans une ou plusieurs collections correspondant à un ou plusieurs statuts. Ces informations sont indiquées dansconfig.py. Les transcriptions sont disponibles au format PAGE. Attention, le script ne télécharge pas l'image utilisée comme facsimilé par un fichier XML-PAGE.- pour chaque collection, un dossier est créé pour contenir l'ensemble des dossiers de sous-collections.
- pour chaque sous-collection, un dossier est créé contenant un fichier
metadata.json, qui contient les métadonnées de la sous-collection. - pour chaque page de la sous-collection aux statuts recherchés, un fichier
.xmlest créé, nommé d'après le numéro de page auquel il correspond. - deux attributs sont ajoutés dans le fichier
.xmlcréé, pour l'élémentPage: @id dont la valeur correspond au numéro de page, et @url dont la valeur est l'url de récupération de l'image de la page.
A partir de cet export de fichiers XML-PAGE :
-
fromPAGEtoText.pypermet de transformer les fichiers XML-PAGE d'une collection en des fichiers de texte brut. Chaque sous-collection est traitée à part et donne lieu à la création d'un fichier dans le dossier__TextExports__. Les sauts de zones de texte et de pages sont signalés par des marqueurs dans les documents. -
toSingleXML.pypermet de rassembler les fichiers XML-PAGE qui composent une sous-collection en un seul fichier. Chaque sous-collection est traitée à part et donne lieu à la création d'un fichier dans le dossier__AllInOne__. Attention, Un élément<tu:PageGrp>a été ajouté pour rassembler tous les éléments<Page>et leur contenu ; il n'est pas conforme au schéma PAGE original.