This ground-truth dataset has been built around the idea of offering a variety of data to improve the coverage of modern cursive handwriting, in the perspective of building generic transcription models. Each manuscript includes 1 to 10 images taken from a single hand or multihand manuscript held at the Bibliothèque nationale de France (BnF) and available through Gallica. The number of lines per page depends on the documents. It varies from 4 to 42 for the densest, with an average amount of 15 lines per pages.
The transcription guidelines are described in a paper available on HAL and published in the Journal for Open Humanities Data. The paper provides specific details about the selection process, the transcription methods and choices, as well as details about the output (mainly the Generic CREMMA Model for Medieval Manuscripts (Latin and Old French) for Kraken)
ALTO and images can be found in the directory called data/. Each subfolder of data/ corresponds to a 
single manuscript, identified by its shelfmark.
| Shelfmark | Links | Range | Type | Century | Color | Pages | Main Zones | Lines | Characters | Genre | Content | 
|---|---|---|---|---|---|---|---|---|---|---|---|
| BnF Français 3816 | 📁 | 1r, 4r, 6r, 6v, 8v, 9r, 11r, 13r, 20v, 65r | - | 16 | ✗ | 10 | 22 | 162 | 5462 | lettre | _ | 
| BnF Français 2982 | 📁 | 1v, 2r, 20v, 78v, 79r | - | 16 | ✗ | 5 | 6 | 90 | 2748 | lettre | _ | 
| BnF Français 3640 | 📁 | 45r, 56r, 56v, 80r, 80v | - | 16 | ✗ | 5 | 7 | 94 | 2955 | lettre | _ | 
| BnF NAF 1992 | 📁 | 1r, 1v, 5r, 5v, 59r | - | 16 | ✗ | 5 | 8 | 87 | 2316 | lettre | _ | 
| BnF Français 3413 | 📁 | 37r, 40r, 43r, 46r, 49r | - | 16 | ✗ | 5 | 8 | 107 | 2715 | lettre | _ | 
| BnF ms Dupuy 63 | 📁 | 9r-9v,15r-15v,17r-18r, 34v-35r,36r-36v | - | 16 | ✓ | 10 | 17 | 290 | 14272 | correspondance | _ | 
| Français 14944 | 📁 | 64r-66r | - | 17 | ✗ | 5 | 4 | 126 | 3800 | poesie | _ | 
| LAS CONCERNANT LULLY 8 | 📁 | 1r, 2r, 2v, 3r, 3v | - | 17 | ✗ | 5 | 9 | 191 | 7801 | administratif | _ | 
| BnF ms Baluze 209 | 📁 | f45,f85,f97,f98,f132,f135,138,f141,f179,f191 | - | 17 | ✗ | 10 | 19 | 192 | 6740 | correspondance | _ | 
| BnF ms Picardie 13 | 📁 | f23,f24 | - | 17 | ✗ | 2 | 2 | 40 | 1060 | inventaire | _ | 
| BnF Bibliothèque de l’Arsenal. Ms-9314 | 📁 | 29r, 29v, 30r, 31r, 32v | - | 17 | ✗ | 5 | 7 | 79 | 2644 | lettre | _ | 
| BnF Français 17217 | 📁 | 3r,4r,5r,6r,7r | - | 17 | ✓ | 5 | 9 | 106 | 3802 | traité | _ | 
| BnF NAF 12303 #0 | 📁 | 1r-1v | - | 17 | ✓ | 2 | 2 | 32 | 938 | fable | _ | 
| BnF Français 2533 | 📁 | 31v-33r | - | 17 | ✓ | 5 | 5 | 72 | 1430 | traité | _ | 
| BnF Français 2394 | 📁 | 7r-9r | prose | 17 | ✓ | 5 | 4 | 67 | 1947 | traité | « Discours sur le tableau du Passage du Rhin, à monsieur Le Brun », par « F. LE BRUN », en latin et en français. | 
| BnF Français 4108 | 📁 | 1r-102v | prose | 17 | ✓ | 5 | 4 | 111 | 3982 | prose | Contient : 1° « Remonstrances du parlement de Navarre au roy [Louis XIV], contre Mr le comte de Guiche, viceroy de Navarre » ; 2° « Response de Mr le comte [ANTOINE III] DE GUICHE ausdittes remonstrances » Description : Numérisation effectuée à partir d’un document original. | 
| BnF 4-S-3789 (2) | 📁 | NP-NP | prose | 17 | ✓ | 5 | 5 | 109 | 1764 | traité | Jugement de phisionomie conforme aux principes d’Aristote et des autres philosophes. Tiré des differentes partes du corps humain Par le R. P. F. Paul Grisaldi de Perouse docteur en theologie de l’ordre des ff prescheurs… Auteur : Grisaldi, Paolo (15..-1614). Auteur du texte | 
| BnF Français 8204 | 📁 | 1r-77v | prose | 17 | ✓ | 6 | 7 | 45 | 1871 | armorial | « Les noms et surnoms, qualitez, armes et seigneuries de tous les cardinaux, prelats et commandeurs de l’Ordre du St -Esprit, qui ont esté faicts par le très crestien roy de France et de Navarre, Louis treiziesme du nom… » (1610-1621). | 
| BnF Ms-3561 | 📁 | xr-yv | prose | 17 | ✓ | 5 | 5 | 91 | 2393 | Traité | « Testament politique de l’éminantissime Armand, cardinal duc de Richelieu, pair et grand admiral de France. ». « Testament politique de l’éminantissime Armand, cardinal duc de Richelieu, pair et grand admiral de France. » Tome Ier. | 
| BnF Ms-3160 | 📁 | 2-6 | prose | 18 | ✓ | 5 | 6 | 104 | 4272 | Roman | « Candide, ou l’optismime(sic) », par Voltaire | 
| BnF ms NAF 6834 | 📁 | 1r-2r | - | 18 | ✓ | 3 | 5 | 51 | 1469 | correspondance | _ | 
| BnF 2011_091_ACM05-20 | 📁 | NP | prose | 18 | ✓ | 1 | 4 | 16 | 576 | lettre | Archives du cabinet des médailles, série chronologique. Archives du cabinet des médailles (1794-an IX). Acquisitions provenant de la Monnaie, du Garde-meuble. Lettre de Capperonier au directeur général de l’Instruction publique, demandant la remise au Cabinet de la bordure contenant les miniatures de Louis XIV et sa famille par Antoine Benoist (Paris, 13 nivôse an V). | 
| BnF RESERVE 8-YA3-27 (34, 932) | 📁 | 85-89 | - | 18 | ✓ | 5 | 5 | 100 | 2172 | traité | _ | 
| BnF RESERVE 8-YA3-27 (47, 1209) | 📁 | 143-147 | - | 18 | ✓ | 5 | 5 | 111 | 3426 | traité | _ | 
| BnF RESERVE 8-YA3-27 (4,52) | 📁 | NP-NP | prose | 18 | ✓ | 5 | 5 | 113 | 3509 | prose | [Article CXX des Memoires pour l’histoire des Sciences et des Beaux arts. Jugemens sur les principaux ouvrages exposés au Louvre en 1751.] | 
| BnF GE DD-2025 (RES) | 📁 | 4r-130v | prose | 18 | ✓ | 10 | 11 | 176 | 6289 | divers documents | _ | 
| BnF Français 19670 | 📁 | 1r-225r | prose | 18 | ✓ | 10 | 17 | 206 | 7601 | recueil de correspondance | Correspondance de D. Guillaume LE SUEUR († 1748). | 
| BnF NAF 1103 | 📁 | 1-NP | prose | 18 | ✓ | 4 | 4 | 88 | 3274 | traité d’histoire | Abrégé de l’histoire de Marseille, depuis sa fondation jusqu’en 1733, par F. M[ALLAVAL], l’an 1733 ». | 
| BnF Français 15148 | 📁 | 1-484 | mixed | 18 | ✓ | 6 | 4 | 81 | 1803 | prose | « Pièces critiques et satyriques pour servir à l’histoire du tems. — A Pantin, chez Jean Satire, rue des Mauvaises Pensées, à la Sotise ». | 
| BnF RESERVE QB-370 (2)-FT 4 | 📁 | NP-NP | prose | 18 | ✓ | 2 | 2 | 22 | 538 | ordre royal | Autographe de Louis XVI. Paris, 15 avril 1791 | 
| BnF NAF 12303 #1 | 📁 | 2r-2v | - | 19 | ✓ | 2 | 2 | 28 | 970 | correspondance | _ | 
| BnF 8-Q PIECE-1904 | 📁 | xr-yv | prose | 19 | ✓ | 5 | 8 | 199 | 7681 | monographie imprimée | Bibliographie des travaux de M. Moïse Schwab (1860-1904) / par P. Hildenfinger | 
168
This project was funded by the Bibliothèque nationale de France through the 2022 project calls from Datalab for 2023.
Clérice, T., Chagué, A., Gille-Levenson, M., Brisville-Fertin, O., Pinche, A., Camps, J., Fischer, F., Boschetti, F., Guadagnini, E., Guilhem Couffignal, G., Canteaut, O., Romary, L., Reboul, M., Perreaux, N., Poibeau, T., Smith, M., Norindr, J., Glaise, A., Navas Farré, M., Bordier, J., Leroy, N., Alba, R., & Rubin, G. HTRomance [Data set]. https://htromance-project.github.io/
@misc{Clerice_HTRomance, author = {Clérice, Thibault and Chagué, Alix and Gille-Levenson, Matthias and Brisville-Fertin, Olivier and Pinche, Ariane and Camps, Jean-Baptiste and Fischer, Franz and Boschetti, Federico and Guadagnini, Elisa and Guilhem Couffignal, Gilles and Canteaut, Olivier and Romary, Laurent and Reboul, Marianne and Perreaux, Nicolas and Poibeau, Thierry and Smith, Marc and Norindr, Jade and Glaise, Anthony and Navas Farré, Marina and Bordier, Julie and Leroy, Noé and Alba, Rachele and Rubin, Giorgia}, title = , url = {https://htromance-project.github.io/} }
This project relied on the CREMMA infrastructure.