Maskintolkning av handskrivna källmaterial
Diarienummer | |
Koordinator | Riksarkivet |
Bidrag från Vinnova | 400 000 kronor |
Projektets löptid | april 2020 - maj 2021 |
Status | Avslutat |
Utlysning | AI - Kompetens, förmåga och tillämpning |
Ansökningsomgång | Starta er AI-resa! Offentliga organisationer |
Viktiga resultat som projektet gav
Detta projekt har prövat hur tekniker inom fältet HTR (Handwritten Text Recognition) kan användas mot handskrivna arkivmaterial inom Riksarkivet. En HTR-modell som automatiskt tolkar 22 500 textsidor från 1800-talets andra hälft har skapats. Modellen har tränats upp på 940 manuellt transkriberade sidor ("ground truth"), skapade av volontärer, och ger en felprocent på 2,7%. HTR-modellen är tillgänglig via plattformen Transkribus och texterna nås via en söktjänst som öppen data på Riksarkivets hemsida.
Långsiktiga effekter som förväntas
Projektets HTR-modell transkriberar ett historiskt arkivmaterial korrekt till 97% - bättre än vad de flesta människor klarar av och avsevärt fortare. Omkring 6 månaders manuellt arbetet - till stora delar utfört av volontärer - har lagts ner för att skapa träningsdata till modellen. Sannolikt hade det tagit minst 6 år att transkribera hela materialet manuellt. Potentialen med HTR är alltså stor. En HTR-modell kan även ligga till grund för nya modeller anpassade för andra material. HTR kommer bli ett kraftfullt verktyg för släkt- och hembygdsforskare och data-driven forskning.
Upplägg och genomförande
Arbetet med att skapa HTR-modeller och manuella transkriptioner har skett i plattformen Transkribus. AI-verktyg har på detta vis kombinerats med medborgarforskning. Innan bilderna transkriberas behöver textlinjerna identifieras. Detta sker maskinellt men kräver också manuella rättningar. Detta moment har tagit mer tid än förväntat. HTR-texterna har sedan exporterats till XML i standardformat (ALTO, PAGE och TEI). Nära samverkan med externa aktörer, forskare och volontärer är en viktigt del i det fortsatta arbetet med HTR på Riksarkivet.