Du har inte javascript påslaget. Det innebär att många funktioner inte fungerar. För mer information om Vinnova, ta kontakt med oss.

Maskintolkning av handskrivna källmaterial

Diarienummer
Koordinator Riksarkivet
Bidrag från Vinnova 400 000 kronor
Projektets löptid april 2020 - maj 2021
Status Avslutat
Utlysning AI - Kompetens, förmåga och tillämpning
Ansökningsomgång Starta er AI-resa! Offentliga organisationer

Viktiga resultat som projektet gav

Detta projekt har prövat hur tekniker inom fältet HTR (Handwritten Text Recognition) kan användas mot handskrivna arkivmaterial inom Riksarkivet. En HTR-modell som automatiskt tolkar 22 500 textsidor från 1800-talets andra hälft har skapats. Modellen har tränats upp på 940 manuellt transkriberade sidor ("ground truth"), skapade av volontärer, och ger en felprocent på 2,7%. HTR-modellen är tillgänglig via plattformen Transkribus och texterna nås via en söktjänst som öppen data på Riksarkivets hemsida.

Långsiktiga effekter som förväntas

Projektets HTR-modell transkriberar ett historiskt arkivmaterial korrekt till 97% - bättre än vad de flesta människor klarar av och avsevärt fortare. Omkring 6 månaders manuellt arbetet - till stora delar utfört av volontärer - har lagts ner för att skapa träningsdata till modellen. Sannolikt hade det tagit minst 6 år att transkribera hela materialet manuellt. Potentialen med HTR är alltså stor. En HTR-modell kan även ligga till grund för nya modeller anpassade för andra material. HTR kommer bli ett kraftfullt verktyg för släkt- och hembygdsforskare och data-driven forskning.

Upplägg och genomförande

Arbetet med att skapa HTR-modeller och manuella transkriptioner har skett i plattformen Transkribus. AI-verktyg har på detta vis kombinerats med medborgarforskning. Innan bilderna transkriberas behöver textlinjerna identifieras. Detta sker maskinellt men kräver också manuella rättningar. Detta moment har tagit mer tid än förväntat. HTR-texterna har sedan exporterats till XML i standardformat (ALTO, PAGE och TEI). Nära samverkan med externa aktörer, forskare och volontärer är en viktigt del i det fortsatta arbetet med HTR på Riksarkivet.

Externa länkar

Texten på den här sidan har projektgruppen själv formulerat. Innehållet är inte granskat av våra redaktörer.

Senast uppdaterad 21 juli 2021

Diarienummer 2020-00248