Djupinlärd talsyntes för uppläsning av lång och informationsrik text på svenska
Diarienummer | |
Koordinator | Kungliga Tekniska Högskolan - Språkbanken Tal |
Bidrag från Vinnova | 6 688 000 kronor |
Projektets löptid | oktober 2019 - mars 2024 |
Status | Pågående |
Utlysning | AI - Spets och innovation |
Ansökningsomgång | Från AI-forskning till innovation våren 2019 |
Syfte och mål
Projektet syftar till att ta fram en djupinlärd talsyntes (text-till-tal) för uppläsning av lång och informationsrik text på svenska. Projektet pågår under 2019-2022 och leds av den nationella forskningsinfrastrukturen Språkbanken Tal och avdelningen för Tal, musik och hörsel på KTH Kungliga Tekniska högskolan. Övriga projektdeltagare är Myndigheten för tillgängliga medier, Bonnierförlagen AB, Wikimedia Sverige och Södermalms Talteknologiservice AB.
Förväntade effekter och resultat
Idag saknas fritt tillgängliga resurser för utveckling och förfining av djupinlärd talsyntes på svenska. Fria ramverk för träning finns (och används i projektet), men de språkspecifika resurserna saknas eller är undermåliga. Kostnaden för att ta fram dem är höga, och gör det svårt eller omöjligt för svenska fröetag att delta i utvecklingen. Projektet kommer att göra de grundläggande resuirser som saknas fritt tillgängliga, och därmed lägga grunden för vidareutveckling av svensk talteknologi och svenskt syntetiskt tal, speciellt med avseende på uppläsning av längre text.
Planerat upplägg och genomförande
Projektet består av fem arbetspaket: Grafem-till-fonem-omvandling (G2P): automatisk omvandling från text till uttalsangivelse. Textprofilering: avgör på vilket sätt text ska läsas upp, skiljer på t.ex. löptext, dialog, formler eller tabeller. Inspelning av mänskliga inläsare: träningsdata för maskininlärning. Framtagning av talsyntesröst: träning av syntetiskt tal mha djupinlärning. Utvärdering: metoder och verktyg för utvärdering av syntetiskt tal. Alla projektresultat blir fritt tillgängliga vid projektets slut.