TYDLIGT - Techniques for Yielding Discourse Level Improvements for German Translation

Diarienummer 2015-01554
Koordinator Uppsala universitet - Institutionen för lingvistik och filologi
Bidrag från Vinnova 1 251 343 kronor
Projektets löptid december 2015 - januari 2018
Status Avslutat
Ansökningsomgång VINNMER Marie Curie Incoming 2015-03-17

Syfte och mål

Projektets syfte var att utveckla innovativa strategier för att behandla komplexa lingvistiska flerordskonstruktioner i statistisk maskinöversättning (SMT) från och till tyska. För att kunna förbättra den automatiska översättningen av dessa konstruktioner (Multiword Expressions), maskinöversättningen måste vara medveten om deras existens och förekomster. Projektet fokusserade mest på det här identifikationssteget som i sig själv är mycket komplex och tidskrävande.

Resultat och förväntade effekter

Projektet har med framgång dragit uppmärksamhet till problemen med flerordsutryck i statistisk maskinöversättningen i respektive forskningsområdet. En av vara studier visade till och med att även senaste neurale maskinöversättningar kan inte hantera flerordsutryck på ett optimalt sätt. Vi har betydligt bidragit till att skapa en stor och flerspråkig resurs med annoterade flerordsutryck för tyska och svenska vilken har gjorts tillgänglig för forskning och kommer att bli en av utgångspunkterna för forskning kring flerordsutryck i framtiden.

Upplägg och genomförande

Vi påbörjade projektet med ett nätverk bestående av tre universiteter som partner (Stuttgart, München, Uppsala) som har sedan utbyggds på Europeisk nivå genom att ko-organisera första uppläggen av en internationell tävling om automatisk MWE identifikation (som organiserades av den Europeiska PARSEME COST action). Medan de samarbeten täckte många olika flerordsfenomen har samarbeten med några tyska forskningsgrupper intensifieras sedan för att fokussera på tyskas lingvistiska egenheter och skapa en mer detaljerad annotationsschema för tyska flerordsuttryck.

Texten på denna sida har projektgruppen själv formulerat och innehållet är ej granskat av våra redaktörer.