Rahvusvahelisel masintõlke võistlusel kasutati esimest korda eesti keelt

Tänu Tartu Ülikooli teadlaste pingutustele kasutati masintõlkesüsteemide rahvusvahelisel võistlusel esimest korda eesti keelt. Kõige paremini tõlkisid eesti ja inglise keelt omavahel keeletehnoloogia ettevõtte Tilde ja Jaapanis loodud tõlkemootorid.

Möödunud nädalal Brüsselis toimunud rahvusvahelisel masintõlkekonverentsil WMT, mille osana tõlkemootorite võistlus toimub, pandi peale eesti keele inglise keelega paari veel saksa, hiina, tšehhi, türgi, vene ja soome keel.

TÜ arvutiteaduse instituudi keeletehnoloogia õppetooli juhataja Mark Fišeli hinnangul on eesti keel masintõlke jaoks keerukas. „Eesti keele teeb raskeks rikas morfoloogia ehk suur arv käändeid ja pöördeid. Samuti on tõlkemootorite jaoks raske eesti keeles vabalt varieeruv sõnade järjekord,“ rääkis Fišel. Ta lisas, et hoolimata eesti keele keerukusest on tänapäevane masintõlge üllatavalt hea kvaliteediga ja suudab luua soravat teksti.

Konverentsil ja võistlusel osalejad said jaanuaris iga keelepaari kohta mitu miljonit tõlkenäidet, et masinõppe abil oma tõlkesüsteeme õpetada. Mai alguses anti kõigile osalejatele iga keelepaari kohta tõlkimiseks kaks teksti. Nii said nad eesti-inglise-eesti tõlkemootori testimiseks ühe ingliskeelse teksti ja ühe eestikeelse teksti.

Seejärel hindasid teadlased ja tudengid Tartu Ülikooli korraldatud talgutel, kui hästi on automaatsüsteemid ingliskeelsed tekstid eesti keelde tõlkinud. Leiti nii häid, omajagu häid kui ka naljakaid lauseid, mida saab lähemalt lugeda ERR Novaatorist.

Nii eesti-inglise kui ka inglise-eesti suunal hinnati kõige usaldusväärsemaks Balti ja Skandinaavia riikides tegutsev keeletehnoloogia ettevõtte Tilde tõlkesüsteem. Mõlemal tõlkesuunal tuli teisele kohale Jaapanis loodud süsteem NICT.

„Lätlaste ja jaapanlaste kasuks rääkis see, et nad saavad kasutada suuri teadusarvutuste keskuseid. Samuti on neil väga targad ideed ja kõige uuemad meetodid, mis teevad nende eesti-inglise-eesti tõlke muu hulgas paremaks Google Translate’ist,“ kiitis Mark Fišel parimaid masintõlkijaid.

„Õnneks on kõik süsteemid kirjeldatud avalikult jagatud teadusartiklites ning nende abil parandame ka Tartu Ülikoolis loodud tõlkemootorit,“ lisas Fišel.

Lisateave: Mark Fišel, TÜ arvutiteaduse instituudi keeletehnoloogia õppetooli juhataja, 737 5430, mark.fisel@ut.ee