Ujarlerit

Maskinoversættelse fra grønlandsk til dansk og omvendt

Projektet om oversættelse fra grønlandsk til dansk og omvendt fik midler i begyndelsen af 2017 fra Selvstyret og blev startet op som et femårigt projekt.

Maskinoversætteren er baseret på regler (altså ikke på statistik). Dette betyder, at de enkelte ord og sætninger først skal gennemanalyseres og derigennem bliver det muligt ved grammatiske tags (grammatikoplysninger ved ordene) at få bygget bro mellem grønlandsk og dansk, selv der er tale om to vidt forskellige sprog.

Maskinoversætteren forudsætter regler

Der er forskellige årsager til at oversættelsesmaskinen nødvendigvis må baseres på regler – og det drejer sig blandt andet om følgende:

For det første: Oversættelsesmaskiner som Google Translate baserer sig på store tekstmængder, og når på baggrund af dem frem til oversættelse som hviler på sandsynlighedsstatistik. Det drejer sig om meget store matematiske og IT baserede projekter. Og hvis man så tænker på Grønland så er der meget få matematikere og IT-eksperter, og derudover er der meget få grønlandske lingvister, og endelig er grønlandsk et sprog med et kæmpestort antal tilhæng (affikser). Alt dette betyder, at et givet ord kan vi ændre i en uendelighed gennem tilhængene, og derfor er den statiske sandsynlighed for gentagelse af et givet ord på grønlandsk uendelig lille i forhold sandsynligheden i andre sprog som fx dansk og engelsk, og derfor passer grønlandsk ikke til de metoder Google Translate anvender.

For det andet: Vi har ikke store tekstmangler på grønlandsk som er lige til at anvende elektronisk og det vil kræve både tid og penge at lave en sådan indsamling af tekster. Og for det tredje: Vi har kun begrænset tid og penge til oversættelse.

Hvis oversættelse klares regelbaseret, så kan den bruges uanset hvor mange tilhæng der er tale om og den kan opstartes uanset hvor begrænsede tekstmængder man har i systemet, og fordelen er, at den hele tiden kan gøres gradvist bedre ved tid og penge. Svagheden er, at selve opstartsfasen er kostbar og tidskrævende og forudsætter et højt lingvistisk vidensniveau.

Målet for hvad der skal kunne oversættes

Målet for maskinoversættelse er fra starten af at den vil gengive mødeindkaldelser, referater og nyheder. Selvfølgelig bliver oversættelserne ikke uden fejl, men trods det vil det kunne forstås hvad det drejer sig om. Maskinoversættelsens styrke er dens regelbaserethed, idet den nemlig bliver forbedret vedvarende for hver gang fejl i tidens løb bliver rettet.

Oversættelsesmaskinen skal være open source, dvs gratis tilgængelig for alle på nettet

Maskinoversættelsen skal fortsat bearbejdes frem til slutningen af 2021 og med starten på 2022 skal den ligge på Oqaasileriffiks hjemmeside og være lige til at benytte gratis for alle.

Hvordan virker regelbaseret maskinoversættelse?

Ved oversættelse mellem grønlandsk og dansk er der seks forskellige del som skal gennemløbes.

Først: Hvert eneste ord skal være gennemanalyseret hvis de skal kunne oversættes. De skal hver for sig tagges (dvs mærkes) med hvad der er morfologisk (dvs med hensyn til opbygning inde i ordet med tilhæng og endelser) og dernæst tagges (dvs mærkes) syntaktisk (dvs med hensyn til hvordan ordnene hænger sammen med hinanden i sætningerne).

Eksempel: Først skal de enkelte ord i en sætning tagges (dvs mærkes) for om de er navneord (substantiver), eller udsagnsord (verber), eller tillægsord (adjektiver) eller adverbier (biord) mv. og derudover skal ordenes stammer, tilhæng og endelser (fleksion) tagges for diverse grammatiske oplysninger. Yderligere skal hvert ords syntaktiske funktion (deres funktion set sammen med de øvrige ord i sætningen) angives – det sidste markeres med @ – idet det markeres om ordet er grundled (dvs subjekt), genstandsled (dvs objekt) – og udsagnsord om de står i overordnet modus (måde) eller underordnet modus

Nivi er tolk

“Nivi” <fem> <*> <lex> <sentstart> PROP NOM @SUBJ> R:sd-TH:2 §TH %hum £hum #1->2
“være” <v:vk> <fn:be_copula> … V PR AKT @FS-STA #2->0
“tolk” <lex> N UTR S IDF NOM @<SC R:sd-ATR:2 §ATR £Hprof #3->2

Nivi er subjekt og et navn (proprium). er (”være”) hovedverballed i præsens (nutid). tolk er omsagnsled til grundled (subjektsprædikativ).

Næste skridt er at tilføje, hvad der ikke kan ses i de enkelte ord hver for sig, men som er nødvendige oplysninger for oversættelsesprocessen. Eksempelvis kan følgende tilføjes: Sætningens subjekt (grundled) kan tilføjes oplysninger om hvorvidt det er menneskeligt, biologisk, en genstand el. lign.o

“Nivi” <hum> <fem> <*> <lex> <sentstart> <Hpers> <H> PROP S NOM R:sd-TH:2 §TH @SUBJ>
“være” <v:vk> <fn:be_copula> .. <nofut> V PR 3S AKT @FS-STA
“tolk” <Hprof> <lex> <Hpers> <H> <idf> …

<H>: (= human) Nivi Næste skridt er at tilføje, hvad der ikke kan ses i de enkelte ord hver for sig, men som er nødvendige oplysninger for oversættelsesprocessen. Fx  er det kun mennesker der arpappoqnår de løber. Dyr pangalippoq.
3S: Det danske ‘er‘ kan bruges om et hvilket som helst subjekt (jeg er, du er, han er etc.). Men på grønlandsk markeres (meddeles) subjektets person og tal i verbets endelse (fleksion).  3S betyder at endelsen voq skal føjes til verbet. skal føjes til verbet. Derimod Nivikkut (Nivi og co) er 3P, og derfor skal endelsen put føjes til verbet.

<idf>: På dansk er ordet tolk ubestemt. På grønlandsk markeres (meddeles) bestemthed ikke i substantivet selv, men fremgår af den samlede sætning.

Tredje punkt i taggingen (afmærkningen for nødvendige oplysninger) bliver en foreløbig råoversættelse med de tilhørende tags. Hvert ord bliver råoversat til det ord der passer som oversættelse og bibeholder stadig de nødvendige grammatiske tags. Fx får grønlandske ord en dansk oversættelse og de danske ord får overført og delvist tilpasset de grammatiske oplysninger som de danske ord havde (Unv er tilhænget U)

1 ‘Nivi’ “Nivi” … #1->2 [DAN-Nivi] … DAN-Nivi+Prop+Abs+Sg
2 ‘er’ “være” … #2->0 [Unv] … Unv
3 ‘tolk’ “tolk” … #3->2 [oqalutsi] … oqalutsi+N+Abs+Sg

Fjerde punkt i processen er det syntaktiske, idet hvert af de råoversatte ord tagges for syntaktisk funktion (dvs for hvilken funktion ordet har i sætningen) og for ledstilling (dvs hvordan ordene skal stå i forhold til hinanden)

“Nivi” <GLB:DAN-Nivi> <GL:DAN-Nivi+Prop+Abs+Sg> … @SUBJ> #1->3
“tolk” <GLB:oqalutsi> <GL:oqalutsi+N+Abs+Sg>… @<SC #2->3
“være” <GLB:Unv> <GL:Unv> <der> … @FS-STA #3->0

Femte trin er selve orddannelsen. Det er her delene sættes sammen til færdige ord og færdige sætninger herunder at sætningsdelene bringes i en korrekt rækkefølge.

[Nivi] <GLB:DAN-Nivi><GL:Nivi> … @SUBJ> #1->3
–fullform=oqalutsi+U+V+Ind+3Sg
[tolk] <GLB:oqalutsi><GL:oqaluttaavoq> … @<SC #2->3
[være] <GLB:Unv> <GL:nil> … @FS-STA #3->0

Sidste trin er det endelige resultat som det ses herunder

Nivi er tolk = Nivi oqaluttaavoq