GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

Prinsipp for lemmatisering av samiske språk

Lemma som ikkje skal inn i stavekontrollen - Err/Lex

Bakgrunnen for dette er ord i leksikon som ikkje er skal inn i stavekontrollen, men som likevel skal bli generert. Døme på slike ord er på sørsamisk cubanske, juni, og det kan være behov for det i nordsamisk også.

Desse blir merka med +Err/Lex i leksikon. Dei kjem med i genereringsfilene, men ikkje i den normative fila.

Leksikalsk homonymi: identifisere riktig lemma

Lemmaene er homonyme, men det er samantisk forskjell og forskjellige bøyningsparadigmer. I nordsamisk skiller vi de fleste med G3- og NomAg-tagger, fordi det er systematikk for store grupper av lemmaer.

Nom Gen norsk norm-fst-analyse
lohkki lohki lokk lohkki+N+Sg+Nom
lohkki lohkki lesar lohkki+N+NomAg+Sg+Nom
beassi beasi reir beassi+N+Sg+Nom
beassi beassi never beassi+G3+N+Sg+Nom

Når det er snakk om enkelttilfeller, gir vi disse arbitrære taggar +Hom1, +Hom2, … (nummerert oppover ad lib). Taggane blir lagt inn i leksikon før POS, men burde flyttast til etter POS i kompileringa.

Varianter under samme lemma: sortere bøyningsformer til riktig grunnform - v1, v2 osv

Ortografiske varianter av samme lemma, dvs. grunnform og ihvertfall deler av bøyingsparadigmet, bør i fst sorteres under samme lemma. Men vi legger til en tag for å kunne sortere bøyningsparadigmene til riktig grunnform.

Vi brukar taggane +v1, +v2, … (nummerert oppover ad lib) for å skilje mellom dei ulike paradigmene.

Hvis grunnformen er den samme, men det er to mulige bøyningsparadigmer, bruker vi ikke denne merkinga.