GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Bakgrunnen for dette er ord i leksikon som ikkje er skal inn i stavekontrollen, men som likevel skal bli generert. Døme på slike ord er på sørsamisk cubanske, juni, og det kan være behov for det i nordsamisk også.
Desse blir merka med +Err/Lex i leksikon. Dei kjem med i genereringsfilene, men ikkje i den normative fila.
Lemmaene er homonyme, men det er samantisk forskjell og forskjellige bøyningsparadigmer. I nordsamisk skiller vi de fleste med G3- og NomAg-tagger, fordi det er systematikk for store grupper av lemmaer.
Nom | Gen | norsk | norm-fst-analyse |
---|---|---|---|
lohkki | lohki | lokk | lohkki+N+Sg+Nom |
lohkki | lohkki | lesar | lohkki+N+NomAg+Sg+Nom |
beassi | beasi | reir | beassi+N+Sg+Nom |
beassi | beassi | never | beassi+G3+N+Sg+Nom |
Når det er snakk om enkelttilfeller, gir vi disse arbitrære taggar +Hom1, +Hom2, …
(nummerert oppover ad lib).
Taggane blir lagt inn i leksikon før POS, men burde flyttast til etter POS
i kompileringa.
Ortografiske varianter av samme lemma, dvs. grunnform og ihvertfall deler av bøyingsparadigmet, bør i fst sorteres under samme lemma. Men vi legger til en tag for å kunne sortere bøyningsparadigmene til riktig grunnform.
Vi brukar taggane +v1, +v2, …
(nummerert oppover ad lib) for å skilje mellom
dei ulike paradigmene.
Hvis grunnformen er den samme, men det er to mulige bøyningsparadigmer, bruker vi ikke denne merkinga.