GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
Bakgrunnen for dette er ord i leksikon som ikkje er skal inn i stavekontrollen, men som likevel skal bli generert. Døme på slike ord er på sørsamisk cubanske, juni, og det kan være behov for det i nordsamisk også.
Desse blir merka med +Err/Lex i leksikon. Dei kjem med i genereringsfilene, men ikkje i den normative fila.
Lemmaene er homonyme, men det er samantisk forskjell og forskjellige bøyningsparadigmer. I nordsamisk skiller vi de fleste med G3- og NomAg-tagger, fordi det er systematikk for store grupper av lemmaer.
Nom | Gen | norsk | norm-fst-analyse |
---|---|---|---|
lohkki | lohki | lokk | lohkki+N+Sg+Nom |
lohkki | lohkki | lesar | lohkki+N+NomAg+Sg+Nom |
beassi | beasi | reir | beassi+N+Sg+Nom |
beassi | beassi | never | beassi+G3+N+Sg+Nom |
Når det er snakk om enkelttilfeller, gir vi disse arbitrære taggar +Hom1, +Hom2, …
(nummerert oppover ad lib).
Taggane blir lagt inn i leksikon før POS, men burde flyttast til etter POS
i kompileringa.
Ortografiske varianter av samme lemma, dvs. grunnform og ihvertfall deler av bøyingsparadigmet, bør i fst sorteres under samme lemma. Men vi legger til en tag for å kunne sortere bøyningsparadigmene til riktig grunnform.
Vi brukar taggane +v1, +v2, …
(nummerert oppover ad lib) for å skilje mellom
dei ulike paradigmene.
Hvis grunnformen er den samme, men det er to mulige bøyningsparadigmer, bruker vi ikke denne merkinga.