GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started, and our Privacy document.
For samiske språk blir samansetjingar avgrensa i to dimensjonar: etter mogleg posisjon, og etter moglege samansetjingskasus. I lexc-filene er avgrensingane merka med taggar, og dette dokumentet skildrar korleis vi kan gå frå slike taggar (som ikkje i seg gjer noko som helst) til ei fungerande avgrensing, ved å konvertera taggane til flagdiakritika i lag med andre flaggdiakritika.
frå R
Flaggdiakritika: ord+@U.CmpFirst.TRUE@ + @P.CmpFirst.FALSE@ (R)
Flaggdiakritika: ord+@P.CmpLast.TRUE@ + @D.CmpLast.TRUE@ (R)
Flaggdiakritika: @P.CmpNone.FALSE@ (R) + ord+@D.CmpNone.FALSE@
= middle, dvs kan berre stå som del av samansetjing inne i samansetjinga, dvs ikkje fyrst og ikkje sist. Men kan stå åleine.
Flaggdiakritika:
@U.CmpOnly.FALSE@ (root) + ord+@U.CmpOnly.TRUE@ +
@D.CmpOnly.TRUE@ (ENDLEX) + @C.CmpOnly@ (R)
Som compfirst(?).
Kva gjer vi med ord som har fleire verdiar? T.d. First + Last? Vi gjer ingen ting, kvar tagg blir konvertert til tilsvarande flaggdiakritika, og det er alt.
NB! Dette må testast, slik at vi veit at det faktisk funkar!
For å sjekka at avgrensingane funkar, prøv desse orda:
Ord som er tagga i leksikonet berre for dette formålet (skal eigentleg vera utan CmpN-taggar, taggane må fjernast etter at testinga er over):
Ord som har passande taggar frå før:
Seinare.