Kalaallisut language model documentation

All doc-comment documentation in one large file.

src-cg3-dependency.cg3.md

West Greenlandic Dependency Parser

This (part of) documentation was generated from src/cg3/dependency.cg3

src-cg3-disambiguator.cg3.md

W E S T G R E E N L A N D I C D I S A M B I G U A T O R

Delimiters, tags and sets

N =
V =
N* = Præprocessorens tagging af N, der indgår i compounds
iV = Præprocessorens tagging af V, som skifter ordklasse senere i ordet.
iN = Præprocessorens tagging af N, som skifter ordklasse senere i ordet.
iProp = Præprocessorens tagging af Prop, som skifter ordklasse senere i ordet.
iPron = Præprocessorens tagging af Pron, som skifter ordklasse senere i ordet.
Gram/2sml = ?
Gram/ImpPos = eksperimentell
Gram/Int = i brug?
Gram/Indef = i brug?
Gram/Cong =
Gram/Hyb = hybridverbum, resultat av Der/nv efter substantivflektion (men er Aeq Sg syntaktisk relevant?, tt)
Gram/Pers
Gram/PersQAR = Tag til QAR i paratakse med personligt V
Gram/Coref
Gram/Dem
Gram/TransverbNIQ = PL20210417 kun til NIQ, der kan tage direkte objekt
Gram/ContSubjekt = “dansk” subjekt tilføjet med ADDCOHORT
Gram/Upersonlig = Tag indsat i dep til konstruktioner, der oversættes med “man”
Gram/Abbr
Gram/ACR
Gram/Adj # Adjektiver optaget ubøjet og undertiden anvendt med dansk syntaks
Gram/Adv-encl
Gram/Comp = 20100228 Ny tag udelukkende til neq ajor/saper/artor/nalu (PL)
Gram/Conj-encl = sideordnende enklitiske konjunktioner
Gram/Db
Gram/Exclm
Gram/Gaanni
Gram/HV
Gram/IV
Gram/TV
Gram/Ord
Gram/ImpNeg
Heur/ACR
Heur/Abbr
Heur/Mailadresse
Heur/N
Heur/Num
Heur/Prop
Heur/Quote
Heur/Twittername
Heur/Url
Sem/CognitiveMaking = qinersivoq i modsætning til qinerlerpoq
Sem/Concessive = koncessive sætninger
Sem/enter
Sem/event
Sem/Fem = Introduceret som test 20180613. Skal måske ud igen
Sem/FirstName
Sem/Hunt = qinerlerpoq i modsætning til qinersivoq
Orth/Alt
Orth/Arch
Orth/Copy = Alternative append rules
Orth/Append = Alternative append rules
Orth/Youth youth language
1SgPoss =
2SgPoss =
3SgPoss =
4SgPoss =
1PlPoss =
2PlPoss =
3PlPoss =
4PlPoss =
i1SgPoss =
i2SgPoss =
i3SgPoss =
i4SgPoss =
i1PlPoss =
i2PlPoss =
i3PlPoss =
i4PlPoss =
1SgO =
2SgO =
3SgO =
4SgO =
1PlO =
2PlO =
3PlO =
4PlO =
A* =
A =
ALLAP =
ARAQ =
ARSUK =
GASAAR =
IAR =
INNAQ =
INNAR =

Tags and sets

Positions and household

The following tags: BOS, EOS, CLB, Symbol, iSymbol, PUNCT, LEFT, RIGHT, COMMONAFFSTRING, EXCLMARK

Parts of speech with tags declared as single-membered LISTs

Grammar tags

Gram/… and different specifications

LIST DivPron = Gram/Cong DivPron ; = ?
LIST Gram/Ord = Gram/Ord Der/Ord ; = Ordinaltal #Hedder Der/Ord i den videre kæde.

Orthographic error tags

LIST Orth/Append = Orth/Append ; = readings added by CG (APPEND)
LIST SUB = Orth/Arch Orth/Alt Orth/Youth ; common tag for all

Heur Prop case tags

Heur der tags for iCase to block Abs Pl Heur/Prop analysis

Heur Verb tags to block Abs Sg Heur/Prop analysis

Heur GL final

Heur FOREIGN final prop

Heur FOREIGN initial prop

Heur scan err

Heur Excl tags to block Abs Sg Heur/Prop analysis

Grammatical tags

Sg, Du, Pl, iSg, iDu, iPl, ALL_Sg, ALL_Pl, case forms, verbal inflection

#Diverse tags defineret i kal-pre2 (dog et par hybrider her i disambiguator)

Derivatives

LIST IP = IP (“IP”) ; =
LIST Tilhængspartikel = LU LI LUUNNIIT ADV-LU CONJ-LU ADV-LI CONJ-LI ADV-LUUNNIIT CONJ-LUUNNIIT ; = Sæt af tilhængspartiler
LIST Dobbelttransitiv = NIRAR QQU SURE TIP ; =
LIST WFORM = “<.*>”r ; = regulært udtryk
LIST BFORM = “.*“r ; = regulært udtryk

Sets

Alle ordklasser

LIST WORD = N V Pali Conj Adv Interj Gram/Exclm Pron Prop Num ;
SET POS = WORD - ( <f:[0-9]+>r) ;
SET NOT-PROP = WORD - Prop ;
SET NOT-Abbr = WORD - Gram/Abbr ;
SET NUM = Num iNum ;
LIST NUMERAL = “ataaseq” “marluk” “pingasut” “sisamat” “tallimat” “arfineq” “arfineq marluk” “arfineq pingasut” “qulingiluat” “qulaaluat” “qulit” “aqqaneq” “fireogfyrre”;
LIST KLOKKESLET = (“ataaseq” NNGUR) (“marluk” NNGUR) (“pingasut” NNGUR) (“sisamat” NNGUR) (“tallimat” NNGUR) (“arfineq” NNGUR) (“arfineq-marluk” NNGUR) (“arfineq-pingasut” NNGUR) (“qulingiluat” NNGUR) (“qulaaluat” NNGUR) (“qulit” NNGUR) (“aqqaneq” NNGUR);
SET AFFINGERET = ALLAP , ARAQ , ARSUK , IAR , INNAQ , INNAR

Verb

Ulike verbtyper.

TRANSVERB = 1SgO, 2SgO, 3SgO, 4SgO, 1PlO, 2PlO, 3PlO, 4PlO

SET INTRANSVERB = V - TRANSVERB ; =
VFIN = Ind, Opt, Int; Imp

**SET DOTR = Gram/Db

(/Gram/TV QQU/l)

(/Gram/TV TIP/l)

(/Gram/TV SAR/l)

(“ussersuup”)

(/Gram/TV UTE Gram/vv/l) ;** =

LIST 3SGSUBJVERB = (V 3Sg) ; =
LIST 3PLSUBJVERB = (V 3Pl) ; =
34SGOBJVERB = 3SgO, 4SgO
34PLOBJVERB = 3PlO, 4PlO
SET VERBNOT3SGSUBJ = V - 3SGSUBJVERB ; =
SET VERBNOT3PLSUBJ = V - 3PLSUBJVERB ; =
SET COREF = (V 4Sg) OR (V 4Pl) ; =
SET 12SUBJVERB = (V 1Sg) OR (V 1Du) OR (V 1Pl) OR (V 2Sg) OR (V 2Du) OR (V 2Pl) ; =
SET PLURSUBJVERB = (V 1Pl) OR (V 2Pl) OR (V 3Pl) OR (V 4Pl) ; =
SET PLUROBJVERB = (V 1PlO) OR (V 2PlO) OR (V 3PlO) OR (V 4PlO) ; =
SET V-NOT-Par = V - Par ; =
SET VERB-NOTCONT = V - Cont - ContNeg; =
SET CONT = Cont OR ContNeg; =
SET CONT_INTRANS = CONT - TRANSVERB ; = Til brug i BARRIER
SET CON_CAU = Con OR Cau ; =
LIST NO_HTR = “allap” ; = 20091108 - Verber, der ikke kan kombinere med HTR
SET SchwaDerivativ = GE OR TARE OR QE OR SURE ; =
SET PERSON = 1Sg OR 2Sg OR 3Sg OR 4Sg OR 1Pl OR 2Pl OR 3Pl OR 4Pl ; =
SET PROP = Prop OR iProp ; =

*SET GAANNI = (/”<.[g

r]aanni.>”/r) + Par + 3Sg + 3SgO OR (/”<.[g

r]aanni.>”/r) + Par + 3Sg + 3PlO OR (/”<.[g

r]aanni.>”/r) + Par + 4Sg OR (/”<.[g

r]aanni.*>”/r) + Par + 3Sg ;** =#20180805: intransitiv GAANNI bliver 3Sg og ikke 4Sg som hidtil.

SET MOOD = VFIN OR CONT OR Cau OR IteCau OR Con OR Par ; =
SET PILLUGU = (“pi” Cont) - AFFINGERET OR (“pi” ContNeg) - AFFINGERET; =
SET PISSUTIGALUGU = (“pissut” GE Cont) OR (“pissut” GE ContNeg) ; =
SET PEQQUTIGALUGU = (“peqqut” GE Cont) OR (“peqqut” GE ContNeg) ; =
SET AQQUSAARLUGU = (“aqqusaar” Cont) OR (“aqqusaar” ContNeg) ; =
SET ATORLUGU = (“ator” Cont) - AFFINGERET OR (“ator” ContNeg) - AFFINGERET ; =
SET ILAGALUGU = (“ila” GE Cont) OR (“ila” GE ContNeg) ; =
SET KILLEQQULLUGU = (“killeqqup” Cont) - AFFINGERET OR (“killeqqup” ContNeg) - AFFINGERET ; =
SET MALILLUGU = (“malip” Cont) - AFFINGERET OR (“malip” ContNeg) - AFFINGERET ; =
SET NAAPERTORLUGU = (“naapertor” Cont) - AFFINGERET OR (“naapertor” ContNeg) - AFFINGERET ; =
SET SINNERLUGU = (“sinner” Cont) - AFFINGERET ; =
SET TAMAKKERLUGU = (“tamakker” Cont) - AFFINGERET OR (“tamakker” ContNeg) - AFFINGERET ; =
SET TIKILLUGU = (“tikip” Cont) - AFFINGERET OR (“tikip” ContNeg) - AFFINGERET ; =
SET TUNNGAVIGALUGU = (“tunnga” VIK GE Cont) OR (“tunnga” VIK GE ContNeg) ; =
SET OBJVERB = PEQQUTIGALUGU OR PILLUGU OR PISSUTIGALUGU OR AQQUSAARLUGU OR ATORLUGU OR ILAGALUGU OR MALILLUGU OR NAAPERTORLUGU OR SINNERLUGU OR TAMAKKERLUGU OR TIKILLUGU OR TUNNGAVIGALUGU ; =
LIST NONOBJVERB = (“agguar” QATE GIIP TIP Cont) ; =

Nominer

Set for kasus, possessum, appellativ, ulike nomentyper

SET KASUS = Abs OR Rel OR Trm OR Abl OR Lok OR Aeq OR Ins OR Via ; =
SET NOT-REL = KASUS - Rel ; =
SET OBLIQUE = Trm OR Abl OR Lok OR Aeq OR Ins OR Via OR (“.*[mn]iit”r Adv) ; =
SET iOBLIQUE = iTrm OR iAbl OR iLok OR iAeq OR iIns OR iVia OR Trm + Hyb/1-2 OR Abl + Hyb/1-2 OR Lok + Hyb/1-2 OR Aeq + Hyb/1-2 OR Ins + Hyb/1-2 OR Via + Hyb/1-2 ; =
SET NUMERUS = Sg OR Pl ; =
SET KONGRUENSADLED = N + \(KASUS +\)NUMERUS ; =
SET ALL_OBLIQUE = OBLIQUE OR iOBLIQUE ; =
SET 3PlPossUdenMWE = 3PlPoss - (“Kalaallit Nunaat”) - (“Kalaallit Illuutaat”) - (“Kalaallit Røde Korsiat”) - (“naqqup-ate”) - (“nunap inoqqaavi”) - (“Nunatsinni Inuit Innarluutillit Kattuffiat”) - (“sapaatip-akunneq”) - (“Tuluit Nunaat”) - (“Zombiet Nunaat”); =
SET POSSESSUM1 = (N 1SgPoss) OR (iN i1SgPoss) OR (N 1PlPoss) OR (iN i1PlPoss) OR (Num 1SgPoss) OR (Num 1PlPoss) OR (Prop 1SgPoss) OR (Prop 1PlPoss) OR (iProp i1SgPoss) OR (iProp i1PlPoss) OR (DivPron 1PlPoss) ; =
SET POSSESSUM2 = (N 2SgPoss) OR (iN i2SgPoss) OR (N 2PlPoss) OR (iN i2PlPoss) ; =
SET POSSESSUM3 = (N 3SgPoss) OR (N 3PlPoss) OR (iN i3SgPoss) OR (iN i3PlPoss) OR (Num 3SgPoss) OR (Num 3PlPoss) OR (Prop 3SgPoss) OR (Prop 3PlPoss) OR (iProp i3SgPoss) OR (iProp i3PlPoss) OR (DivPron 3PlPoss) ; =
SET POSSESSUM4 = (N 4SgPoss) OR (N 4PlPoss) OR (iN i4SgPoss) OR (iN i4PlPoss) ; =

**SET POSSESSUM12 = (N 1SgPoss) OR (N 2SgPoss) OR (iN i1SgPoss) OR (iN i2SgPoss)

(N 1PlPoss) OR (N 2PlPoss) OR (iN i1PlPoss) OR (iN i2PlPoss) ;** =

SET POSSESSUM = POSSESSUM12 OR POSSESSUM3 OR POSSESSUM4 ; =
SET POSSESSUM3UdenMWE = POSSESSUM3 - (“Kalaallit Nunaat”) - (“Kalaallit Illuutaat”) - (“Kalaallit Røde Korsiat”) - (“naqqup-ate”) - (“Nunatsinni Inuit Innarluutillit Kattuffiat”) - (“Tuluit Nunaat”); =
SET POSSESSUM3UdenNumPossessum = POSSESSUM3 - %NumPossessum - (“misse”) - (“missaq”) ; =
SET NOT-POSSESSUM = N - POSSESSUM ; =
SET iPOSSESSUM1 = (iN i1SgPoss) OR (iN i1PlPoss) OR (1SgPoss Hyb/1-2) OR (1PlPoss Hyb/1-2) ; =
SET iPOSSESSUM2 = (iN i2SgPoss) OR (iN i2PlPoss) OR (2SgPoss Hyb/1-2) OR (2PlPoss Hyb/1-2); =
SET iPOSSESSUM3 = (iN i3SgPoss) OR (iN i3PlPoss) OR (iNum i3SgPoss) OR (iNum i3PlPoss) OR (iProp i3SgPoss) OR (iProp i3PlPoss) OR (3SgPoss Hyb/1-2) OR (3PlPoss Hyb/1-2); =
SET iPOSSESSUM4 = (iN i4SgPoss) OR (iN i4PlPoss) OR (4SgPoss Hyb/1-2) OR (4PlPoss Hyb/1-2); =
SET iPOSSESSUM12 = (iN i1SgPoss) OR (iN i2SgPoss) OR (iN i1PlPoss) OR (iN i2PlPoss) OR (Hyb/1-2 1SgPoss) OR (Hyb/1-2 2SgPoss) OR (Hyb/1-2 1PlPoss) OR (Hyb/1-2 2PlPoss) ; =
SET iPOSSESSUM = iPOSSESSUM12 OR iPOSSESSUM3 OR iPOSSESSUM4 ; =
SET APPELLATIV = N - Prop ; =
SET PRON = Gram/Dem + Pron OR Gram/Int + Pron OR Gram/Indef + Pron OR DivPron OR Gram/Pers + Pron OR Gram/Coref + Pron OR Adj ; =
SET PRON-REFL = Gram/Dem + Pron OR Gram/Int + Pron OR Gram/Indef + Pron OR DivPron OR Gram/Pers + Pron OR Adj ; = Gram/Coref + Pron har sine egne regler
LIST LIK_QAR = LIK QAR (“peqar”); =
SET NOMEN = N OR iN ; =
LIST ADVERBIAL_DERIVATIVES = (/VALLAAQ Der/vn N/l) ; =
LIST VERBALNOMEN = NIQ (/TUQ Der/vn N/l) SSUSIQ ; =

Kombinationer af verber og nominer

LIST IV1Sg = (Abs 1Sg) (V 1Sg) ; =
LIST IV2Sg = (Abs 2Sg) (V 2Sg) ; =
LIST IV3Sg = (Abs Sg) (V 3Sg) ; =
LIST IV4Sg = (Abs Sg) (V 4Sg) ; =
LIST IV1Pl = (Abs 1Pl) (V 1Pl) ; =
LIST IV2Pl = (Abs 2Pl) (V 2Pl) ; =
LIST IV3Pl = (Abs Pl) (V 3Pl) ; =
LIST IV4Pl = (Abs Pl) (V 4Pl) ; =
SET IV_SUBJ& = IV1Sg OR IV2Sg OR IV3Sg OR IV4Sg OR IV1Pl OR IV2Pl OR IV3Pl OR IV4Pl; =
SET IV_SG_SUBJ& = IV1Sg OR IV2Sg OR IV3Sg OR IV4Sg ;
SET IV_PL_SUBJ& = IV1Pl OR IV2Pl OR IV3Pl OR IV4Pl;
LIST POSS34Sg_POSSSg = (Rel Sg) (3SgPoss Sg) ;
LIST POSS34Sg_POSSPl = (Rel Sg) (3SgPoss Pl) ;
LIST POSS34Pl_POSSSg = (Rel Pl) (3PlPoss Sg) ;
LIST POSS34Pl_POSSPl = (Rel Pl) (3PlPoss Pl) ;
LIST NUM34POSSSg = (Rel Num) (3SgPoss) ;
LIST NUM34POSSPl = (Rel Num) (3PlPoss) ;
SET POSS34_POSS& = POSS34Sg_POSSSg OR POSS34Sg_POSSPl OR POSS34Pl_POSSSg OR POSS34Pl_POSSPl OR NUM34POSSSg OR NUM34POSSPl;

Objekts-set introduceret 20170416 - virkede ikke

LIST SgObjekt = (Abs Sg) 3SgO ;
LIST PlObjekt = (Abs Pl) 3PlO ;

Unification set til SUBJ med tilhørende TRANSVERB. Reformulering med objekter påbegyndt 20190519

LIST SUBJ1S2SO = (Rel 1Sg) (1Sg 2SgO);
LIST SUBJ1S3SO = (Rel 1Sg) (1Sg 3SgO);
LIST SUBJ1S4SO = (Rel 1Sg) (1Sg 4SgO);
LIST SUBJ1S2PO = (Rel 1Sg) (1Sg 2PlO);
LIST SUBJ1S3PO = (Rel 1Sg) (1Sg 3PlO);
LIST SUBJ1S4PO = (Rel 1Sg) (1Sg 4PlO);
LIST SUBJ2S1SO = (Rel 2Sg) (2Sg 1SgO);
LIST SUBJ2S3SO = (Rel 2Sg) (2Sg 3SgO);
LIST SUBJ2S4SO = (Rel 2Sg) (2Sg 4SgO);
LIST SUBJ2S1PO = (Rel 2Sg) (2Sg 1PlO);
LIST SUBJ2S3PO = (Rel 2Sg) (2Sg 3PlO);
LIST SUBJ2S4PO = (Rel 2Sg) (2Sg 4PlO);
LIST SUBJ3S1SO = (Rel Sg) (3Sg 1SgO) ;
LIST SUBJ3S2SO = (Rel Sg) (3Sg 2SgO) ;
LIST SUBJ3S3SO = (Rel Sg) (3Sg 3SgO) ;
LIST SUBJ3S4SO = (Rel Sg) (3Sg 4SgO) ;
LIST SUBJ3S1PO = (Rel Sg) (3Sg 1PlO) ;
LIST SUBJ3S2PO = (Rel Sg) (3Sg 2PlO) ;
LIST SUBJ3S3PO = (Rel Sg) (3Sg 3PlO) ;
LIST SUBJ3S4PO = (Rel Sg) (3Sg 4PlO) ;
LIST SUBJ4S1SO = (Rel Sg) (4Sg 1SgO) ;
LIST SUBJ4S2SO = (Rel Sg) (4Sg 2SgO) ;
LIST SUBJ4S3SO = (Rel Sg) (4Sg 3SgO) ;
LIST SUBJ4S1PO = (Rel Sg) (4Sg 1PlO) ;
LIST SUBJ4S2PO = (Rel Sg) (4Sg 2PlO) ;
LIST SUBJ4S3PO = (Rel Sg) (4Sg 3PlO) ;
LIST SUBJ1P2SO = (Rel 1Sg) (1Pl 2SgO);
LIST SUBJ1P3SO = (Rel 1Sg) (1Pl 3SgO);
LIST SUBJ1P4SO = (Rel 1Sg) (1Pl 4SgO);
LIST SUBJ1P2PO = (Rel 1Sg) (1Pl 2PlO);
LIST SUBJ1P3PO = (Rel 1Sg) (lPl 3PlO);
LIST SUBJ1P4PO = (Rel 1Sg) (1Pl 4PlO);
LIST SUBJ2P1SO = (Rel 2Pl) (2Sg 1SgO);
LIST SUBJ2P3SO = (Rel 2Pl) (2Sg 3SgO);
LIST SUBJ2P4SO = (Rel 2Pl) (2Sg 4SgO);
LIST SUBJ2P1PO = (Rel 2Pl) (2Sg 1PlO);
LIST SUBJ2P3PO = (Rel 2Pl) (2Sg 3PlO);
LIST SUBJ2P4PO = (Rel 2Pl) (2Sg 4PlO);
LIST SUBJ3P1SO = (Rel Pl) (3Pl 1SgO) ;
LIST SUBJ3P2SO = (Rel Pl) (3Pl 2SgO) ;
LIST SUBJ3P3SO = (Rel Pl) (3Pl 3SgO) ;
LIST SUBJ3P4SO = (Rel Pl) (3Pl 4SgO) ;
LIST SUBJ3P1PO = (Rel Pl) (3Pl 1PlO) ;
LIST SUBJ3P2PO = (Rel Pl) (3Pl 2PlO) ;
LIST SUBJ3P3PO = (Rel Pl) (3Pl 3PlO) ;
LIST SUBJ3P4PO = (Rel Pl) (3Pl 4PlO) ;
LIST SUBJ4P1SO = (Rel Pl) (4Pl 1SgO) ;
LIST SUBJ4P2SO = (Rel Pl) (4Pl 2SgO) ;
LIST SUBJ4P3SO = (Rel Pl) (4Pl 3SgO) ;
LIST SUBJ4P1PO = (Rel Pl) (4Pl 1PlO) ;
LIST SUBJ4P2PO = (Rel Pl) (4Pl 2PlO) ;
LIST SUBJ4P3PO = (Rel Pl) (4Pl 3PlO) ;

SUBJTRANSVERB er alle ovenfor

LIST KOMPARATIV = NIRU (/”qanip” Gram/IV NIQ/l) (/NIQ Der/vn RUJUK Der/nn SUAQ Der/nn U/l) (/”amerla” Gram/IV NIQ Der/vn N/l);
LIST NÆPPE_OBJ = (“nuanner” TUQ) (/”toqqa” Gram/IV INNAR/l TUQ) (“isertuanngitsoq” Ins) (“isertuar” Ins);
LIST NÆPPE_SUBJ = (“nalinginnaq”) ;
LIST NÆPPE_KOMPARATIV = (/”eqquup” Gram/IV TIP Der/vv Gram/TV HTR Der/vv Gram/IV NIQ/l) (/”unioqqup” Gram/IV TIP Der/vv Gram/TV HTR Der/vv Gram/IV NIQ/l); Leksikaliseringer som normalt analyseres som NIQ+U frem for NIRU
**SET IVTVSUBJ& = IV_SUBJ& SUBJTRANSVERB& ;**

Unification set til CONT og subjekter, kun for intransitive CONT.

LIST ContSg = (Sg Abs) 4Sg ;
LIST ContPl = (Pl Abs) 4Pl ;
SET Cont& = ContSg OR ContPl ;

Unification set til CONT og kongruente V ved intransitive V

!!! Partikler

!!! Numeralier

Lexical sets

LIST TASSA = “tassa” (“tass” Gram/Dem Interj);

Verbernes leksikalske klasser

Semantic tags

Gram/… and different specifications

LIST Sem/Hum = Sem/Hum ;

Regelsektion

BEFORE-SECTIONS

Disambiguere morfemkombinationer

Judithes afsnit start ### påbegyndt 20231006: sorter umulige morfemkombinationer fra

GASAAR
#GIP #GISSAAR #IAR #IRNIAR #IRSIR #IRUTE #KIP #KILLI #LIR #LIRSUR #LUP #NIP #QAR
#IRNIAR #SI
#LIAR

This (part of) documentation was generated from src/cg3/disambiguator.cg3

src-cg3-functions.cg3.md

W E S T G R E E N L A N D I C S Y N T A C T I C F U N C T I O N S

Delimiters (line 47)
Tags and sets
- Positions and household (line 53)
- Parteech (line 60)
- Derivatives (line 152)
- Tilhængspartikler (line 812)
- Syntactic and morphological sets
  - Generelt for alle ordklasser (linie 854)
  - Verber (linie 862):
  - Nominer (linie 885)
  - Partikler (linie 900)
- Lexical sets (907)
  - Verberne (linie 910)
  - Nominerne (linie 931)
- Tags (line 965)
RULES
- Mapping rules
  - Verber - De sikre MAP regler (1046)
  - Nominer - De sikre MAP regler (1054)
  - Nominer - ADD regler (1062)
  - Adjektiver - både ADD og MAP regler (line 1087)
  - Partikler (1120)
  - Numeralier
- Disambiguation rules (linie 1175)
  - Frequent and safe rules - all wordclasses (1435)
  - SELECT og REMOVE verber (
  - SELECT and REMOVE participles (1460)
  - SELECT og REMOVE nominer (
One-cohort disambiguation - cycle 0
Local disambiguation - cycles 1 - Global disambiguation - cycles 2
Syntactic disambiguation

Ny indholdsfortegnelse påbegyndt 20201015

Begyndende udkommentering af REMOVE og SELECT, der kun skal stå i disambiguator. Vil blive udkommenteret med ‘#DATO’ fx ‘#20210704’. Færdiggjort 20230726. Begyndende sletning hvor REMOVE og SELECT står med #

Regelsektion

Delimiter

This (part of) documentation was generated from src/cg3/functions.cg3

src-fst-morphology-affixes-derivations-inflections.lexc.md

Fil for at generere de centrale morfologiske processer i vor grønlandske analysator

LEXICON Num1morf nyt katalog tilføjet livm 20170505
LEXICON Num2morf
LEXICON Num3morf nyt katalog livm 20170505
LEXICON Num4morf nyt katalog livm 20170505
LEXICON Num6morf nyt katalog livm 20170505
LEXICON Num6likmorf nyt katalog livm 20170505
LEXICON Num10morf nyt katalog livm 20170505
LEXICON Numamorf nyt katalog livm 20170810
LEXICON Numumorf nyt katalog til hunnoruju som før fejlagtigt gik i pluralisformen til Numtmorf PL20200421
LEXICON Numimorf nyt katalog livm 20170810
LEXICON Numemorf nyt katalog livm 20170810: danske numeralier tre, fire, otte, ellee, tyve, tredive, fyrre, hundrede
LEXICON NumCmorf nyt katalog livm 20170917
LEXICON Numtmorf foorut
LEXICON IVschwa_stem angeqi
LEXICON IVschwa Derivativer der tilfoejes intransitive verber på schwa
LEXICON IVschwa2 Derivativer der tilfoejes intransitive verber på schwa
LEXICON IV_r_stem aallar, oqar
LEXICON IV_r
LEXICON IV_r_agentiv PL 20180726 type atuarpoq
LEXICON IV_r2
LEXICON IV_k_stem
LEXICON IV_k_agentiv PL 20210111 type allappoq
LEXICON IV_k
LEXICON IV_k2
LEXICON IV_long_stem orraajusaar, orseruloor, paamaar
LEXICON IV_long
LEXICON IV_long2
LEXICON IV_voq_stem overgenererer dette for meget? Og er k også mulig? Qasoq
LEXICON IV_voq
LEXICON IV_voq_agentiv PL 20180726 type takuvoq
LEXICON IV_voq2 skal få 200 medl.
LEXICON XIi_voqXmorf_stem som tallivoq
LEXICON XIi_voqXmorf
LEXICON XIi_voqX_agentiv PL20210225 type utaqqivoq - jf. XIi_voqXmorf_stem for non-agentive
LEXICON XIi_voqXmorf2
LEXICON XIiXmorf_stem type tarrarippoq
LEXICON XIiXmorf
LEXICON XIiXmorf2 skal få 200 medl.
LEXICON XIiXmorf_UdenTIP som XIiXmorf, men uden TIP for at blokere rekursive TIP
LEXICON XIirXmorf_stem type taseqqerpoq
LEXICON XIirXmorf til iR såsom er
LEXICON XIirXmorf2 til iR såsom er
LEXICON XItX type imaappoq, kaavippoq (NB ikke kâvigpo?, men kâvípo?)
LEXICON XItX2
LEXICON XIitX_stem type katerippoq og alt på TIP
LEXICON XIitX
LEXICON XIitX2
LEXICON XIuteXmorf skal få 200 medl. type angumeqquppoq
LEXICON XIuteXmorf2 skal få 200 medl.
LEXICON XIi_uteXmorf som oqallipput
LEXICON XIi_uteXmorf2 som oqallipput
LEXICON XItsXmorf_stem type ippajaappoq
LEXICON XItsXmorf
LEXICON XItsXmorf2

PL 20180718. Følgende er et særligt lexicon til ip i stedet for tidligere LEXICON IV_k_stem med default flex-iv, der producerede enorm overgenerering. Samtidig er transitiv ip flyttet fra TV til flex-tv, men der skal nok tilføjes enkelte transitive ip som upper-under efterhånden som de dokumenteres.

LEXICON TV Forudsættes tagget via HTR
LEXICON TV_UdenTIP Forudsættes tagget via HTR
LEXICON TV_vaa Forudsættes tagget via HTR
LEXICON XTuteXmorf type oqalungusiuppaa. Forudsættes tagget via HTR
LEXICON XTiuteXmorf type annippaa, pitsippaa Forudsættes tagget via HTR
LEXICON XTirXmorf til stammer med ir
LEXICON TVi_vaa tuni forudsættes Gram-tagget via HTR
LEXICON TVschwa Forudsættes Gram-tagget via HTR
LEXICON XTtX nakappaa nunguppaa anippaa Forudsætter Gram-tag fra HTR
LEXICON flex-iv
LEXICON flex-iv2
LEXICON flex-iv_r
LEXICON flex-iv_r2
LEXICON flex-iv_long
LEXICON flex-iv_long2
LEXICON flex-iv_voq
LEXICON pi_flex-iv_refl Et særligt lex til pivaa + Refl for at begrænse overgenerering. Udkommenteringer må fjernes efterhånden som formerne faktisk dokumenteres
LEXICON pi_flex-iv_voq et saerligt lexicon til dummy-pi, som ikke får derivationer
LEXICON pi_flex-iv_voq3 et saerligt lexicon til dummy-pi, som ikke får derivationer
LEXICON su_flex-iv_voq et saerligt lexicon til dummy-su, som ikke får derivationer
LEXICON su_flex-iv_voq3 et saerligt lexicon til dummy-su, som ikke får derivationer
LEXICON XIiX
LEXICON XIiX2
LEXICON XIiPX
LEXICON XIiPX2
LEXICON XIiPX2_inflections
LEXICON XIiX_fleksiver
LEXICON XIiX_fleksiver2
LEXICON XIiX_fleksiver3
LEXICON XIiPX_fleksiver
LEXICON XIiPX_fleksiver3
LEXICON XItsX
LEXICON XItsX2
LEXICON XItsX3
LEXICON gallar-iv
LEXICON gallar-iv2
LEXICON gallar_iv2_inflections
LEXICON flex-iv_ssa
LEXICON flex-iv_ssa2
LEXICON flex-iv_qina
LEXICON flex-iv_qina2 nyt liv 20170428. Kan ikke viderederiveres og kan danne sammentrukne former.
LEXICON flex-iv_nngit_stem
LEXICON flex-iv_nngit_k
LEXICON flex-iv_nngit
LEXICON flex-iv_nngit2
LEXICON flex-iv_schwa
LEXICON flex-iv_schwa2
LEXICON XIgujoqX
LEXICON XIgujoqX3
LEXICON XImioqX narratologisk stil som i nikutsinnguarsinnarmioq
LEXICON XImioqX2 narratologisk stil som i nikutsinnguarsinnarmioq
LEXICON flex-iv_ledsagemaade
LEXICON flex-iv_ledsagemaade2
LEXICON flex-tv
LEXICON flex-tv_ute !pga. titartaaTInnga
LEXICON flex-itv !!Ny gennemgang 20200106 til assibilerende refl. som ikioqqoreersut
LEXICON flex-tv2
LEXICON flex-tv_NIQAR=TUSSANNGUR PL20250121 LEX udelukkende til transitiv TUSSANNGUR efter passiv. Forekommer kun i Cont
LEXICON flex-tv2_ute
LEXICON flex-tv_NIQ_AJUR !PL20230706 kopi af flex-tv2 men uden derivativer
LEXICON flex-tv_fleksiver
LEXICON flex-tv_fleksiver2 NY 20100227. Til verber, der ikke maa viderederiveres (fx +NIR+Der/vv)
LEXICON flex-tvP_fleksiver
LEXICON flex-tvP_fleksiver2 NY 20170510. Til verber, der ikke maa viderederiveres (fx +NIR+Der/vv)
LEXICON flex-tv_it
LEXICON flex-tv_it2
LEXICON gallar-tv
LEXICON gallar-tv2
LEXICON gallar-tvP
LEXICON gallar-tvP2 tilføjet 20170526. Er det overflødigt?
LEXICON pi_flex-tv_vaa
LEXICON pi_flex-tv_vaa2 fleksiver helt uden derivativer specielt til pi-
LEXICON flex-tv_KunCont fleksiver helt uden derivativer specielt til TASSAA=GUNNAIR
LEXICON su_flex-tv_vaa
LEXICON su_flex-tv_vaa2 fleksiver helt uden derivativer specielt til pi-
LEXICON flex-tv_vaa
LEXICON flex-tv_vaa2
LEXICON flex-tv_ssa !pl20210729 nyt LEX for at tillade -ssua- isf. -ssava-
LEXICON flex-tv_ssa2
LEXICON flex-tvP_vaa
LEXICON flex-tvP_vaa2
LEXICON XTPX
LEXICON XTPX2
LEXICON XTuteX
LEXICON XTuteX2
LEXICON XTutePX
LEXICON XTutePX2
LEXICON flex-tv_nngit
LEXICON flex-tv_nngit2
LEXICON flex-tv_schwa
LEXICON flex-tv_schwa2
LEXICON XTPX_nngit
LEXICON XTPX_nngit2
LEXICON XTPX_schwa
LEXICON XTPX_schwa2

Et særligt leksikon til tilhæng som RIANNGUAR+Der/vv

LEXICON XTgujaaX
LEXICON XTgujaaX2
LEXICON LokVb
LEXICON LokAeq
LEXICON TrmVb
LEXICON AblVb
LEXICON InsVb
LEXICON AeqVb
LEXICON ViaVb
LEXICON PronViaVb
LEXICON Gram_Hyb_UR
LEXICON part
LEXICON timepart nyt leksikon til tidspartiker, der kan viderederiveres (ullumiummat)
LEXICON oqq
LEXICON oqq_q imaattoq
LEXICON conj
LEXICON adv_m
LEXICON adv
LEXICON K_VOK nyt leksion til enklitisk ARAQ og NNGUAQ efter verbal fleksion -vakkit
LEXICON K_TUQ nyt leksion til enklitisk TUQ for at undgå overgenerering
LEXICON K_TUQ_plur nyt leksion til enklitisk TUQ for at undgå overgenerering
LEXICON Krestr
LEXICON K
LEXICON restricted_indholds-K = klitika som kun bruges til pronomen, proprium og partikel.
LEXICON indholds-K 20170601 livm tilføjet = mellem morfemer
LEXICON K_plur 20170601 livm tilføjet = mellem morfemer
LEXICON Num1

I Num2 til Num10 er flagging af NNGUR C-et pga. klokken

LEXICON Num2
LEXICON Num3
LEXICON Num4
LEXICON Num6
LEXICON Num6lik
LEXICON Num10
LEXICON Numa
LEXICON Numu PL20200421 nyt LEX til hunnoruju
LEXICON Numi
LEXICON Nume
LEXICON NumC loan numerals like fam
LEXICON Numt loan numerals ending in -t like foorut
LEXICON Num2Ord
LEXICON Num3Ord
LEXICON Num6Ord
LEXICON Num10Ord
LEXICON Naal
LEXICON Naalsuf livm 20171211 tilføjet pluralisbøjning
LEXICON web
LEXICON iGaq transitive r-stammer med i som stammevokal NY PL 20180416
LEXICON GaqP
LEXICON iGaqP transitive r-stammer med i som stammevokal NY PL 20230916
LEXICON Taq passivt nomen af transitive stammer på k
LEXICON iTaq passivt nomen af transitive stammer på k med vokal med strong i
LEXICON TaqP
LEXICON kTaq !PL20240426 Nyt LEX til k-stammer som NIRLUP med både gaq og taq
LEXICON Saq passivt nomen af transitive stammer på vokal PL revision 20180409
LEXICON iSaq passivt nomen af transitive stammer på vokal med strong i
LEXICON SaqP
LEXICON Saq_schwa gennemgangsleksikon for schwa-stammer uden derivativer
LEXICON Saq_schwaP gennemgangsleksikon for schwa-stammer uden derivativer - pluralis tantum
LEXICON uteSaqP passivt nomen af transitive stammer med UTE
LEXICON nngisaq passivt nomen af transitive stammer på NNGIT
LEXICON nngisaqP passivt nomen af transitive pluralis tantum stammer på NNGITLEXICON prae understreg
LEXICON HTR_V_SAQ_nnip 20100630 vokalstammer som asavaa med HTR på NNIP (asannippoq, takunnippoq)
LEXICON HTR_V_SAQ_si 20100630 vokalstammer som matuaa med HTR på SI (matusivoq)
LEXICON HTR_V_SAQ_i 20171022 vokalstammer som pitsaalivaa med HTR på I (pitsaaliivoq)
LEXICON HTR_V_SAQ_i_P 20171022 vokalstammer i pluralis med HTR på I (pitsaaliivoq)
LEXICON HTR_V_SAQ_ller (aavaa - aasaq - aallerpoq)
LEXICON HTR_i_SAQ_nnip 20100630 vokalstammer på i med HTR på NNIP (nerivaa - nerisaq - nerinnippoq)
LEXICON HTR_i_SAQ_si 20100630 vokalstammer på i med HTR på SI (tunivaa - tunisaq - tunisivoq)
LEXICON HTR_UTE_SSAQ_ssi 201000929 gennemgangsleksikon for ute stammer.(kingornuppaa - kingornussivoq - kingornussaq)
LEXICON HTR_UTE_SSAQ_tsi 20190309 ute-stammer på HTR=tsi som sioqquppaa
LEXICON HTR_iUTE_SSAQ_ssi 201000929 gennemgangsleksikon for fusionerede ute stammer med assibilering.(pitsippaa, annippaa). Den morfologiske usikkerhed meget generel ved disse stammer, så såvel t-stammers struktur som ute-stammers ditto medtaget
LEXICON HTR_schwa_SAQ_nnip 201000929 gennemgangsleksikon for schwa stammer.
LEXICON HTR_schwa_SAQ_nnip_P 201000929 gennemgangsleksikon for schwa stammer.
LEXICON HTR_schwa_SAQ_si gennemgangsleksikon for schwa stammer. (ilisarsivoq)
LEXICON HTR_C_TAQ_si (dvs. konsonantstammer men ikke med r (kingornuppaa - kingornussivoq - kingornutaq)
LEXICON HTR_k_TAQ_i_P 20180430 pluralis tantum stammer som kitserluppai
LEXICON HTR_r_TAQ_si (konsonantstammer med r (toqqorpaa - toqqorsivoq - toqqortaq)
LEXICON HTR_C_TAQ_nnip (malippaa –> malinnippoq)
LEXICON HTR_C_TAQ_i 20100406 gennemgangsleksikon for t-stammer og k-stammer
LEXICON HTR_C_TAQ_tsi 20101203 t-stammer som toqup med HTR på TSI (nipangersippaa - nipangersitaq - nipangersitsivoq)
LEXICON HTR_C_TAQ_tsi_P 20101203 t-stammer som toqup med HTR på TSI (nipangersippaa - nipangersitaq - nipangersitsivoq)
LEXICON HTR_iC_TAQ_i (stammer på iC)
LEXICON HTR_iC_TAQ_si 20101203 t-stammer som sullip med HTR på SI (sullippaa - sullitaq - sullissivoq)
LEXICON HTR_iC_TAQ_tsi 20101203 t-stammer som sullip med HTR på TSI (nangippaa - nangitaq - nangitsivoq)
LEXICON UDEN_HTR_r_GAQ 20180722 konsonantstammer som ilinniar uden HTR
LEXICON UDEN_HTR_r_TAQ 20190109 nassarpaa uden HTR
LEXICON UDEN_HTR_k_TAQ 20180722 konsonantstammer som sorsup uden HTR
LEXICON UDEN_HTR_C_TAQ konsonantstammer som alapernaap
LEXICON UDEN_HTR_V_SAQ vokalstammer som nakkaavaa uden HTR
LEXICON UDEN_HTR_iV_SAQ vokalstammer som nakkaavaa uden HTR
LEXICON UDEN_HTR_schwa_SAQ schwastammer som anneraa - amigaraa uden HTR
LEXICON HTR_r_GAQ_i 201000630 konsonantstammer som arsaartorpaa med HTR på I (arsaartuivoq)
LEXICON HTR_ir_GAQ_i 20161016 assibilerende konsonantstammer som aallarnerpaa med HTR i (aallarniivoq)
LEXICON HTR_r_GAQ_ller (ujarpaa - ujagaq - ujarlerpoq)
LEXICON HTR_ir_GAQ_si (qilerutaarpaa) IR
LEXICON HTR_r_GAQ_si (imaarpaa - imaarsivoq - imaagaq)
LEXICON HTR_longV_GAQ_i 20101216 særligt leksikon til lange vokaler som -oor (tusaqqoorpaa, tusaqquuivoq)
LEXICON HTR_longV_GAQ_addi 20101125 særligt leksikon til lange vokaler som -saar (naammattusaarivoq)
LEXICON HTR_longV_GAQ_si til lange vokaler som -naar (ikinaarsivoq)
LEXICON HTR_longi_GAQ_nnip 20101125 særligt leksikon til lange vokaler som -saar (arsaarinnippoq)

flex-tv ;

LEXICON HTR_k_GAQ_i til de faa stammer med fusionerende passivt nomen som atornerlugaq, atornerluppaa, atornerluivoq
LEXICON N_Loan_ACR_V = bøjelige acronymer med appellativ-betydning som en BMW, der skal have bindestreg, men ikke i før videredannelse
LEXICON N_Loan_ACR_C = bøjelige acronymer med appellativ-betydning som en SMS, der skal have bindestreg før videredannelse
LEXICON N_Loan nominal loanwords ending in consonants
LEXICON N_Loan_bindestreg låneord, der skal have bindestreg som Ph.d.

Ord som PFAS

LEXICON N_Loan_Num som bør have bindestreg omega% 3
LEXICON N_Loan_GEM_s test på ordet ‘gas’
LEXICON N_Loan_GEM nominal loanwords with geminating consonant
LEXICON N_Loan_t nominal loanwords ending in -t
LEXICON N_Loan_um nominal loanwords ending in -um
LEXICON N_Loan_morf nominal loanwords ending in vowels
LEXICON N_Loan_e nominal loanwords ending in e
LEXICON N_Loan_o nominal loanwords ending in o
LEXICON N_Loan_é café
LEXICON N_Loan_V nominal loanwords ending in a, u, y, æ, ø, å
LEXICON N_Loan_V_ObligatoriskBindestreg korte stammer som BA
LEXICON N_Loan_i nominal loanwords ending in i
LEXICON N_Loan_logi nominal loanwords ending in logi pl20201104 for at tvinge et ekstra i ind i teknologi+Imik modsat teknolog+Imik (via N_Loan_i)
LEXICON N_Loan_ie nominal loanwords ending in -ie
LEXICON N_Loan_Adj adjective loanwords
LEXICON N_Loan_Adj_e adjective loanwords
LEXICON N_Loan_Unit_e loanwords ending in -e, semantic: unit
LEXICON N_Loan_Unit loanwords ending in consonants, semantic: unit
LEXICON V_Loan verbal intransitive loanwords
LEXICON V_Loan_tr verbal transitive loanwords

Nye gennemgangsleksika specifikt for +UTE+Der/vv tilføjet 20180118 (PL)

Nye gennemgangsleksika specifikt for +UTE+Der/vv tilføjet 20180928 (PL)

Nye gennemgangsleksika for TAR med følgende morfemer

Gennemgangsleksikon for TAR m. fl.

Kopi af IV-mod_C bortset fra default

Gennemgangsleksikon for TAR m. fl.

Gennemgangsleksikon for TAR m. fl. efter /i/ f.eks. GUMALLIR GUNNAIR LIR LLAQQIP PASIP QQAMMIR QQIP RIIR UMMIR VIP

Gennemgangsleksikon for TAR m. fl.

Gennemgangsleksikon for TAR m. fl. !tilføjet 20170501 !ikke til QE+Der/vv som kun kan få +NIR

Gennemgangsleksikon for TAR m. fl. !tilføjet 20170501 !til QE+Der/vv som kun kan få +NIR

Gennemgangsleksikon for TAR m. fl. efter LAAR

Gennemgangsleksikon for TAR m. fl. efter NAR+Der/vv

Gennemgangsleksikon for TAR m. fl. !tilføjet 20170501

Gennemgangsleksikon for TAR m. fl.

Gennemgangsleksikon RUJUUR+Der/vv

Gennemgangsleksikon for TAR m. fl. !tilføjet 20170501

efter GUMALLIR GUNNAIR LIR QQAMMIR RIIR UMMIR etc. !Ny default + post_-lexica PL 20180416

TIR og TITIR

Udkommenterede lexica - Flyttet til derivations-inflections.bak20200319 på Pers Mac

LEXICON N_Loan_ACR_morf Derivationsmorfemer til akronymer som BMW, IT etc. som er nominale og kan bøjes
- N_Loan_ACR_infl ; !PL20240511 nyt fortsættelseslex

This (part of) documentation was generated from src/fst/morphology/affixes/derivations-inflections.lexc

src-fst-morphology-affixes-noun_to_noun.lexc.md

LEXICON GEMS = Gennemgangsleksikon til nominer der geminerer til stop-lyd ved fleksion, fx meeqqap
0:^GEMS tp_infl ;
LEXICON Z1Zmorf Derivationsmorfemer til nominer, viser til tp og giver derefter nn-derivationer
LEXICON tp obs 20200623: fleksionsmorfemgrænse er %< og ikke %>
- +ALUK+Der/nn+INNAQ+Der/nn:^T%>aluinnaq tup- ;
LEXICON Z1VZmorf Derivationsmorfemer til nominer, der ender med vokal a, i, u 20200916 NN
LEXICON Z1eqZmorf Derivationsmorfemer til nominer på seq og leq * Z1eqZ ; … osv.
LEXICON nuliaqmorf derivationsmorfemer til typen nuliaq
LEXICON SEQgemin derivationsmorfemer til nominer
LEXICON ZseqZ qalaseq
LEXICON SIKgemin derivationsmorfemer til nominer som ikusik:iku
LEXICON SUKgemin derivationsmorfemer til nominer som pukusuk:puku
LEXICON Z1_le_UdenPossessumZmorf derivationsmorfemer til nominer som kalaaleq, der ikke kan tage possessum
LEXICON Z1eZmorf derivationsmorfemer til nominer på udlydende schwa
LEXICON Z1tipeZmorf derivationsmorfemer til nominer på udlydende schwa
LEXICON Z1eZ
LEXICON Z1nnguaqZmorf derivationsmorfemer til nominer på nnguaq
LEXICON Z1iZmorf derivationsmorfemer til nominer med strong i
LEXICON tip kuulti
LEXICON Z1_tZmorf derivationsmorfemer til nominer som pisataq og nivaataq !PL20210519 retableret og stammer fjernet fra GEMS
LEXICON tptmorf
LEXICON tpt
LEXICON ZtiZmorf taggit
LEXICON Z1iZ taggit
LEXICON ZkkutZmorf derivativer til typen saki og sakikkut
LEXICON Z2Zmorf nominer som erneq
LEXICON Z2kZmorf nominer som eqik
LEXICON Z2veqZmorf derivationsmorfemer til aaveq-typen
LEXICON Z2i2Zmorf derivationsmorfemer til aleq, ateq
LEXICON Z2tupeqZmorf derivationsmorfemer tupeq
LEXICON Z2_Zmorf derivationsmorfemer til tup- paa K. Jf. Z2_qZmorf
LEXICON aak_morf PL20250116 kopi af Z2_Zmorf udelukkende til aak. Bør gennemgås og morfemer, der er utænkelige på ‘aak’ skal slettes !!!!
LEXICON Z2_uukZmorf derivationsmorfemer til tup- paa K. Jf. Z2_qZmorf
LEXICON Z2_qZmorf Nyt leksikon til tup- paa Q 7.9.2007 for at haandtere forskelle som ..fiksuaq vs. ..aqsuaq
LEXICON Z2_eqZmorf Nyt leksikon til tup_2, magen til Z2_qZmorf, men har andre fleksioner til tulleq og qiterleq
LEXICON Z2aqZmorf derivationsmorfemer til nominer
LEXICON Z2_lZmorf derivationsmorfemer til nominer korrigeret februar 2017 med hensyn til additive og recessive morfemer.

gennemgangskatalog for up-stammer, der kræver replaciv sandhi

LEXICON Z2_rZmorf derivationsmorfemer til nominer
LEXICON Z2-PZmorf derivationsmorfemer til tup-nominer pluralis tantum
LEXICON ZoqseZmorf
LEXICON ZoqsieZmorf
LEXICON Z1_ssZmorf derivationsmorfemer til nominer
LEXICON Z1_niuZmorf derivationsmorfemer til niu
LEXICON Z1_maZmorf derivationsmorfemer til nominer som isuma
LEXICON Z1_meZmorf derivationsmorfemer til nominer
LEXICON Z1_kaZmorf derivationsmorfemer til nominer
LEXICON Z1_keZmorf derivationsmorfemer til nominer atigeq
LEXICON Z1_koZmorf derivationsmorfemer til nominer
LEXICON ZsaqZmorf derivationsmorfemer til nominer
LEXICON Z1_qaZmorf derivationsmorfemer til nominer
LEXICON Z1_qoZmorf derivationsmorfemer til nominer
LEXICON Z1_qeZmorf derivationsmorfemer til nominer
LEXICON Z1_laZmorf derivationsmorfemer til nominer
LEXICON Z1_loZmorf derivationsmorfemer til nominer som nuloq
LEXICON Z1_naZmorf derivationsmorfemer til nominer med gemination af n
LEXICON Z1_noZmorf derivationsmorfemer til nanoq med gemination af n tilføjet 20170522
LEXICON Z1nujaqZmorf typen nujaq+Der/nn:nu
LEXICON Z1joqZmorf typen pujoq+Der/nn:pu
LEXICON tpP
LEXICON ZsikZ 170306 til ikusik og kiasik
LEXICON ZsukZ 170306 til pukusuk
LEXICON Z1_le_UdenPossessumZ
LEXICON tup-uuk nuuk, kuuk

| — | — | — | — | —
| — | — | — | —

LEXICON tup-
LEXICON Z1_tZ !PL20210519 retableret og stammer fjernet fra GEMS
LEXICON nuliaq

PL20250910 slettet possessum i pluralis fra Gram/Ord

LEXICON tp_Gram/Ord !obs 20200623: fleksionsmorfemgrænse er %< og ikke %> Ny PL20220522 kun til ordenstal
LEXICON tp_possessum3 Til “stammer” som inuup-normu
LEXICON tp_speciel specialitet for at haandtere diatese ved NIQ=SSAQ
LEXICON Z1tipeZ
LEXICON Z1nnguaqZ

| —

LEXICON tup_2

| — | — | — | — | — | — | — | — | —

LEXICON GIIT

| — | — | — | — | — | — | — | —

LEXICON Z2aqZ

| —

LEXICON UGALUAQ
LEXICON GEGALUAQ
| —
LEXICON Z2+lZ
LEXICON tup

| — | — | —

LEXICON tup_speciel Kun til brug for NIQ som passiv ved transitive stammer | — | — | — | — | — | — | —
LEXICON tup_k
LEXICON tup_k_reduceret nalik

| — | —

LEXICON Z2_rZ

| — | — | — | — | — | — | — | —

LEXICON Z2veqZ iliveq:ili
LEXICON Z2i2Z aleq, ateq
LEXICON Z2tupeqZ tupeq
LEXICON Zappellativ_possessumZ ulloqeqqa
LEXICON ZoqseZ landslaege
LEXICON ZoqsieZ linolie
LEXICON ZkkutZ kkut og giit
LEXICON Z1_qaZ !### udkommentererede gemineringsleksika, erstattet af GEMS (stop, klusil) og GEMC (kontinuant)
LEXICON Z1_qoZ
LEXICON Z1_qeZ
LEXICON ZsaqZ
LEXICON Z1_kaZ
LEXICON Z1_keZ
LEXICON Z1_koZ
LEXICON Z1_laZ
LEXICON Z1_loZ
LEXICON Z1_naZ
LEXICON Z1_noZ tilføjet livm 20170522 til nanoq med gemination af n
LEXICON Z1nujaqZ
LEXICON Z1joqZ nominer som i qajoq:qa
LEXICON Z1_ssZ
LEXICON Z1_niuZ
LEXICON Z1_meZ

This (part of) documentation was generated from src/fst/morphology/affixes/noun_to_noun.lexc

src-fst-morphology-affixes-numerals.lexc.md

Arabiske numeralier

Inflection and derivation.

** Lexicon num_C for numerusmorfologi for ord på konsonant

** %% num_C ; ** tilfoejet loop 20090306 for at klare former som 83%-ii
** ° num_C ; ** tilfoejet loop 20210502 for at klare former som 5°-imiippoq
**+Num+Abs+Sg:%>-^EPH indholds-K ; **
**+Num+Abs+Pl: # ; ** !PL20250606 90+Num kan aldrig være Sg
**+Num+Abs+Pl:%>-it Krestr ; **
**+Err/Sub+Num+Abs+Pl:%>-t Krestr ; **
**+Num+Abs+Sg+3SgPoss:%>-ia Krestr ; **
**+Err/Sub+Num+Abs+Sg+3SgPoss:%>-a Krestr ; **

** Lexicon num_V for numerusmorfologi for ord på vokal

** %% num_C ; ** tilfoejet 20090306 for at haandtere ord som 49%-ii
**+Num+Abs+Sg:%>- indholds-K ; **
**+Err/Sub+Num+Abs+Sg:%>-i indholds-K ; **
**+Num+Abs+Sg: # ; **
**+Num+Abs+Pl: # ; ** PL20220121 45 min.
**+Num+Abs+Pl:%>-t K ; **
**+Err/Sub+Num+Abs+Pl:%>-it K ; **
**+Num+Abs+Sg+3SgPoss:%>-a Krestr ; **
**+Err/Sub+Num+Abs+Sg+3SgPoss:%>-ia Krestr ; **
**+Num+Gram/Ord+Abs+Sg+3PlPoss:%>-at Krestr ; **
… osb.

** Lexicon num_C_sub for numerusmorfologi for ord på konsonant, substandarformer

**+Err/Sub+Num+Abs: # ; **
**+Err/Sub+Num+Abs+Pl:%> Krestr ; **
**+Err/Sub+Num+Abs+Sg+3SgPoss:%>ia Krestr ; **
**+Err/Sub+Num+Abs+Sg+3SgPoss:^T%>a Krestr ; **
**+Err/Sub+Num+Abs+Sg+3PlPoss:%>iat Krestr ; **
**+Err/Sub+Num+Abs+Sg+3PlPoss:^T%>at Krestr ; ** 1-at
**+Err/Sub+Num+Rel:%>ip Krestr ; **
**+Err/Sub+Num+Rel:^T%>p Krestr ; **
…
**+Err/Sub+Num+Lok:%>imi LokVb ; **
**+Err/Sub+Num+Lok:^T%>mi LokVb ; **
**+Err/Sub+Num+Lok:%>mi LokVb ; **
**+Err/Sub+Num+Lok:%>ini LokVb ; **
**+Err/Sub+Num+Lok:^T%>ni LokVb ; **
**+Err/Sub+Num+Lok:%>ni LokVb ; **
**+Err/Sub+Num+Lok+Sg+3SgPoss:%>iani LokVb ; **
**+Err/Sub+Num+Lok+Sg+3SgPoss:^T%>ani LokVb ; **
**+Err/Sub+Num+Lok+Sg+3PlPoss:%>ianni LokVb ; **
**+Err/Sub+Num+Lok+Sg+3PlPoss:^T%>anni LokVb ; ** 1-anni
**+Err/Sub+Num+Lok+Pl+3SgPoss:%>iini LokVb ; **
**+Err/Sub+Num+Lok+Pl+3SgPoss:^T%>ini LokVb ; **
**+Err/Sub+Num+Lok+Pl+3PlPoss:%>iini LokVb ; **

** Lexicon num_V_sub for numerusmorfologi for ord på vokal, substandarformer

**+Err/Sub+Num+Abs:%> # ; **
**+Err/Sub+Num+Abs:%> indholds-K ; **
**+Err/Sub+Num+Abs+Sg+3SgPoss:%>a Krestr ; **
**+Err/Sub+Num+Abs+Sg+3SgPoss:%>ia Krestr ; **
**+Err/Sub+Num+Abs+Sg+3PlPoss:%>at Krestr ; **
**+Err/Sub+Num+Abs+Sg+3PlPoss:%>iat Krestr ; **
…

** Lexicon ord_V for ordinalmorfologi for ord på vokal

**+Gram/Ord+Abs+Sg+3SgPoss:%>a Krestr ; **
**+Gram/Ord+Abs+Sg+3PlPoss:%>at Krestr ; **
**+Gram/Ord+Abs+Pl+3SgPoss:%>i K_plur ; **
**+Gram/Ord+Abs+Pl+3PlPoss:%>i K_plur ; **
**+Gram/Ord+Rel:%>p Krestr ; **
…

** Lexicon ord_C for ordinalmorfologi for ord på konsonant

**+Gram/Ord+Abs+Sg+3SgPoss:%>ia Krestr ; **
**+Gram/Ord+Abs+Sg+3PlPoss:%>iat Krestr ; **
**+Gram/Ord+Abs+Pl+3SgPoss:%>ii K_plur ; **
**+Gram/Ord+Abs+Pl+3PlPoss:%>ii K_plur ; **
**+Gram/Ord+Rel:%>ip Krestr ; **

This (part of) documentation was generated from src/fst/morphology/affixes/numerals.lexc

src-fst-morphology-affixes-propernouns.lexc.md

Nyt 20210303: indsættelse af bindestreg og bindestreg+i ved proprier, der samtidig er akronymer ** Lexicon Vprop_connector DMI

** Lexicon Cprop_connector DHL

LEXICON ZxxxV steder og navne på vokal som ikke er i FST’en
LEXICON ZxxxC steder og navne på konsonant som ikke er i FST’en

Navnelexikon er i ateq-kal-lex.txt.

LEXICON Z1geoSZ Igaliku og Narsaq
LEXICON Z1geoSZ-suf SUB
LEXICON Z1geoPZ Paamiut
Sisimiut examples:*
Sisimiut: Sisimiut+Prop+Abs+Pl
Sisimiut: Sisimiut+Prop+Rel+Pl
Sisimiunut: Sisimiut+Prop+Trm+Pl
Sisimiunit: Sisimiut+Prop+Abl+Pl
Sisimiuniit: Sisimiut+Prop+Abl+Pl
Sisimiuni: Sisimiut+Prop+Lok+Pl
LEXICON Z1geo_nnguaqPZ Kangilinnguit NY 20100319 (PL)
LEXICON Z1geo_nnguaqZ Quassunnguaq NY 20100410 (PL)
LEXICON Z1geo_tsSmorf Kangerluarsoruseq
LEXICON Z1geo+ssPZ Ilulissat
LEXICON Z1geo_oqsZ Finland
LEXICON Z1geo_oqsZ_MedPlur Langtbortistan
LEXICON Z1geo_oqsetZmorf Atlanterhavet ** Lexicon Z1geo_oqsetZ

** Lexicon Z1geo_oqs-bestZ

LEXICON Z1geo_oqseZ Thule ** Lexicon Z1geo_oqseZ-suf
LEXICON Z2-geoSZ Ikerasaarsuk og Iqaluit
LEXICON Z2-geoSZ_TUQAQ Nuutoqaq
LEXICON Z2+lgeoSZ Nanortalik:Nanorta
LEXICON Z2-geo_uukSZ Nuuk
LEXICON Z2-geo_specielSZ Qinngorput – Qinngorpummi, Qinngorpumi
LEXICON Z2-geoqPZ Saqqarliit
LEXICON Z2-geolikPZ Kapisillit:Kapisi
LEXICON Z2geo_aqSZ Nuussuaq

** Lexicon ZcitationsformZ Et særligt lexicon til literals i citationstegn med placeholder QuotedHyphen (står i acronyms.lexc)

** Lexicon ZcitationsformZ_Num Copy of ZcitationsformZ, but yielding Num

** Lexicon Bogtitel Nyt lex til bogtitler uden citationstegn

** Lexicon Z1ateqZ_infl

** Lexicon Z1ateq_tptZ

** Lexicon Z1ateq_atZ

** Lexicon Z1ateq_gaqZ

** Lexicon Z1ateq_ngaqZ

** Lexicon Z1ateq_goqZ

** Lexicon Z1ateq_qoqZ

** Lexicon Z1ateq_taqZ

** Lexicon Z1ateq_seqZ

** Lexicon Z1ateq_leqZ

** Lexicon Z1ateq_saqZ

** Lexicon Z1ateq+qaZ

** Lexicon Z1ateq+ĸaZ

** Lexicon Zateq_tptZ Atassut

** Lexicon Z1ateqPZ

** Lexicon Z1ateqPZ-suf

** Lexicon Z2-ateqZ

** Lexicon Z2-ateqZ-suf

** Lexicon Z1ateqpropVZ

** Lexicon Z1instpropVZ

** Lexicon Z1ateqpropCZ

** Lexicon Z2ateq_niqZ

** Lexicon Z2ateq_neqZ

** Lexicon Z2suaq_ateqZ

** Lexicon Z2-ateq_specielSZ Siumut – Siumummi, Siumumi

** Lexicon Z1nnguaq_ateqZ

** Lexicon Z1nnguaq_possessumZ PL20220201 LEX til sekvensen UTE=NNGUAQ + POSSESSUM

** Lexicon Zateq_oqsZ
** Lexicon Zateq_oqsZ-suf

** Lexicon Zateq_oqsPZ PL20210224 til Kalaallit Airports o.lign. med usikker numerus. I første omgang uden derivation og personendelser

** Lexicon Zateq_iaqZ

** Lexicon Zateq_iaĸZ

** Lexicon Zateq_ioqZ

** Lexicon Zateq_naqZ

** Lexicon Zateq_noqZ

** Lexicon Zateq_meqZ

** Lexicon Z1geoSZmorf Narsaq

** Lexicon Z1geoPZmorf Paamiut og Ivittuut

** Lexicon Z1geo_nnguaqZmorf Quassunnguaq NY 20100410 (PL)

** Lexicon Z1geo_nnguaqPZmorf Kangilinnguit NY 20100319 (PL)

** Lexicon Z1geo+ssPZmorf Ilulissat

** Lexicon Z1geo_oqsZmorf Finland

** Lexicon Z1geo_oqs-nbestZmorf Særlig katalog til lande i bestemt form som Spanien

** Lexicon Z1geo_oqs-tbestZmorf Særlig katalog til lande i bestemt form som Tyrkiet

** Lexicon Z1geo_oqseZmorf Thule

** Lexicon Z2-geoSZmorf Ikerasaarsuk; Korea% Kujalleq

** Lexicon Z2+lgeoSZmorf Nanortalik

** Lexicon Z2-geo_uukSZmorf un til Nuuk

** Lexicon Z2-geo_specielSZmorf til geografiske steder med fleksion såsom Qinngorput – Qinngorpummi, Qinngorpormiu

** Lexicon Z2geo_aqSZmorf Nuussuaq

** Lexicon Z2-geoqPZmorf Saqqarliit:Saqqarleq

** Lexicon Z2-geolikPZmorf Kapisillit:Kapisi

** Lexicon Z1ateqpropVZmorf

** Lexicon Z1instpropVZmorf

** Lexicon Z1ateqpropCZmorf

** Lexicon Z2-ateqZmorf

** Lexicon Z2ateq_niqZmorf

** Lexicon Z2ateq_neqZmorf

** Lexicon Z2suaq_ateqZmorf

** Lexicon Z1ateqZmorf_all

** Lexicon Z1ateq_tptZmorf

** Lexicon Z1ateq_atZmorf

** Lexicon Z1ateq_taqZmorf

** Lexicon Z1ateq_saqZmorf

** Lexicon Z1ateq_seqZmorf

** Lexicon Z1ateq_leqZmorf

** Lexicon Z1ateq_gaqZmorf

** Lexicon Z1ateq_ngaqZmorf

** Lexicon Z1ateq_goqZmorf

** Lexicon Z1ateq_qoqZmorf

** Lexicon Z1ateq+qaZmorf

** Lexicon Z1ateq+ĸaZmorf

** Lexicon Zateq_tptZmorf

** Lexicon Z1ateqPZmorf

** Lexicon Z2-ateq_specielSZmorf

** Lexicon Z1nnguaq_ateqZmorf

** Lexicon Zateq_oqsZmorf

** Lexicon Zateq_numCZmorf Ny 20191010 til proprier som DR1 og Peugeot 206. Sem/Hum fastholdt i første omgang, for DR og biler kan jo gøre noget aktivt???

** Lexicon Zateq_numVZmorf Ny 20191010 til proprier som DR2 og Peugeot 208

** Lexicon Z1ateq_iaqZmorf

** Lexicon Z1ateq_iaĸZmorf

** Lexicon Z1ateq_ioqZmorf

** Lexicon Z1ateq_naqZmorf

** Lexicon Z1ateq_noqZmorf

** Lexicon Z1ateq_meqZmorf

** Lexicon Z1geopropZ

** Lexicon Z1geopropPZ

** Lexicon Z1ateqpropZ

** Lexicon Z1ateqpropPZ De Konservative

** Lexicon Z1Fem_ateqZ Test af femininum tag med stamme på -e. Tidligere Z1ateqpropZ og Z1ateqZmorf

** Lexicon Z1Mask_ateqZ

** Lexicon Z1Mask_GrlateqZ

** Lexicon Z1Fem_tptZ

** Lexicon Z1Mask_tptZ

** Lexicon Z1Mask_atZ

** Lexicon Z1Mask_taqZ

** Lexicon Z1Fem_taqZ

** Lexicon Z1Mask_saqZ

** Lexicon Z1Mask_seqZ

** Lexicon Z1Mask_leqZ

** Lexicon Z1Fem_leqZ

Det følgende er et forsøg på et gennemgangsleksikon til fornavne af oqs-typen inkl. køn. Testord = Hans
Det påregnes, at taggen Sem/Mask (og senere Sem/Fem) vil overflødiggøre Sem/FirstName (og egentlig også Sem/Hum)

** Lexicon ZMask_oqsZ

** Lexicon ZFem_oqsZ

** Lexicon Z1Fem_nnguaqZ
Test afkønsopdelte fornavne på NNGUAQ. Tidligere Z1nnguaq_ateqZmorf

** Lexicon Z1Mask_nnguaqZ

** Lexicon Z1Mask_araqZ

** Lexicon Z1Fem_araqZ

** Lexicon Z1Fem_araĸZ

** Lexicon Z1Mask_gaqZ

** Lexicon Z1Fem_ngaqZ

Tidligere Z2-ateqZmorf

Nyt lexicon 20180615 Z2suaq_ateqZmorf

LEXICON ZpossessumZ !Kalaallit% Nunaat flyttet til ZgeopossessumSZ
LEXICON ZpossessumSZ Nuup Kommunea
LEXICON ZpossessumPZ
LEXICON ZgeopossessumSZ !Kalaallit% Nunaat flyttet til ZgeopossessumPZ
LEXICON ZgeopossessumPZ Kalaallit% Nunaat !PL20260509 Poss-tag giver ikke mening i fuldformer som Kalaallit% Nunaat. Fjernet forsøgsvist alle 3PlPoss
LEXICON ZPropKKUTZ kopieret fra ZkkutZ. Det meste af derivation udkommenteret, da usandsynlig ved proprier
LEXICON Z1Prop+qaZ kopieret ind fra Z1+qaZ (tp), hvis størstedel er slettet her
LEXICON Proptp

This (part of) documentation was generated from src/fst/morphology/affixes/propernouns.lexc

src-fst-morphology-affixes-symbols.lexc.md

Symbol affixes

This (part of) documentation was generated from src/fst/morphology/affixes/symbols.lexc

src-fst-morphology-phonology.xfscript.md

Fil for at generere de morfofonologiske reglerne til

vor grønlandske analysator

Innkommenter de følgende linjer dersom man vil kompilere reglerne direkte mot leksikon-fst-en. Husk også på at endre i configure.ac: AC_SUBST([LEXREF_IN_XFSCRIPT], [“yes”]) Husk også på at kommentere inn de to første linjer i det siste regex, der alt sættes sammen. Et slikt oppset tar længre tid, men gir en mindre og mer kompakt fst echo « Vi laster inn leksikonet… »

This (part of) documentation was generated from src/fst/morphology/phonology.xfscript

src-fst-morphology-root.lexc.md

Greenlandic morphological analyser

Fil for at generere de centrale morfologiske processer i vor grønlandske analysator

Multicharacter symbols

Alphabets

The alphabet used to writing surface word-forms in UNDEFINED language are: a b c d e f g h i ï j k l m n o p q r s t u v w x y z å ö æ A B C D E F G H I Ï J K L M N O P Q R S T U V W X Y Z Å Ö Æ 1 2 3 4 5 6 7 8 9 some more non-core alphabets used in loans etc. These punctuations are always escaped in lexc files: % %# %: %; %! %< %> %% %” %0 These are other common punctuation in UNDEFINED language

, . | ? … ¿ ¶ ❡ ¬ • ● · · ‒ – — ― − _ = ≈ @CODE@ ‘ * + @ ± ` ´ / ~ ‐ ° ( ) [ ] { } « » ‹ › “ ” „ ‟ ‘ ’ ‚ ‛ ❛ ❜ ❝ ❞ ❟ ❠ ❮ ❯ 〝〞〟 § € £ ¥ ® © √ ◊ ♦ ☐ ⚬ № ‰ ¢ ¦ ª × ‡ ™ → ■ □ ▲ ► ▼ ★ ☆ ☺ ✓ ❖ ¹ ² ³ ½ ¼ ¾ 😄 🙂 ּ ＂ And following whitespace and invisible stuff:

And finally some letters specific to Greenlandic: Ĩ ĸ κ ř Ũ

AA+ = præfiks
TA+ = præfiks

Tags for POS (primary tags)

Main Word Classes

+encl = clitic to separate clitics from suffixes with identical upper form in disambiguator.cg3 (TTAAQ)
+N = Noun
+V = Verb
+Pali = Particle-like - partikellignende
+Conj = Conjunction
+Adv = Adverb
+Interj = Interjection
+Pron = Pronoun
+Prop = Propernoun
+Num = Numeral
+Symbol = independent symbols in the text stream, like £, €, ©
+Arab = pga- brug i ~/langtech/shared-mul/src/fst/stems/telephone.lexc

Secondary tags

Tags for Verbs

+Gram/IV = Intransitive Verb !PL 20180319 ny formalisme gennemført livm 20180324
+Gram/TV = Transitive Verb !PL 20180319 ny formalisme gennemført livm 20180324
+Gram/HV = Non-marked agentive Verb (used as Half-transitive)
+Gram/Db = Double-transitive Verb. PL tilføjet 20180319
+Gram/Exclm = Exclamation !Flyttet fra primære tags 20180420 PL

Tags for Pronouns

+Gram/Int = Interrogative Pronoun
+Gram/Pers = Personal Pronoun
+Gram/Coref = Reflexive Pronoun
+Gram/Indef = Indefinitive Pronoun

Tags for Other Word Classes

+Gram/Dem = Demonstative pronoun, demonstrative adverb or demonstrative interjection
+Gram/Cong = Various Pronoun, eg. tamaq, kisi (personkongruensdeklination)
+Gram/Abbr = Abbreviation
+Gram/ACR = Acronyms
+Gram/Adj = Adjektiver optaget direkte inkl. ubøjet anvendelse før kerne

Semantics

Semantics Nouns

værdi i spillekort

+Sem/event fx Avannaata Qimussersua
+Sem/Fem Forsøg med femininum sml. Sem/Mask
+Sem/FirstName = Attributive
+Sem/Geo = Geographical Propernoun
+Sem/Hum = Non-geographical Propernoun
+Sem/LastName Efternavne
+Sem/Mailadresse tag til adresser af typen cccc@cccc.cc
+Sem/Mask Forsøg med en ny tag til fornavne af maskulinum
+Sem/Time = Temporal particle !The random adverbial ‘phrases’ like -riutaa -isaa etc.
+Sem/Unit = Unit !Til besværlige låneord som ‘time’ etc., der optræder absolut
+Sem/Url tag til adresser af typen www.ccc.cc
+Sem/misse tag til at markere usikker possessor for misse
+Sem/month = Temporal, month
+Sem/Aich = Animal, water
+Sem/Azo = Animal, land
+Sem/build = build Building / Structure
+Sem/Bveg = Plant, vegetable
+Sem/H = Human
+Sem/HH = Human, group of
+Sem/HHorg = Human, organisation
+Sem/Hattr = Human, attribute
+Sem/Hbio = Human, biological
+Sem/Hfam = Human, family
+Sem/Hideo = Human, idelogical
+Sem/Hmyth = Human, mythological
+Sem/Hnat = Human, nationality
+Sem/Hprof = Human, profession
+Sem/Hsick = Human, sick
+Sem/Htit = Human, title
+Sem/Lsem = Location, semantic
+Sem/Lstar = Location, astronomical
+Sem/Vground = Vehicle, ground
+Sem/cc-h = Object Countable, human-made
+Sem/cm-h = Object Mass Noun, human-made
+Sem/domain = Domain
+Sem/dur = Temporal, duration
+Sem/f-an = Feature, anatomical
+Sem/f-q = Feature, quantifiable
+Sem/ling = Language
+Sem/occ = Temporal, occasion
+Sem/per = Temporal, period of/in time
+Sem/temp = Temporal
+Sem/therapy = Therapy
+Sem/tool = Tool
+Sem/wea = Weather
+Sem/inst = Institution
+Sem/sick = Disease

Semantics Verbs

Grammar

+Gram/Comp = Composita !Særlig tag til NIQ ajor/saper/artor/nalu- konstruktioner ved transitive verber
+Gram/Refl = Reflexive, reciprocal or passive !asavoq
+Gram/Reci = Reciprocal !naapipput
+Gram/Pass = Passive !used when a derivational morpheme not explicitely denotes a passivisation, or when intransitive flexion changes an active verb into a passive
+Gram/PlurTant = plurale tantum noun: ilaqutariit
+Gram/SingTant = singulare tantum noun: sila
+Gram/Ord = Ordinal number !pingajuat
+Gram/Hyb = Følger hybriderne for at bestemme stederne hvor strengene kan klippes i to ord ved hybriderne *__ +Gram/TransverbNIQ __ = NIQ-former med transitivt verbale egenskaber. PL20210417
+Gram/-epen = ingen epentese ved låneord, så der kan genereres en. bestemt form til Katersat. batteriip versus batterip. ELLER ved vokaler aa+u -> aaju (nutaanngilaq)
+Gram/-schwa = minus schwa, angerlaanngilaa
+Gram/Alt = Ablative alternative form -minngaanniit/-ninngaanniit. Eller uregelmæssig pujoq->puggup
+Gram/Alt2 = Ablative alternative form 2 -minngarnit/-ninngarnit
+Gram/GAQ = TAQ allomorf i formen gaq, for at kunne generere en bestemt form til Katersat, opslag: maligaq -> malikkap, ikke malitap
+Gram/GEM = gemineret
+Gram/GEMloan = geminering af sidste konsonant i låneord
+Gram/GEMss = latent konsonant j gemineret (ergo GEM) som ss, tag brugt til at generere form til Katersat, kikiak -> kikissap (og ikke kikiap, kikiaap)
+Gram/Lo = Ablative long form -miit/-niit
+Gram/Sh = Ablative short form -mit/-nit
+Gram/additive = den additive form af et suffiks, som både kan være additiv og truncativ, SIMA ved t-stammer
+Gram/assib = assibileret, for at kunne generere en bestemt form til Katersat
+Gram/epen = epentese i ved låneord, der ender på en konsonant. ELLER ved vokaler aa+u -> aa (nutaajunngilaq)
+Gram/fus = fusionerende, t+l -> s, iggit+LIR -> iggiser
+Gram/inchoative = inchoativt suffiks
+Gram/liup = trunkativ, stærk bøjning LIK
+Gram/llip = trunkativ, gemination LIK
+Gram/llup = final vokal + konsonant trunkering, stærk bøjning, geminering LIK
+Gram/meta = metatese, imeq, ermup
+Gram/regass = sidste vokal fjernet, dernæst regressiv assimilation, aaveq->aarrit
+Gram/repl = replaciv, for at kunne generere replaciv form til Katersat, aappinngilaa framfor aappalinngilaa, når opslaget er aapperpaa
+Gram/schwa = med schwa, angerlaatinngilaa
+Gram/str = stærk bøjning + trunkering, -up for at kunne vælge en bestemt form til Katersat, aagiak -> aagiaap, ikke aagiap
+Gram/strnasal = stærk bøjning, stammefinal k nasaleret
+Gram/truncative = den truncative form af et suffiks, som både kan være additiv og truncativ, SIMA ved t-stammer
+Gram/wea = svag bøjning, -p
+Orth/longi = long i, benziina versus benzina
+Orth/shorti = short i, benzina versus benziina
+Orth/ztos = s used instead of z, bensiina

Derivation

+Der/Vok = Vocative
+Der/Unk = Ukendt morfem !Ukendte morfemer i ellers analyserede stammer for at få rigtig lemmaanalyse, som orsoq+NNAP+nv+UNK+vn:orsunnattaaq
+Der/vv = verb to verb
+Der/nn = noun to noun
+Der/nv = noun to verb
+Der/vn = verb to noun
+Der/xx = Follows the enclitic suffix TUQ to be able to distinguish TUQ+xx from the derivational morpheme TUQ+vn in CG: qanortoq Citerede ordformer jf. Kleinschmidt ^rpoĸ

Dialect

+Dial/Ngr = Northern dialect (such as ng for g; predictable dialectal changes might be dealt with in the postprosessor in stead)
+Dial/Sgr = Southern dialect (such as VVC for VVCC), aneeqavoq (and not aneeqqavoq)
+Dial/Egr = Eastern dialect
+Dial/Vgr = Western dialect (such as rng for rn)

Tags to mark loan word entries with a diverting orthography

That is, they need special treatment in e.g. speech syntesis.

+OLang/DAN = Danish stem: profet
+OLang/ENG = English stem: game

Orthograhy

+Orth/Arch = Archaic language, (stem, morpheme, flexion, or sandhi): tikisimavoq, asallutigik, agpâ (for anípâ)
+Orth/Youth = Youth language: asallutigu
+Orth/Alt = Substandard language (hyphens among other things…): isissavoq, Qaanaaq-mut, fabrikki, poor’lu
+Orth/Hyph = bindestreg ved låneord, for at kunne generere en bestemt form til Katersat
+Orth/-Hyph = uden bindestreg ved låneord, for at kunne generere en bestemt form til Katersat

Usage/error

+Use/-Spell = Do not include in speller
+Use/Hybrid = For generating split hybrids. Should not be included in speller, analyser, or norm-generator
+Err/Sub = Not authorized spelling: 2-imik
+Err/Orth !! tag, vi ikke bruger, men som optræder i de delte filer ≈ * +Err/Orth !! tag, vi ikke bruger, men som optræder i de delte filer

Tags for Inflection

Numerus

+Sg = Singularis
+Du = Dualis
+Pl = Pluralis

Kasus

+Abs = Absolutive
+Rel = Relative
+Trm = Terminalis
+Lok = Locative
+Aeq = Aequalis
+Ins = Instrumentalis
+Via = Vialis
+Abl = Ablative

Særlige 3./4. persons kasus med DivPron (Gram/Cong)

+Nom = Nominative
+Akk = Accusative

Modus

+Ind = Indicative
+Int = Interrogative
+Imp = Imperative
+Opt = Optative
+Cau = Causative
+Con = Conditional
+Par = Participium
+Cont = Infinitive
+ContNeg = Negated Infinitive
+IteCau = Iterative (morphologically: Causative)

Verb person-numerus

+1Sg = Subject 1.person singular
+2Sg = Subject 2.person singular
+3Sg = Subject 3.person singular
+4Sg = Subject 4.person singular
+1Pl = Subject 1.person plural
+2Pl = Subject 2.person plural
+3Pl = Subject 3.person plural
+4Pl = Subject 4.person plural
+1Du = Subject 1.person dual
+1SgO = Object 1.person singular
+2SgO = Object 2.person singular
+3SgO = Object 3.person singular
+4SgO = Object 4.person singular
+1PlO = Object 1.person plural
+2PlO = Object 2.person plural
+3PlO = Object 3.person plural
+4PlO = Object 4.person plural

Flag diacritics for Greenlandic

Flag diacritics til pluralis tantum subjekter

@U.Num.Pl@
@U.Num.Sg@
@C.Num@ Et forsøg med Clear Feature for at håndtere *qarliuvoq vs. qarleqarpoq

Flag diacritics til verber med kun pluralis i objekterne

@U.ObjNum.Pl@
@U.ObjNum.Sg@
@C.ObjNum@

Test af boolsk variabel til ad hoc blokeringer

@U.Boole.On@
@U.Boole.Off@

Test af boolsk variabel til ad hoc blokering af Gram/Exclm. stems sættes Off og derivation On

@U.Exclm.On@
@U.Exclm.Off@

Off-flag sættes i verbs på transitive verber med usandsynlig Refl. On-flag på taggen Gram/Refl i gennemgangslexica

@U.Refl.On@
@U.Refl.Off@
@U.TruncTip.On@
@U.TruncTip.Off@

Off-flag på verber som akuaa, der ikke må lave metatese på NIQ

Nyt flag 20211214 for at forebygge *taakkuunngitsoq og *taannaanngitsut

@U.DemPron.Sg@
@U.DemPron.Pl@

Off-flag på nominer, der SKAL opføre sig replacive som pilersaarusiorpoq og aqqusinniorpoq

@U.Liur.Off@
@U.Liur.On@

Off-flag i nouns og Off-flag i der-inf når TUR og TUGAQ ikke må assibileres og On-flag, når de skal assibileres. Også for at forebygge assibilering efter HTR på nnip

@U.Tur.Off@
@U.Tur.On@

Flag specielt for at sikre additiv p-bøjning af ulloq i Trm@

@U.Ulloq.Off@
@U.Ulloq.On@
@U.epen.ON@ epentese
@U.epen.OFF@ ingen epentese

Ad hoc til test af alternativ flag diacritics ved præfikser. Husk også den udkommenterede linie ‘Kingumoorutit ;’ i LEXICON Root

Test 20210504 af P- og R-flag for at generere både takornariat og takornarissat+Err/Sub

@P.iaq.ON@
@R.iaq.ON@

Flags for loan words, which must not go to N+Abs+Sg without derivation.

@P.Loan.i@
@D.Loan.i@ disallow test
@C.Loan.i@
@U.prop.poss@ = Prop + possessor
@U.prop.norm@ = Prop + vanlig
@C.prop.norm@
@U.acro.poss.epent.v@ = acro + possessor + epenthetic v
@U.acro.norm@ = acro + vanlig
@C.acro.norm@

Test af P- og D-flag til forebyggelse af rekusivitet ved TIP

@U.tip.ON@
@U.tip.OFF@
PJAT_FOR_AT_FAA_SKIDTET_TIL_AT_KOMPILERE en dummy, der kan kommenteres ind og ud, når make instisterer på ‘nothing to do’ efter bestemte fejltyper

30.10.23: Trond tok taggane som var deklarert fleire gonger (sannsynlegvis tidlegare taggstrengar A=B=C) ut desse og laga i staden ei liste der kvar tag sto ein gong (nedanfor): docs/tagstrings.md

List of the so-called Greenlandic tilhæng, i.e., derivational affixes

+A
+AA
+AR
+AASIIT
+AASIT
+AAT
+ALAAQ
+ALAAR
+ALLAK
+ALLAP
+ALUK
+ALUP
+ARAQ
+ARSUK
+ARSUP
+ATAAR
+ATSIAQ
+GAJUP
+GAJUUQ
+GALLAR
+GALUAQ
+GALUAR
+GALUTTUAQ
+GALUTTUAR
+GASAAQ
+GASAAR
+GASAP
+GASUAR
+GASUGE
+GASURE
+GE
+GI
+GIAQAR
+GIAR
+GIARTUAAR
+GIARTUR
+GIIAAQ
+GIIAAR
+GIIAAT
+GIIP
+GIIT
+GIP
+GISSAAR
+GUMA
+GUMAAR
+GUMALLIR
+GUMINAALLI
+GUMINAR
+GUNAR
+GUNNAIR
+GUNNAR
+GUP
+GUSUP
+GUUQ
+HTR
+IAR
+ILATSI
+ILIQI
+INNANNGUAQ
+INNAQ
+INNAR
+INNARIAA
+IP
+IR
+IRNIAQ
+IRNIAR
+IRSIR
+IRUSSI
+IRUTE
+ISUA
+IT
+JA
+JAALLU
+JAAR
+JURAR
+JURTUR
+KAA
+KAJAAQ
+KALAAR
+KANNIQ
+KANNIR
+KAR
+KASIK
+KASIP
+KASSAK
+KASSAP
+KATAAR
+KATAP
+KATTAR
+KILLI
+KIP
+KISAR
+KKAAQ
+KKAAR
+KKULUK
+KKULUP
+KKUMINAR
+KKUT
+KKUUTAAQ
+KKUUTAAR
+KUJUK
+KUJUP
+KUJUUQ
+KUJUUR
+KULA
+KULAAR
+KULLAK
+KULUK
+KULUP
+KULUUQ
+KULUUR
+KUQ
+KUSUUR
+KUTSUUR
+LA
+LAAQ
+LAAR
+LI
+LIAQ
+LIAR
+LIK
+LIKKAAQ
+LIKKIRSAAR
+LIP
+LIR
+LIRI
+LIRNGUSAATE
+LIRSAAR
+LIRSUR
+LIRTUR
+LISAAR
+LISAR
+LIUR
+LIUTE
+LIVIK
+LLAARE
+LLAATAA
+LLAMMAK
+LLAP
+LLAQQIP
+LLAR
+LLARIP
+LLATSIAR
+LLATTAA
+LLATTAAR
+LLATUAR
+LLI
+LLIQ
+LLIR
+LLIRPAAQ
+LLIUR
+LLUAR
+LLUINNAQ
+LLUINNAQQISSAAQ
+LLUINNAR
+LU
+LUP
+LUQA
+LUSUUQ
+LUUNNIIT
+LUUR
+MAA
+MAANNA
+MAANNAA
+MAAR
+MASSA
+MI
+MINAATSIAQ
+MINIQ
+MISAAR
+MIU
+MIUQ
+MMIRSUR
+NAAR
+NAQ
+NAR
+NASUGE
+NASURE
+NAVIAR
+NAVIIR
+NAVIIRSAAR
+NGA
+NGAAQ
+NGAAR
+NGAATSIAQ
+NGAJAK
+NGAJAP
+NGAJASSAA
+NGIR
+NIAALUP
+NIAQ
+NIAR
+NIARIUTAA
+NIARSARE
+NIINNAR
+NIKUQ
+NIKUU
+NIP
+NIQ
+NIQAR
+NIQ_AJUR
+NIR
+NIRAR
+NIRLIUR
+NIRLUP
+NIRPAA
+NIRPAAQ
+NIRPAARPAA
+NIRSAQ
+NIRU
+NIRUMAAQ
+NIRUMAAR
+NISAQ
+NIUTAA
+NIUTE
+NNAAQ
+NNAP
+NNGIR
+NNGIRSAAR
+NNGISAANNAR
+NNGIT
+NNGUALLAARE
+NNGUAQ
+NNGUAR
+NNGUARSI
+NNGUASIK
+NNGUATSIAR
+NNGUJUUR
+NNGUR
+NNGUUJUIT
+NNGUUJUK
+PAAQ
+PAJAAQ
+PAJAAR
+PAJUK
+PAJUP
+PAK
+PALAAQ
+PALAAR
+PALLAK
+PALLAP
+PALUK
+PALUP
+PASIP
+PIAQ
+PIAR
+PILUK
+PILUP
+PILUUR
+QAR
+QATE
+QATIGIIP
+QATIGIIT
+QATTAAR
+QE
+QINA
+QQA
+QQAAQ
+QQAAR
+QQAJAA
+QQAJAR
+QQAMMI
+QQAMMIQ
+QQAMMIR
+QQAR
+QQARTUR
+QQATAR
+QQATUR
+QQINNAAQ
+QQINNAAR
+QQIP
+QQISSAAQ
+QQISSAAR
+QQU
+QQURTU
+QQURTUSI
+QQURTUUQ
+QQUSAAR
+QQUTE
+QQUUQE
+QQUUR
+QQUUTE
+R
+RAALLAK
+RAAR
+RAJUK
+RALAAQ
+RALAK
+RAR
+RASAAR
+RATAAR
+RATAR
+RIAANNAA
+RIAAT
+RIANNGUAR
+RIAQ
+RIAR
+RIATAAR
+RIIR
+RIP
+RLAAQ
+RRAK
+RRATE
+RSUR
+RUJUK
+RUJUP
+RUJUUJUTAA
+RUJUUR
+RUJUURUTAA
+RULUP
+RULUUR
+RUR
+RUSAAR
+RUSAQ
+RUTTUR
+RUUSAAR
+RUUSAQ
+RUUSAR
+SAAR
+SAR
+SARE
+SI
+SIAQ
+SII
+SILAT
+SIMA
+SIMAAR
+SINNAA
+SINNAANNGUR
+SINNAAQ
+SINNAR
+SIQ
+SIR
+SIUR
+SIUT
+SSA
+SSAALIQI
+SSAAR
+SSAMAAQ
+SSAMAAR
+SSAMAATE
+SSAQ
+SSAQQIP
+SSI
+SSIP
+SSUSIQ
+SUAQ
+SUAR
+SUATAAR
+SUNGAR
+SUNNI
+SUNNIP
+SUR
+SURE
+T
+TA
+TAAMA
+TAAQ
+TAAR
+TAAVA
+TALLAP
+TAQ
+TAR
+TARE
+TARIAARUTE
+TARIAQ
+TARIAQAR
+TASSAA
+TE
+TIGE
+TIP
+TIR
+TITAAR
+TITIR
+TSAALI
+TSAALIUR
+TSAP
+TSIALAK
+TSIAQ
+TSIAR
+TSIISAA
+T(S)IP = sukkatsippoq, men: nillertippoq
+TSIR
+TTAAQ
+TU
+TUAQ
+TUAR
+TUARANNGUU
+TUATAAR
+TUGAQ
+TUKASSAA
+TUQ
+TUQAQ
+TUR
+TURSUU
+TURUJUSSUANNGUR
+TURUJUSSUU
+TURUJUU
+TUSSAA
+TUSSANNGUR
+TUU
+TUUQ
+TUUR
+TUUSAAR
+TUUSI
+U
+UAAR
+UKU
+UKUA
+UMI
+UMMI
+UMMIR
+UNA
+UR
+URL
+USAAQ
+USAAR
+USAP
+USAQ
+USAR
+USIAQ
+USIQ
+UTE
+UTIGE
+VALLAAQ
+VALLAAR
+VIK
+VIP
+VISSUAQ
+VISSUR
+VVAARIK
+VVAARIP
+TEL = pga. ~/langtech/shared-mul/src/fst/stems/telephone.lexc
+Use/Circ = pga. ~/langtech/shared-mul/src/fst/stems/telephone.lexc

Grænsesymbol

Symbols that need to be escaped on the lower side (towards twolc)

»
« ()

Vore morfofonemer

g2 g3 g4 c2
g5 = gi i +GIARTUR+Der/vv
j2 = j i +GIARTUR+Der/vv
r2 = recessivt r
{t2} = recessivt t, {t2} bare fordi hverken t2 eller ^t2 virkede
i2 = den normale schwa (stammefinalt nul) som ved tptmorf i src/fst/morphology/stems/nouns.lexc
i3 = schwa’et som er et stammefinalt ‘i’ som ved Z1eZmorf i src/fst/morphology/stems/nouns.lexc ch til Heinrich/ Heinriup men kvæler alle ch-sekvenser. Udkommenteret 20181008
í á ú î â û ê ô ĩ ã ũ vokaler i gammel retskrivning
+CLB +PUNCT +LEFT +RIGHT +MIDDLE

Vore magiske symboler

^ALTINF Alternerende infinitiver ved rpoq
^CLIT Klitika
^CVqT = tidligere %CVqTRUNC
^EPH = tidligere %EPENT Epentetisk vokal mellem konsonant og clitis i fremmedord
^FUS = til konsonantsletning ved fusion, for at undgå sammenblanding med ^T
^GEMEQ gemineringskode til p-bøjede på seq og leq
^POSST = tidligere %POSSESSORTRUNC
^PROP = tidligere %PROP, Blokering mod vokalreglerne
^ProgI Tilfoejet 20100117 for at haandtere progressiv i-assimilation ved ARAQ og UTIGE
^ST = tidligere %STRUNC trunkerer både vokal og konsonant
^T = tidligere TRUNC, minus-suffikser, trunkerer
^VCT = tidligere %VCTRUNC, stammefinal vokal+konsonant slettes
^VT = tidligere %VTRUNC, stammefinal vokal slettes
^GEM
^GEMS = gemination, lukkelyd
^GEMC = gemination, kontinuant
^Loan

Language-independent flag diacritics

We have manually optimised the structure of our lexicon using following flag diacritics to restrict morhpological combinatorics - only allow compounds with verbs if the verb is further derived into a noun again:

| Flag | Explanation | — | —

For languages that allow compounding, the following flag diacritics are needed to control position-based compounding restrictions for nominals. Their use is handled automatically if combined with +CmpN/xxx tags. If not used, they will do no harm.

Flag	Explanation
!@P.CmpFrst.FALSE@	Require that words tagged as such only appear first
!@D.CmpPref.TRUE@	Block such words from entering ENDLEX
!@P.CmpPref.FALSE@	Block these words from making further compounds
!@D.CmpLast.TRUE@	Block such words from entering R
!@D.CmpNone.TRUE@	Combines with the next tag to prohibit compounding
!@U.CmpNone.FALSE@	Combines with the prev tag to prohibit compounding
!@P.CmpOnly.TRUE@	Sets a flag to indicate that the word has passed R
!@D.CmpOnly.FALSE@	Disallow words coming directly from root.

Use the following flag diacritics to control downcasing of derived proper nouns (e.g. Finnish Pariisi -> pariisilainen). See e.g. North Sámi for how to use these flags. There exists a ready-made regex that will do the actual down-casing given the proper use of these flags.

| Flag | Explanation | — | —

LEXICON Root pointing to main parts of speech

Nomen ;
Verbum ;
oqr ; partikler og pronominer
ateq ; proprier (baade personer og steder)
Punctuation ;
Symbols ;
numeralier ;
Forkortelser ;
Akronymer ;
Pronomen ;

This (part of) documentation was generated from src/fst/morphology/root.lexc

src-fst-morphology-stems-nouns.lexc.md

Grønlandske nomener

Dokumentasjon for leksikonnavne:

Z = nomen
1 = svag bøjning, p-bøjning
2 = sterk bøjning, up-bøjning
P = plurale tantum
S = singularis
- = sterk bøjing som trunkerer (2-)
a, q, … = gemineringer ved konsonantiske flexiver
Z = nomen
morf = går til derivationsleksika
= går til flexivleksika
tpt = t trunkering + relativt kasus -p, -t = svag bøjning
tup = t trunkering + relativt kasus -up = sterk bøjning
K = Direkte til finale klitika
svage stammer, bøjninger: (+Rel+Sg: -p/ (+Rel+Pl/+Abs+Pl): -t)
konsonantstammer
Z1Zmorf svag bøjning, stamme finalkonsonant trunkeres Rel Sg -p Rel Pl -t
Z1iqZmorf svag bøjning, næstsidste vokal i, bare brugt på qimmeq
ZtiZmorf svag bøjning, ender på iti2 (i2=schwa), med assibilering af t-et: patsit, patsisit, patsimmik, patsisaavoq
tptmorf svag bøjning, t-stammer, ti2-stammer (i2=schwa), angut -> angutip, angummik
ZkkutZmorf svag bøjning, GIIT+Der/nn og KKUT+Der/nn -> plurale tantum
vokalstammer:
Z1VZmorf svag bøjning, vokalstammer
Z1eZmorf svag bøjning schwa stamme
Z1iZmorf svag bøjning i stamme
andre svage stammer, med trunkering + stammeintern konsonant geminering
SEQgemin svag bøjning, gemination: seq -> tsit, naraseq -> naratsit
SIKgemin svag bøjning, gemination: sik -> tsit, ikusik -> ikutsit
SUKgemin svag bøjning, gemination: suk -> tsut, pukusuk -> pukutsut
Z1_kaZmorf svag bøjning, gemination: gaq -> kkat, aalisagaq -> aalisakkat, iigaq -> iikkat
Z1_koZmorf svag bøjning, gemination: g -> kk, pugutoq -> putukkup
Z1_laZmorf svag bøjning, gemination: l -> ll, imeqqutaalaq -> imeqqutaallap
Z1_le_UdenPossessumZmorf l -> ll, kalaaleq -> kalaallit
Z1_loZmorf svag bøjning, gemination: l -> ll, uiloq -> uillut
Z1_maZmorf svag bøjning, gemination: m -> mm, imaq -> immat
Z1_meZmorf svag bøjning, gemination: m -> mm, ameq -> ammit
Z1_naZmorf svag bøjning, gemination: n -> nn, kiinaq -> kiinnat
Z1_ngaZmorf svag bøjning, gemination: nga -> nnga, sapangaq, sapanngat
Z1_niuZmorf svag bøjning, gemination: 0 -> ss, niu -> nissut
Z1_qaZmorf svag bøjning, gemination: qa -> qqa, pisoqaq -> pisoqqat
Z1_qaZmorf svag bøjning, gemination: r -> qq, ujarak -> ujaqqap
Z1_qaZmorf svag bøjning, gemination: raq -> qqat, meeraq -> meeqqat
Z1_qeZmorf svag bøjning, gemination: re -> qqit, atereq -> ateqqit
Z1_qoZmorf svag bøjning, gemination: q -> qq, niaqoq -> niaqqut
Z1_qoZmorf svag bøjning, gemination: r -> qq, amaroq -> amaqqut
Z1_ssZmorf svag bøjning, gemination: j -> ss, kanajoq -> kanassut
Z1_tZmorf svag bøjning, gemination: utaq -> uttat, nalunaaqutaq -> nalunaaquttat
Z1eqZmorf svag bøjning, gemination: l -> ll, taleq, tallit
Z1joqZmorf svag bøjning, gemination: j -> ts, tarajoq -> taratsut
Z1nujaqZmorf svag bøjning, gemination: j -> ts, nujaq -> nutsat
ZsaqZmorf svag bøjning, gemination: saq -> tsat, qarasaq -> qaratsat
stærke stammer, bøjninger: (+Rel+Sg: -up/ (+Rel+Pl/+Abs+Pl): -it)
Z2_qZmorf Nomen, q-stamme, stærk bøjning (-up/-it), truncativ v/+Rel+Sg avalleq -> avalliup/avalliit
Z2_Zmorf Nomen, primært k-stammer, stærk bøjning (-up/-it), truncativ v/+Rel+Sg mattak -> mattaap/mattaat
Z2_lZmorf Nomen, ender på +LIK+Der/nn, bøjes: ipulik -> ipuliup/ipullip/ipullup og ipullit
Z2_rZmorf Nomen, ender på -neq eller -meq, stærk bøjning (-up/-it) med metatese: seqineq -> seqernup, seqernit
Z2aqZmorf Nomen, ender på aq, stærk bøjning (-up/-it), hvor aq trunkeres: anorersuaq -> anorersuup/anorersuit
Z2i2Zmorf Nomen, ender på -i2q, stærk bøjning (-up/-it), hvor i2 slettes og der sker regressiv konsonant assimilation: tupeq - toqqip/toqqup, toqqit
Z2kZmorf Nomen, ender på -ik, stærk truncativ eller additiv bøjning (-up/-it), stammefinal k nasaleres v/additiv: mulik -> mulingup (muliup), mulingit (muliit)
Z2veqZmorf Nominet aaveq, stærk truncativ bøjning (-up/-it): aarfip, aarfup, aarrip, aarrup / aarfit, aarrit
Z2Zmorf Nomen, q-stamme, stærk bøjning (-up/-it), additiv v/+Rel+Sg erneq -> ernerup/ernerit
Z2_uukZmorf “katalog til nuuk+kuuk”
Z2_eqZmorf “Nyt leksikon til tup-2, magen til Z2_qZmorf, men har andre fleksioner til tulleq og qiterleq”

De mest almindelige nomenleksika:

10227 Z1Zmorf Nomen, svag bøjning (-p/-t), konsonantstammer, igaq -> igap/igat
2295 tptmorf Nomen, schwa stammer, svag bøjning (-p/-t), angut -> angutip/angutit
1675 Z2_Zmorf Nomen, primært k-stammer, stærk bøjning (-up/-it), truncativ v/+Rel+Sg mattak -> mattaap/mattaat
1446 Z2Zmorf Nomen, q-stamme, stærk bøjning (-up/-it), additiv v/+Rel+Sg erneq -> ernerup/ernerit
969 N_Loan Nomen, låneord, døgnip/døgnit
632 Z1VZmorf Nomen, svag bøjning (-p/-t), vokalstammer
429 Z1_kaZmorf Nomen, svag bøjning (-p/-t), gemination: gaq -> kkat, aalisagaq -> aalisakkat, iigaq -> iikkat
325 Krestr Enklitiske partikler
301 Z2_lZmorf Nomen, ender på +LIK+Der/nn, bøjes: ipulik -> ipuliup/ipullip/ipullup og ipullit
247 Z1_ssZmorf Nomen, svag bøjning (-p/-t), gemination: j -> ss, kanajoq -> kanassut
245 Z1_qaZmorf Nomen, svag bøjning (-p/-t), gemination: qa -> qqa, pisoqaq -> pisoqqat, r -> qq, ujarak -> ujaqqap, raq -> qqat, meeraq -> meeqqat
240 N_Loan_GEM Nomen, låneord, der gemineres: paragraffip/paragraffit
237 SEQgemin Nomen, svag bøjning (-p/-t), gemination: seq -> tsit, naraseq -> naratsip/naratsit
225 Z2aqZmorf Nomen, stamme der ender på aq, stærk bøjning (-up/-it), hvor aq trunkeres: anorersuaq -> anorersuup/anorersuit
193 Z2_qZmorf Nomen, q-stamme, stærk bøjning (-up/-it), truncativ v/+Rel+Sg avalleq -> avalliup/avalliit
164 Z1eZmorf Nomen, svag bøjning (-p/-t), schwa stamme hvor schwaet ikke er +Abs+Sg:0 anori (anori+N+Abs+Sg+3SgPoss: anoraa) anorip/anorit
133 Z1nnguaqZmorf Nomen, med suffikset +NNGUAQ+Der/nn: ininnguaq -> ininnguup/ininnguit

…

Leksikonet Nomen inneholder nomenstammerne.

xxx 20170522 til former, som ikke kan læses men som har brug for en analyse i cg’en. Pluralis og singularis-kataloger er ikke medtaget.

Retningslinjer for låneord

Grundformen af ordet er den samme som i lånsproget (uden i): emblem N_Loan_GEM ; (og ikke emblemi) Er der alternative ikke godkendte stavemåder i endelsen, tilføjes de i næste katalog (fx emblemmi) Er der alternative ikke godkendte stavemåder andetsteds, tilføjes de med +OLang/xxx+Err/Sub roman+OLang/DAN+Err/Sub:romaani Z1VZmorf ; Er der en godkendt form af låneordet, er det også en grundform, og den får ikke +OLang/xxx:

septembari Z1VZmorf ;
septembari+Orth/Arch:sivtimpari Z1VZmorf ;
september N_Loan ;
enheder sendes til specielt unit-låneordskatalog

* aaffaffak Z2_Zmorf ;              
* aaffaffak+N+Abs+Sg:aaffaffaq Krestr ; 
* aaffaq Z2_qZmorf ;                 
* ...

* * *

<small>This (part of) documentation was generated from [src/fst/morphology/stems/nouns.lexc](https://github.com/giellalt/lang-kal/blob/main/src/fst/morphology/stems/nouns.lexc)</small>

---

## src-fst-morphology-stems-propernouns.lexc.md 




xxx 20170522 til former, som ikke kan læses men som har brug for en analyse i cg'en..

* * *

<small>This (part of) documentation was generated from [src/fst/morphology/stems/propernouns.lexc](https://github.com/giellalt/lang-kal/blob/main/src/fst/morphology/stems/propernouns.lexc)</small>

---

## src-fst-morphology-stems-verbs.lexc.md 




xxx 20170524 til verbalstammer, som ikke kan læses men som har brug for en analyse i cg'en. Pluralis tantum-kataloger er ikke medtaget. ! er det nødvendigt også at medtage stammer fra derivationsleksika?

* * *

<small>This (part of) documentation was generated from [src/fst/morphology/stems/verbs.lexc](https://github.com/giellalt/lang-kal/blob/main/src/fst/morphology/stems/verbs.lexc)</small>

---

## src-fst-transcriptions-transcriptor-abbrevs2text.lexc.md 




We describe here how abbreviations are in Kalaallisut are read out, e.g.
for text-to-speech systems.

For example:

* s.:syntynyt # ;  
* os.:omaa% sukua # ;  
* v.:vuosi # ;  
* v.:vuonna # ;  
* esim.:esimerkki # ; 
* esim.:esimerkiksi # ; 

* * *

<small>This (part of) documentation was generated from [src/fst/transcriptions/transcriptor-abbrevs2text.lexc](https://github.com/giellalt/lang-kal/blob/main/src/fst/transcriptions/transcriptor-abbrevs2text.lexc)</small>

---

## src-fst-transcriptions-transcriptor-numbers-digit2text.lexc.md 




% komma% :,      Root ;
% tjuohkkis% :%. Root ;
% kolon% :%:     Root ;
% sárggis% :%-   Root ; 
% násti% :%*     Root ; 

* * *

<small>This (part of) documentation was generated from [src/fst/transcriptions/transcriptor-numbers-digit2text.lexc](https://github.com/giellalt/lang-kal/blob/main/src/fst/transcriptions/transcriptor-numbers-digit2text.lexc)</small>

---

## src-fst-transcriptions-transcriptor-symbols2text.lexc.md 




This file contains mappings from abbreviations and some acronyms to full
forms for text-to-speech purposes. This is a supplement to the analyser;
the analyser must tag the strings as +ABBR or similar for the transcriptions
to work. The resulting full form must be lemmas known to the analyser,
for further processing.

We describe here how abbreviations in Kalaallisut are read out,
for text-to-speech systems.

The file contains:

- miscellaneous symbols

- smileys

- Clause boundary symbols

- Single punctuation marks

- Paired punctuation marks

* * *

<small>This (part of) documentation was generated from [src/fst/transcriptions/transcriptor-symbols2text.lexc](https://github.com/giellalt/lang-kal/blob/main/src/fst/transcriptions/transcriptor-symbols2text.lexc)</small>

---

## tools-grammarcheckers-grammarchecker.cg3.md 




##      G R E E N L A N D I C   G R A M M A R   C H E C K E R

In the catalogue for kal, do: ./autogen.sh ./configure –enable-grammarchecker –enable-spellers make -j cd tools/grammarcheckers make dev Then test as follows: echo “e Nerisassiornermut soqutigisaqarpit?|sh modes/trace-kalgram.mode # from the terminal Or eventually, write make check

ADD:msyn-subj-rel-abs-poss

This (part of) documentation was generated from tools/grammarcheckers/grammarchecker.cg3

tools-grammarcheckers-liststemplates.cg3.md

This (part of) documentation was generated from tools/grammarcheckers/liststemplates.cg3

tools-tokenisers-tokeniser-disamb-gt-desc.pmscript.md

Tokeniser for kal

Usage:

$ make
$ echo "ja, ja" | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst
$ echo "Juos gorreválggain lea (dárbbašlaš) deavdit gáibádusa boasttu olmmoš, man mielde lahtuid." | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst
$ echo "(gáfe) 'ja' ja 3. ja? ц jaja ukjend \"ukjend\"" | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst
$ echo "márffibiillagáffe" | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst

Pmatch documentation: https://github.com/hfst/hfst/wiki/HfstPmatch

Characters which have analyses in the lexicon, but can appear without spaces before/after, that is, with no context conditions, and adjacent to words:

Punct contains ASCII punctuation marks
The symbol after m-dash is soft-hyphen U+00AD
The symbol following {•} is byte-order-mark / zero-width no-break space U+FEFF.

Whitespace contains ASCII white space and the List contains some unicode white space characters

En Quad U+2000 to Zero-Width Joiner U+200d’
Narrow No-Break Space U+202F
Medium Mathematical Space U+205F
Word joiner U+2060

Apart from what’s in our morphology, there are

unknown word-like forms, and
unmatched strings We want to give 1) a match, but let 2) be treated specially by hfst-tokenise -a Unknowns are made of:
- lower-case ASCII
- upper-case ASCII
- select extended latin symbols ASCII digits
- select symbols
- Combining diacritics as individual symbols,
- various symbols from Private area (probably Microsoft), so far:
- U+F0B7 for “x in box”

Unknown handling

Unknowns are tagged ?? and treated specially with hfst-tokenise hfst-tokenise –giella-cg will treat such empty analyses as unknowns, and remove empty analyses from other readings. Empty readings are also legal in CG, they get a default baseform equal to the wordform, but no tag to check, so it’s safer to let hfst-tokenise handle them.

Finally we mark as a token any sequence making up a:

known word in context
unknown (OOV) token in context
sequence of word and punctuation
URL in context

This (part of) documentation was generated from tools/tokenisers/tokeniser-disamb-gt-desc.pmscript

tools-tokenisers-tokeniser-gramcheck-gt-desc.pmscript.md

Grammar checker tokenisation for kal

Requires a recent version of HFST (3.10.0 / git revision>=3aecdbc) Then just:

$ make
$ echo "ja, ja" | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst

More usage examples:

$ echo "Juos gorreválggain lea (dárbbašlaš) deavdit gáibádusa boasttu olmmoš, man mielde lahtuid." | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst
$ echo "(gáfe) 'ja' ja 3. ja? ц jaja ukjend \"ukjend\"" | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst
$ echo "márffibiillagáffe" | hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst

Pmatch documentation: https://github.com/hfst/hfst/wiki/HfstPmatch

Characters which have analyses in the lexicon, but can appear without spaces before/after, that is, with no context conditions, and adjacent to words:

Punct contains ASCII punctuation marks
The symbol after m-dash is soft-hyphen U+00AD
The symbol following {•} is byte-order-mark / zero-width no-break space U+FEFF.

Whitespace contains ASCII white space and the List contains some unicode white space characters

En Quad U+2000 to Zero-Width Joiner U+200d’
Narrow No-Break Space U+202F
Medium Mathematical Space U+205F
Word joiner U+2060

Apart from what’s in our morphology, there are 1) unknown word-like forms, and 2) unmatched strings We want to give 1) a match, but let 2) be treated specially by hfst-tokenise -a

select extended latin symbols
select symbols
various symbols from Private area (probably Microsoft), so far:
U+F0B7 for “x in box”

TODO: Could use something like this, but built-in’s don’t include šžđčŋ:

Simply give an empty reading when something is unknown: hfst-tokenise –giella-cg will treat such empty analyses as unknowns, and remove empty analyses from other readings. Empty readings are also legal in CG, they get a default baseform equal to the wordform, but no tag to check, so it’s safer to let hfst-tokenise handle them.

Finally we mark as a token any sequence making up a:

known word in context
unknown (OOV) token in context
sequence of word and punctuation
URL in context

This (part of) documentation was generated from tools/tokenisers/tokeniser-gramcheck-gt-desc.pmscript

tools-tokenisers-tokeniser-tts-cggt-desc.pmscript.md

TTS tokenisation for smj

Requires a recent version of HFST (3.10.0 / git revision>=3aecdbc) Then just:

make
echo "ja, ja" \
| hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst

More usage examples:

echo "Juos gorreválggain lea (dárbbašlaš) deavdit gáibádusa \
boasttu olmmoš, man mielde lahtuid." \
| hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst
echo "(gáfe) 'ja' ja 3. ja? ц jaja ukjend \"ukjend\"" \
| hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst
echo "márffibiillagáffe" \
| hfst-tokenise --giella-cg tokeniser-disamb-gt-desc.pmhfst

Pmatch documentation: https://kitwiki.csc.fi/twiki/bin/view/KitWiki/HfstPmatch

Characters which have analyses in the lexicon, but can appear without spaces before/after, that is, with no context conditions, and adjacent to words:

Punct contains ASCII punctuation marks
The symbol after m-dash is soft-hyphen U+00AD
The symbol following {•} is byte-order-mark / zero-width no-break space U+FEFF.

Whitespace contains ASCII white space and the List contains some unicode white space characters

En Quad U+2000 to Zero-Width Joiner U+200d’
Narrow No-Break Space U+202F
Medium Mathematical Space U+205F
Word joiner U+2060

Apart from what’s in our morphology, there are 1) unknown word-like forms, and 2) unmatched strings We want to give 1) a match, but let 2) be treated specially by hfst-tokenise -a

select extended latin symbols
select symbols
various symbols from Private area (probably Microsoft), so far:
U+F0B7 for “x in box”

TODO: Could use something like this, but built-in’s don’t include šžđčŋ:

Needs hfst-tokenise to output things differently depending on the tag they get

This (part of) documentation was generated from tools/tokenisers/tokeniser-tts-cggt-desc.pmscript

Last updated: May 7, 2021

Kalaallisut language model documentation

src-cg3-dependency.cg3.md

West Greenlandic Dependency Parser

src-cg3-disambiguator.cg3.md

W E S T G R E E N L A N D I C D I S A M B I G U A T O R

Delimiters, tags and sets

Tags and sets

Positions and household

Parts of speech with tags declared as single-membered LISTs

Grammar tags

Orthographic error tags

Heur Prop case tags

Heur der tags for iCase to block Abs Pl Heur/Prop analysis

Heur Verb tags to block Abs Sg Heur/Prop analysis

Heur GL final

Heur FOREIGN final prop

Heur FOREIGN initial prop

Heur scan err

Heur Excl tags to block Abs Sg Heur/Prop analysis

Grammatical tags

#Diverse tags defineret i kal-pre2 (dog et par hybrider her i disambiguator)

Derivatives

Sets

Alle ordklasser

Verb

Nominer

Kombinationer af verber og nominer

Lexical sets

Verbernes leksikalske klasser

Semantic tags

Regelsektion

BEFORE-SECTIONS

Disambiguere morfemkombinationer

src-cg3-functions.cg3.md

Regelsektion

src-fst-morphology-affixes-derivations-inflections.lexc.md

Fil for at generere de centrale morfologiske processer i vor grønlandske analysator

src-fst-morphology-affixes-noun_to_noun.lexc.md

src-fst-morphology-affixes-numerals.lexc.md

Arabiske numeralier

Inflection and derivation.

**+Err/Sub+Num+Lok+Pl+3PlPoss:%>iini LokVb ; **

src-fst-morphology-affixes-propernouns.lexc.md

src-fst-morphology-affixes-symbols.lexc.md

Symbol affixes

src-fst-morphology-phonology.xfscript.md

Fil for at generere de morfofonologiske reglerne til

vor grønlandske analysator

src-fst-morphology-root.lexc.md

Greenlandic morphological analyser

Multicharacter symbols

Alphabets

Tags for POS (primary tags)

Main Word Classes

Secondary tags

Tags for Verbs

Tags for Pronouns

Tags for Other Word Classes

Semantics

Semantics Nouns

Semantics Verbs

Grammar

Derivation

Dialect

Tags to mark loan word entries with a diverting orthography

Orthograhy

Usage/error

Tags for Inflection

Numerus

Kasus

Særlige 3./4. persons kasus med DivPron (Gram/Cong)

Modus

Verb person-numerus

Possesive tags - Possessormarkering i possessum

Flag diacritics for Greenlandic

List of the so-called Greenlandic tilhæng, i.e., derivational affixes

Grænsesymbol

Symbols that need to be escaped on the lower side (towards twolc)

Vore morfofonemer

Vore magiske symboler

+Err/Sub+Num+Lok+Pl+3PlPoss:%>iini LokVb ;