Error markup for KAL - Greenlandic
We want to extend (some of) the corpus files with markup for spelling
and other errors, to use them as gold standards for testing our spellers
(and in the future other tools as well). The markup is done manually,
and needs to follow certain rules.
- Ordklasse (ikke obligatorisk)::
loan | prop | pron | num | acro | abbr
(dette fordi nogle typer ord har mere fejlskrivning end andre typer)
- Specielle forhold ved ordet (ikke obligatorisk):
infl | der | cmp
- infl: fejlen er tilknyttet bøjningen i ordet
- plurtant: pluralis tantum
- 0-suff: manglende suffiks
- poss: fejlen ligger i possessormarkeringen
- der: derivationsfejl, fx manglende derivativ (tilhæng) eller
fejl ved affingering
- foc: fejlen er tilknyttet enklitisering
- cmp: sammensætningsfejl
- Fejltyper - eksempler:
phon | orto | punct | ord | dial | hypcorr | typo
Note: Når der i opmærkningen står en bindestreg med mindst et
bogstav på hver side, eks. a-i: Venstre side af bindestregen angiver
aktuelle forhold i ordet, medens højre side angiver rettelsen.
- phon: fejlen er tilknyttet fonetik/fonologi.
- {atoraai}${phon,ai|atorai}
- {ingerlarnga}${phon,rng-rn|ingerlarna}
- {erngup}${phon,rng-rm|ermup}
- orto: fejlen er tilknyttet retskrivningens konventioner.
Herunder old = gammel retskrivning; og glides = halvvokaler
- {Arkaluk}${prop,orto,old,rk-qq|Aqqaluk}
- {allanngujuitsuviit}${orto,glides|allanngujuitsuiit}
- punct: fejlen er tilknyttet interpunktion
- {Pisunili.}${punct,dot-0|Pisunili}
- ord: fejlen er tilknyttet ordenstal
- {14-anut}${num,ord,0-dot|14.-anut}
- dial: dialektal fejl.
- {aninguissaqqaartoq}${dial,g,ng-g|aniguissaqqaartoq}
- {Erseqqissaatigissuara}${dial,ssa|Erseqqissaatigissavara}
- {Paasiuminaattut}${dial,tt-ts|Paasiuminaatsut}
- {igalaavinnaat}${dial,v-g|igalaaginnaat}
- {oqaaseqatigiileeriaasiisa}${dial,i-dial|oqaaseqatigiilioriaasiisa}
- {aaqqissuusaanngitsumik}${dial,con,s,1-2|aaqqissuussaanngitsumik}
- {S-O-V-uginnarani}${dial,phon,i-dial|S-O-V-uinnarani}
- {oqaluinnarniutaagani}${infl,dial,ga-na|oqaluinnarniutaanani}
- {Ass.36:”Neriartoqusingami}${der,dial,qu-qqu;dial,ng-g;cmp,1-3|Ass.
36: “Neriartoqqusigami}
- sub: substandard, afviger fra det standardiserede sprog.
- {Akileraartigani}${sub,infl,ga-nna|Akileraartinnani}
- {Namminersornerulernitsinniik}${infl,sub|Namminersornerulernitsinniit}
- {akissuteqapalluttarneri}${sub,u-a|akissuteqapallattarneri}
- hypcorr: hyperkorrektion
- {inornartigaaramiuk}${dial,hypcorr,g-ng|inornartingaaramiuk}
- {atoraangasigik}${hypcorr,s-t|atoraangatigik}
- sandhi: affingeringsfejl
- {Tulluutissorinassanngikkaluarpoq}${der,sandhi,ti-0|Tulluussorinassanngikkaluarpoq}
- metathesis: ombytning
- {Uunnammarmiullu}${typo,metathesis,nn-mm|Uummannarmiullu}
- {uupakaatiillugu}${phon,con,metathesis|uukapaatiillugu}
- min-cap: skrevet lille begyndelsesbogstav, skal være stort
begyndelsesbogstav
- {nuummi}${prop,min-cap|Nuummi}
- typo: tastefejl
- {akissutissarsisineqarsinnaapput}${typo,der,si-0|akissutissarsineqarsinnaapput}
- {atorneqrtut}${typo,0-a|atorneqartut}
- {Pallullorni}${typo,llullor-llorlu|Pallorluni}
- Flere fejl i samme ord holdes adskilt med ( ; ), eks.:
- {Ass.36:”Neriartoqusingami}${der,dial,qu-qqu;dial,ng-g;cmp,1-3|Ass.
36: “Neriartoqqusigami}
By following these guidelines the resulting files should be readily
usable for (speller) testing, as soon as they are converted to xml.