GiellaLT provides rule-based language technology aimed at minority and indigenous languages
Dette dokumentet drøfter mål og prinsipp for ordboksarbeidet og gir eksempel på hvordan de skal merkes i praksis. Eksempla er fra nordsamisk (sme) og sørsamisk (sma)
Sitat fra møte 23.8.11:
analyser-dict-gt-desc.hfstol
, og genereres med
generator-dict-gt-norm.hfstol
Entryene er delt inn i filer etter POS. Det nøyaktige settet av filer varierer fra språk til språk, skriptet som genererer ordbøkene generaliserer over dette og tar med alle filer i katalogen LANG1LANG2/src/*LANG1LANG2.xml
, dvs. alle filnamn som slutter på LANG1LANG2.xml.
<e>
nivå i xmlEnkelte entryer i ordbøkene er merket med kildehenvisning, f.eks. src="nj"
(fra Jernsletten), src="sk"
(Statens Kartverk), src="gt"
(Giellatekno), src="fad"
(Fra forvaltningsordbokprosjektet). Default er src="gt"
. Dokumentasjon for kildetaggene er, eller i alle fall bør være, dokumentert i den relevante dtd-fila eller på dokumentasjonssida for ordboka. Noen av entrynodane er også merka med usage
, denne merkinga kan være utdatert.
<mg>
i xmlMan skiller mellom synonymer og meningsgrupper. Synonymer har samme <mg>
(meaning group / meningsgruppe) og samme <tg>
(translation group / oversettelsesgruppe). Hvis en entry har flere betydninger, så skilles disse som forskjellige <mg>
.
<e src="nj" usage="vd">
<lg>
<l pos="N">sudja</l>
<lc>sujat</lc>
</lg>
<mg>
<tg>
<t pos="N">årsak</t>
<t pos="N">grunn</t>
</tg>
</mg>
<mg>
<tg>
<t pos="N">skyld</t>
</tg>
</mg>
</e>
<tg>
i xmlElementet <mg>
inneholder en eller flere <tg>
(oversettelsesgruppe eller translation group) som igjen kan inneholde:
<t>
- et ord
<e usage="vd">
<lg>
<l pos="N">ristoabbá</l>
</lg>
<mg>
<tg>
<t pos="N">gudsøster</t>
</tg>
</mg>
</e>
<t>
- en frase
<e usage="vd">
<lg>
<l pos="N">áššu</l>
</lg>
<mg>
<tg>
<t dict="yes" pos="N">glødende vedstykke</t>
</tg>
</mg>
</e>
<te>
- en forklaring. En forklaring er en setning som forklarer betydningen av et ord, men som ikke kan brukes i for eksempel en oversettelse. Denne brukes KUN hvis <t>
ikke kan brukes.
<e usage="vd">
<lg>
<l pos="N">boaššobealle</l>
</lg>
<mg>
<tg>
<te>den side som vender mot boaššu, det vil si den innerste delen av telt, gamme eller hus</te>
</tg>
</mg>
<re>
(restriksjon) i xml<re>
gir restriksjon for oversettelsen. Oversettelsen vest har restriksjonen om klesplagg, dvs at oversettelsen gjelder klesplagg, og ikke himmelretning. <mg>
<tg>
<re>om klesplagg</re>
<t pos="N">vest</t>
</tg>
</mg>
<re>
kan også brukes for å markere kasusbetydning, f.ek.s bevegelse til.<style>
i xml (ikke implementert)F.eks. litterær, uhøflig etc.
pg="no"
i xml (gjelder bare VD)I filer som skal blir generert pga POS-merkinga (N, V, A, Num), skal lemmaer som likevel ikke skal genereres, eller som bare har en form, merkes med attributten pg="no"
.
vmax=""
til <l>
: <lg>
<l pos="g3" vmax="2">tunealla</l>
</lg>
lsub
i xml (gjelder bare VD)Elementet lsub
legges til i <lg>
for vanlige ikke-normative skrivemåter.
Hvis forskjellen i skrivemåte bare er f.eks. a vs. á, kan dette løses med regulære uttrykk. Hvis
det skal genereres paradigme for ikke-normativ skrivemåte, må lemmaet være i
fst. Vi skal ikke presentere miniparadigme for lsub
. Det må gjøres klart for
brukeren at dette er en ikke-normativ skrivemåte.
<e usage="vd">
<lg>
<l pos="N">balloŋŋa</l>
<lsub extrapage="yes" pos="N">balluvdna</lsub>
<!!-- extrapage="yes" er default -->
<!!-- the extrapage attribute is now obsolete when v1,v2 is implemented:-->
<!!-- 1. lsub is alway extrapage="no" (no need of the extrapage attribute anymore)-->
<!!-- 2. in the pair v1-v2, one lemma is the entry in the dict and the other is generated automatically, "lsub with extrapage="yes" so to say -->
</lg>
<mg>
<tg>
<t pos="N">ballong</t>
</tg>
</mg>
</e>
<lg>
<l pos="N">kantuvra</l>
<lsub extrapage="no" pos="N">kántuvra</lsub>
</lg>
l_ref
i xml (gjelder bare VD)Elementet l_ref legges til i
<lg>
<l pos="N">giehtagiella</l>
<l_ref>seavagiella_n</l_ref>
</lg>
l_ref
: <lg>
<l pos="cc">dahje</l>
<l_ref>vai_cc</l_ref>
</lg>
og
<lg>
<l pos="cc">vai</l>
<l_ref>dahje_cc</l_ref>
</lg>
Initialt i <mg>
:
<syn lemmaID="buohccebiila" />
→ vise til eit synonym<ant lemmaID="">
↛ vise til eit antonym<hyponym>
↓ vise til eit meir spesifikt ord<hypernym>
↑ vise til eit meir overordna ord<obs>
vær obs på dette (bajimussii -> bajimusas) !!Man kan legge inn kildetilvisning som attributt for <x>
og <xt>
, f.eks. hvis ordet ikke er vanlig i bruk:
<x src="S.B. Johansen 2010: Sárá beaivegirji s. 21">... dakkár ilgadis
olmmošlágan filbmasivdnádus, mii lea eambbo robohtalágan go olbmolágan.</x>
Noen av filene er statiske og noen blir det generert paradigmer av. Det er filer for pronomener med innskrevne paradigmer, og disse filenes navn avgjør at innholdet ikke blir generert.
I de andre filene er det POS-merkinga som avgjør om det blir generert paradigme
eller ikke. Lemmaer som ikke skal genereres, eller som bare har en form, merkes
med pg="no"
.
Alle entryene må være leksikalisert i norm-fst. Hvis ikke, vil de ikke bli generert. F.eks. så vil en entry med grunnform i plural, ikke bli generert hvis grunnformen er i singular i norm-fst. Men man kan ha både sg og pl innføringer i norm-fst for det samme lemmaet hvis det har en annen oversettelse i plural enn i singular.
Det må ikke være noen homonyme entryer (lemma + POS + type + subtype + … annen attributer)!!
For å unngå at dict-fila blir for stor, kan man vurdere hvilke bøyningsformer
som skal genereres, f.eks. px eller ikke. Dette gjøres i
testing/xcodes.txt
-filene.
sme-filer for generering:
nounActor_smenob.xml
nounCommon_smenob.xml
nounG3_smenob.xml
nounProper_smenob.xml
nounRevProper_smenob.xml
nounProperPl_smenob.xml
adjective_smenob.xml
verb_smenob.xml
pronIndef_smenob.xml
num_smenob.xml
sma-filer for generering:
a_smanob.xml
n_smanob.xml
v_smanob.xml
num_smanob.xml
pronIndef_smanob.xml
prop_smanob.xml
propPl_smanob.xml
Her kan man velge hvilket grunnord de bøyde formene peker til. F.eks. når det gjelder refleksive pronomener i sme, har vi valgt å peke til akk/gen-formen som grunnform (alccesan peker til iežan).
I entryene for de flekterte formene, blir det en entry for hver sideform.
Det må ikke være noen homonyme entryer (lemma + POS) innafor eller på tvers av filene. Dette kan unngås med å oppgi type (f.eks. ‘dem’) og sg/pl, f.eks.
<l pos="pron" type="dem" nr="sg">dat</l> vs
<l pos="pron" type="dem" nr="pl">dat</l> og
<l pos="pron" type="pers" nr="sg">dat</l>
Dette må også tas hensyn til i lemma_ref
, f.eks.
<lemma_ref lemmaID="dat_pron_pers_pl">dat</lemma_ref>
sme-filer med innskrevne paradigmer:
adjstatpar_smenob.xml
div_statisk_smenob.xml
verbNeg_smenob.xml
verbCop_smenob.xml
verbSupNeg_smenob.xml
pronDem_smenob.xml
pronPers_smenob.xml
pronRec_smenob.xml
pronRefl_smenob.xml
pronRel_smenob.xml
sma-filer med innskrevne paradigmer:
misc_stat_smanob.xml
pronPers_stat_smanob.xml
pronRec_stat_smanob.xml
pronRefl_stat_smanob.xml
pronRel_stat_smanob.xml
vCop_stat_smanob.xml
vNeg_stat_smanob.xml
I disse filene genereres ikke lemmaene, og de behøver heller ikke være i norm-fst.
sme-filer:
adverb_smenob.xml
mwe_smenob.xml
other_stat_smenob.xml
sma-filer:
adv_smanob.xml
i_smanob.xml
multiword_smanob.xml
pcle_smanob.xml
po_smanob.xml
pr_smanob.xml
Miniparadigmene i leksikonoppslaget er hjelp for brukeren. De vil variere fra POS til POS. Man velger former som gir nyttig informasjon til brukeren om hele paradigmet.
Ved å legge til +Use/NGminip
i lexc, kan man velge bort en del bøyningsformer når man ikke vil presentere alle i miniparadigmet. Dette er f.eks. aktuelt for nordsamiske adjektiver.
Substantiv kan få attributten illpl=”no” hvis den ikke er så høvelig å presentere i flertall, f.eks. bargguhisvuohta. For sme utelates allegroformen for Sg Gen, som er merka med Allegro-tag: viesu viessu+N+Sg+Gen versus vieso viessu+N+Sg+Gen+Allegro .
Bøyning | Eksempel |
---|---|
viessu | |
Sg+Gen | viesu (ikke Allegro) |
Sg+Ill | vissui |
Pl+Ill | viesuide (ikke hvis illpl=”no” ) |
Hvis det er flere <mg>
, brukes <t>
fra den første <mg>
som oversetting i miniparadigmet
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Norga | Norge |
Sg+Gen | X bokte | Norgga bokte | via Norge |
Sg+Ill | - | Norgii | til Norge |
Sg+Loc | - | Norggas | i/fra Norge |
Hvis det er flere mg, brukes <t>
fra den første mg som oversetting i miniparadigmet
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Iččát | Ingøy |
Pl+Gen | X bokte | Iččáid bokte | via Ingøy |
Pl+Ill | - | Iččáide | til Ingøy |
Pl+Loc | - | Iččáin | i/fra Ingøy |
Hvis det er flere <mg>
, brukes <t>
fra den første <mg>
som oversetting i miniparadigmet
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Nöörje | Norge |
Sg+Gen | X baaktoe | Nöörjen baaktoe | via Norge |
Sg+Ill | - | Nöörjese | til Norge |
Sg+Ine | - | Nöörjesne | i/på Norge |
Sg+Ela | - | Nöörjeste | fra Norge |
Hvis det er flere <mg>
, brukes <t>
fra den første <mg>
som oversetting i miniparadigmet
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Bealjehkh | Sylan |
Pl+Gen | X baaktoe | Bealjehki baaktoe | via Sylan |
Pl+Ill | - | Bealjehkidie | til Sylan |
Pl+Ine | - | Bealjehkinie | i/på Sylan |
Pl+Ela | - | Bealjehkijstie | fra Sylan |
For verb har vi lagt til kontekst til bøyningsformene. Det er merket i leksikonet hvilken type kontekst som skal brukes, f.eks. context:"mun"
Bøyning | Kontekst | Eksempel |
---|---|---|
context:”mun” | boahtit | |
Ind+Prs+Sg1 | (odne mun) X | (odne mun) boađán |
Ind+Prt+Sg1 | (ikte mun) X | (ikte mun) bohten |
Ind+Prs+ConNeg | (in) X | (in) boađe |
For verb som det ikke er naturlig med menneskelig subjekt for:
Bøyning | Kontekst | Eksempel |
---|---|---|
- | context:”dat” | ciellat |
Ind+Prs+Pl3 | (Plural) X | (Plural) cillet |
Ind+Prt+Sg3 | (ikte dat) X | (ikte dat) cielai |
Ind+Prs+ConNeg | (ii) X | (ii) ciela |
For verb som bare brukes i Sg3 (vær-verb):
Bøyning | Kontekst | Eksempel |
---|---|---|
- | context:”upers” | bieggat |
Ind+Prs+Sg3 | (odne) X | (odne) bieggá |
Ind+Prt+Sg3 | (ikte) X | (ikte) biekkai |
Ind+Prs+ConNeg | (ii) X | (ii) biekka |
For resiproke verb :
Bøyning | Kontekst | Eksempel |
---|---|---|
- | context:”sii” | deaivvadit |
Ind+Prs+Pl3 | (odne sii) X | (odne sii) deaivvadit |
Ind+Prt+Pl3 | (ikte sii) X | (ikte sii) deaivvadedje |
Ind+Prs+ConNeg | (eai) X | (eai) deaivvat |
Bøyning | Kontekst | Eksempel |
---|---|---|
Inf | - | båetedh |
Ind+Prs+Sg1 | (daan biejjien manne) X | (daan biejjien manne) båatam |
Ind+Prs+Sg3 | (daan biejjien dïhte) X | (daan biejjien dïhte) båata |
Ind+Prs+Pl3 | (daan biejjien dat) X | (daan biejjien dat) båetieh |
Ind+Prt+Sg1 | (jååktan manne) X | (jååktan manne) böötim båetiejim |
Ind+Prs+ConNeg | (ij) X | (ij) båetieh |
PrfPrc | (lea) X | (lea) båateme |
Ger | (lea) X | (lea) båetieminie |
VGen | X | båetien |
Ved å legge til +Use/NGminip
i fst, kan man velge bort en del bøyningsformer når man ikke vil presentere alle i miniparadigmet. Dette er ikke minst aktuelt for adjektiver.
Bøyning | Uten +Use/NGminip | Med +Use/NGminip |
---|---|---|
A+Sg+Nom | heittot | heittot |
A+Attr | heittogis heittohis (bivttas) | heittogis (bivttas) |
A+Pl+Nom | heittogat heittohat | heittogat |
A+Comp+Attr | heittogit heittogut heittoget heittogat heittohit heittohut heittohet heittohat | heittoget heittogat |
A+Comp+Sg+Nom | heittogit heittogut heittoget heittogeabbo heittogat heittogabbo heittohit heittohut heittohet heittoheabbo heittohat heittohabbo | heittogeabbo heittogabbo |
A+Superl+Sg+Nom | heittogeamos heittogamos heittoheamos heittohamos | heittogeamos heittogamos |
For adjektiver har vi lagt til kontekst til attributtformen bare for sme. Det er merket i leksikonet hvilken kontekst som skal brukes, f.eks. context:"olmmoš"
. Hvis context=""
, så vil det ikke bli oppgitt attributtform.
Bøyning | Kontekst bare for sme | Eksempel |
---|---|---|
- | context:”báddi” | guhkki |
A+Attr | X (báddi) | guhkes (báddi) |
A+Pl+Nom | - | guhkit |
A+Comp+Attr | - | guhkit |
A+Comp+Sg+Nom | - | guhkit |
A+Superl+Sg+Nom | - | guhkimus |
For numeraler har vi lagt til kontekst til pl
bare for sme. Alle har den samme konteksten:
Bøyning | Kontekst bare for sme | Eksempel |
---|---|---|
- | context:”gápmagat” | guokte |
Num+Pl+Nom | X (gápmagat) | guovttit (gápmagat) |
Num+Pl+Gen | X (gápmagiid) | guvttiid (gápmagiid) |
(samme miniparadigme som for substantiver)
Bøyning | Eksempel |
---|---|
- | muhtun |
Sg+Gen | muhtuma |
Sg+Ill | muhtumii |
Pl+Ill | muhtumiidda |
Dette er mest for VD, men kan også brukes for NDS.
Pron Pers, Refl, Rec, Rel og Dem . Vi skriver paradigmet inn i filen:
Singular for seg:
Sg+Akk
Sg+Gen
Sg+Ill
Sg+Loc
Sg+Com
Ess
Plural for seg:
Pl+Akk
Pl+Gen
Pl+Ill
Pl+Loc
Pl+Com
Ess
Sg1
Sg2
Sg3
Du1
Du2
Du3
Pl1
Pl2
Pl3
Det må ikke være noen homonyme entryer (lemma + POS) innafor eller på tvers av filene (dette gjelder bare VD). Vær OBS på at det kan være homonymi med lemmaer i norm-fst, uten at begge er med i dict. For å få generert riktig bøyningsparadigme til dict-entryen, må de behandles på samme måte, selv om bare det ene lemmaer er med i dict.
<l>
elementet får attributten hid="Hom1"
eller hid="Hom2"
. Lemmaene er merka tilsvarende i norm-fst.
Nom | Gen | norsk | norm-fst-analyse |
---|---|---|---|
lohkki | lohki | lokk | lohkki+N+Sg+Nom |
lohkki | lohkki | lesar | lohkki+N+NomAg+Sg+Nom |
Her må den ene merkes med tag (actor) i genereringa fra norm-fst. Med denne tagen kan de unngår man homonymi i dict. I xml-filene:
1.
<e src="nj" usage="vd">
<lg>
<l pos="N">lohkki</l>
</lg>
<mg>
<tg>
<t pos="N">lokk</t>
2.
<e src="nj" usage="vd">
<lg>
<l pos="N" type="NomAg">lohkki</l>
</lg>
<mg>
<tg>
<t pos="N">leser</t>
En annen systematisk homonymi:
Nom | Gen | norsk | norm-fst-analyse |
---|---|---|---|
beassi | beasi | reir | beassi+N+Sg+Nom |
beassi | beassi | never | beassi+N+G3+Sg+Nom |
Vi har følgende tagger for substantiver:
tagger | fil |
---|---|
N+NomAg | - |
N | - |
N+G3 | - |
N+G7 | - |
N+Prop | - |