GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

kmd-møte 10.3.15.

Kevin, Sandra, Trond.

Saker

Status

sme2smj-lemmaX.fst er ferdig og produserer kandidatlister i nobsmjsme Vi har kandidatlister nob-smj-sme

Der:

No er det slik:

videreføre      joarkket        fievrridit      241     0       160     14
+videreføre      joarkket        joatkašuvvat    241     0       31      14
videreføre      joarkket        joatkit 241     0       448     14
=videreføre      joarkket

Det vil vere lettare med:

videreføre joarkket joatkit/fievrridit/joatkašuvvat 241 0 448 14

Men likevel:

innskrenkning   gártjedibme     gáržžádus       11      0       3       0
innskrenkning   gártjodus       gáržžádus       11      0       3       0

Her skal vi framleis ha:

bindeledd       Aktisasjvuohtaladás     oktavuođalađas  6       0       0       0
kontaktledd     Aktisasjvuohtaladás     oktavuođalađas  0       0       0       0

og ikkje slå saman til:

kontaktledd/bindeledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0

Dei som er noana er av to typar, den eine er der pga fleirordsuttrykk:

Euruhpárádde    Euruhpárádde    +? = ekte
Finnmárkku báhppa       Finnmárkku báhppa       +? = toords-uttrykk

Den siste typen kan vi fjerne, og analysere som separate ord. Ei anna sak er at desse fleirordsuttrykka sannsynlegvis ikkje er oppslagsord i seg sjølv ==> vi kan vente med dei.

Filforklaring:

Markeringsmetode:

Utgangspunkt (korrekt er kirkeliv = girkkoiellem)

Kandidat i decomp:

kirkeliv girkkoielle girkoeallin

Resultat etter manuell gjennomgang: enten a eller b:

viss a, fjern første kirkeliv-instans, viss b, fjern alle kirkeliv-instansar, i resten av filene:

~$cat ../unhammer/freecorpus/evttohus/out/nobsmjsme/*_ana|grep kirkeliv
kirkeliv        girkkoielle        girkoeallin        33        0        17        5
kirkeliv        girkkoiellem        girkoeallin        33        0        17        13
kirkeliv        girkkoiellem        girkoeallin        33        0        17        13
kirkeliv        girkkoiellet        girkoeallin        33        0        17        13
kirkeliv        girkkoielle        girkoeallin        33        0        17        5
kirkeliv        girkkohægga        girkoeallin        33        0        17        0
kirkeliv        girkkoviesso        girkoeallin        33        0        17        0
kirkeliv        girkkoviessom        girkoeallin        33        0        17        0
kirkeliv        girkkoviessot        girkoeallin        33        0        17        0
kirkeliv        girkkovájmmo        girkoeallin        33        0        17        0
kirkeliv        girkkoæládus        girkoeallin        33        0        17        0
kirkeliv        girkkoiellet        girkoeallin        33        0        17        13
kirkeliv        girkkoielle        girkoeallin        33        0        17        5

Framover

Kva:

@ foran former som ikkje er ok (måte: merk unntaka)
* foran former du skal sjå på seinare
+ for ok (viss det er ei fil kor det meste er ikke-ok)

Lage filer for manuell gjennomgang

Gå gjennom filene i denne rekkjefølgja:

Lagring, svn

Lagre filene her: main/words/dicts/nobsmj/inc

Skriv ei readme-fil der rekkjefølgja går fram

Anna mens eg har det i hovudet

Rettskrivingsendring ijja→iddja:

Skript dette (Sandra sender Kevin ei liste).

sma

Som for smj, men filtrere mot eksisterande.