GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

kmd-møte 10.3.15.

Kevin, Sandra, Trond.

Saker

Status

sme2smj-lemmaX.fst er ferdig og produserer kandidatlister i nobsmjsme Vi har kandidatlister nob-smj-sme

Der:

No er det slik:

videreføre      joarkket        fievrridit      241     0       160     14
+videreføre      joarkket        joatkašuvvat    241     0       31      14
videreføre      joarkket        joatkit 241     0       448     14
=videreføre      joarkket

Det vil vere lettare med:

videreføre joarkket joatkit/fievrridit/joatkašuvvat 241 0 448 14

Men likevel:

innskrenkning   gártjedibme     gáržžádus       11      0       3       0
innskrenkning   gártjodus       gáržžádus       11      0       3       0

Her skal vi framleis ha:

bindeledd       Aktisasjvuohtaladás     oktavuođalađas  6       0       0       0
kontaktledd     Aktisasjvuohtaladás     oktavuođalađas  0       0       0       0

og ikkje slå saman til:

kontaktledd/bindeledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0

Dei som er noana er av to typar, den eine er der pga fleirordsuttrykk:

Euruhpárádde    Euruhpárádde    +? = ekte
Finnmárkku báhppa       Finnmárkku báhppa       +? = toords-uttrykk

Den siste typen kan vi fjerne, og analysere som separate ord. Ei anna sak er at desse fleirordsuttrykka sannsynlegvis ikkje er oppslagsord i seg sjølv ==> vi kan vente med dei.

Filforklaring:

Markeringsmetode:

Utgangspunkt (korrekt er kirkeliv = girkkoiellem)

Kandidat i decomp:

kirkeliv girkkoielle girkoeallin

Resultat etter manuell gjennomgang: enten a eller b:

viss a, fjern første kirkeliv-instans, viss b, fjern alle kirkeliv-instansar, i resten av filene:

~$cat ../unhammer/freecorpus/evttohus/out/nobsmjsme/*_ana|grep kirkeliv
kirkeliv        girkkoielle        girkoeallin        33        0        17        5
kirkeliv        girkkoiellem        girkoeallin        33        0        17        13 
kirkeliv        girkkoiellem        girkoeallin        33        0        17        13
kirkeliv        girkkoiellet        girkoeallin        33        0        17        13
kirkeliv        girkkoielle        girkoeallin        33        0        17        5
kirkeliv        girkkohægga        girkoeallin        33        0        17        0
kirkeliv        girkkoviesso        girkoeallin        33        0        17        0
kirkeliv        girkkoviessom        girkoeallin        33        0        17        0
kirkeliv        girkkoviessot        girkoeallin        33        0        17        0
kirkeliv        girkkovájmmo        girkoeallin        33        0        17        0
kirkeliv        girkkoæládus        girkoeallin        33        0        17        0
kirkeliv        girkkoiellet        girkoeallin        33        0        17        13
kirkeliv        girkkoielle        girkoeallin        33        0        17        5

Framover

Kva:

@ foran former som ikkje er ok (måte: merk unntaka)
* foran former du skal sjå på seinare
+ for ok (viss det er ei fil kor det meste er ikke-ok)

Lage filer for manuell gjennomgang

Gå gjennom filene i denne rekkjefølgja:

Lagring, svn

Lagre filene her: main/words/dicts/nobsmj/inc

Skriv ei readme-fil der rekkjefølgja går fram

Anna mens eg har det i hovudet

Rettskrivingsendring ijja→iddja:

Skript dette (Sandra sender Kevin ei liste).

sma

Som for smj, men filtrere mot eksisterande.