kmd-møte 10.3.15.
Kevin, Sandra, Trond.
Saker
- Status
- Framover
Status
sme2smj-lemmaX.fst er ferdig og produserer kandidatlister i nobsmjsme Vi har kandidatlister nob-smj-sme
- decomp_ana 400
- precomp_ana 4983
- decomp_noana 169
- precomp_noana 3063
Der:
- decomp = match der du finn alle delane ** sykkelstyre -> sykkel ok, styre ok -> sykkelstyre
- precomp = match der du finn delane som delar av andre samansetjingar ** ordboka har barnespråk→mánágiella og bruksrett→adnemriektá/ávkkimriektá, så får me forslag bruksspråk→ávkkitgiella/adnemgiella
No er det slik:
videreføre joarkket fievrridit 241 0 160 14
+videreføre joarkket joatkašuvvat 241 0 31 14
videreføre joarkket joatkit 241 0 448 14
=videreføre joarkket
Det vil vere lettare med:
videreføre joarkket joatkit/fievrridit/joatkašuvvat 241 0 448 14
Men likevel:
innskrenkning gártjedibme gáržžádus 11 0 3 0
innskrenkning gártjodus gáržžádus 11 0 3 0
Her skal vi framleis ha:
bindeledd Aktisasjvuohtaladás oktavuođalađas 6 0 0 0
kontaktledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0
og ikkje slå saman til:
kontaktledd/bindeledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0
Dei som er noana er av to typar, den eine er der pga fleirordsuttrykk:
Euruhpárádde Euruhpárádde +? = ekte
Finnmárkku báhppa Finnmárkku báhppa +? = toords-uttrykk
Den siste typen kan vi fjerne, og analysere som separate ord. Ei anna sak er at desse fleirordsuttrykka sannsynlegvis ikkje er oppslagsord i seg sjølv ==> vi kan vente med dei.
Filforklaring:
- decomp :: input is compound analysed, parts are translated with existing dictionaries and glued back together
- precomp :: existing dictionaries are compound analysed to create a dictionary of compound-part-translations; then input is compound analysed, parts are translated using the decompounded dictionaries, and glued back together
- anymalign :: from parallel word alignment (see para/anymalign)
- xfst :: using =$GTHOME/words/dicts/smesmj/scripts/sme2smj-$PoS.fst=
- lexc :: using =$GTHOME/words/dicts/smesmj/bin/smesmj.fst=
Markeringsmetode:
Utgangspunkt (korrekt er kirkeliv = girkkoiellem)
Kandidat i decomp:
kirkeliv girkkoielle girkoeallin
Resultat etter manuell gjennomgang: enten a eller b:
- a. @kirkeliv girkkoielle girkoeallin
- b. kirkeliv girkkoiellem girkoeallin
viss a, fjern første kirkeliv-instans, viss b, fjern alle kirkeliv-instansar, i resten av filene:
- (viss ei linje er markert som dårleg, fjern paret; viss markert som bra, fjern alle forslag med det nob-ordet)
~$cat ../unhammer/freecorpus/evttohus/out/nobsmjsme/*_ana|grep kirkeliv
kirkeliv girkkoielle girkoeallin 33 0 17 5
kirkeliv girkkoiellem girkoeallin 33 0 17 13
kirkeliv girkkoiellem girkoeallin 33 0 17 13
kirkeliv girkkoiellet girkoeallin 33 0 17 13
kirkeliv girkkoielle girkoeallin 33 0 17 5
kirkeliv girkkohægga girkoeallin 33 0 17 0
kirkeliv girkkoviesso girkoeallin 33 0 17 0
kirkeliv girkkoviessom girkoeallin 33 0 17 0
kirkeliv girkkoviessot girkoeallin 33 0 17 0
kirkeliv girkkovájmmo girkoeallin 33 0 17 0
kirkeliv girkkoæládus girkoeallin 33 0 17 0
kirkeliv girkkoiellet girkoeallin 33 0 17 13
kirkeliv girkkoielle girkoeallin 33 0 17 5
Framover
Kva:
@ foran former som ikkje er ok (måte: merk unntaka)
* foran former du skal sjå på seinare
+ for ok (viss det er ei fil kor det meste er ikke-ok)
Lage filer for manuell gjennomgang
Gå gjennom filene i denne rekkjefølgja:
- decomp før precomp
- eventuelt først ei fil med kandidatar som kom frå fleire metodar
- bolkar på 1000 etter frekvens, baklengssortert inni kvar bolk?
Lagring, svn
Lagre filene her: main/words/dicts/nobsmj/inc
Skriv ei readme-fil der rekkjefølgja går fram
Anna mens eg har det i hovudet
Rettskrivingsendring ijja→iddja:
Skript dette (Sandra sender Kevin ei liste).
sma
Som for smj, men filtrere mot eksisterande.