FAD- og korpusmøte 19.12.2012
Til stades: Berit Merete, Marja, Ciprian, Trond
Saker:
- Status
- Arbeid framover
- Autshomato
- Neste møte
Status
Oppsummere Apertium-gull-arbeid (M og BM ferdig)
BM og M har funne mykje spennande. Gt-pipeline har lemma, det har ikkje Apertium.
$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n>
11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n>
7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n>
second_run>grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | wc -l
17308
second_run>grep -h '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | sort | uniq | wc -l
17238
$10 0 -7.7 0.0 0.25 høyskole+utdanning<n><m> allaskuvla+oahpahus<n>
Oppsummere gt-pipeline-alignment
Cip har laga alignment.
22 0 -6.91 0.0 0.25 høgskoleutdanning<subst> allaskuvlaoahpahus<N>
22 0 -6.91 0.0 0.25 hurtigrute<subst> riddorukto<N>
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|lookup ~/main/words/dicts/nobsme/bin/nobsme.fst |grep '?'|wc -l
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|wc -l
$22 0 -6.911 0.0 0.2222222 yrkesaktiv<adj> bargonávccalaš<a>
$3 0 -8.904 0.0 0.1538462 yrkesaktivitet<n><m> fidnodoaibma<n>
$16 0 -7.23 0.0 0.1612903 yrkeserfaring<n><m> bargoduogáš<n>
$16 0 -7.23 0.0 1.0 yrkeserfaring<n><m> bargovásihus<n>
$17 0 -7.169 0.0 0.2 yrkesopplæring<n><m> fitnooahpahus<n>
$10 0 -7.7 0.0 0.4 yrkesutøver<n><m> fidnobargi<n><actor>
Arbeid framover
- Planlegge gt-gull-arbeid
- bestemme nedre grense for sannsynsverdi
Hovudtrekk
Fase 1
Ciprian leksikalisfiserer apertium-pipeline (sjå nedanfor)
BM og Marja arbeider med andre ting
Fase 2
Cip fjernar leksikalifiserte apertium-par frå gt-pipeline
BM og Marja ser på output av leksikaliserte + unifiserte ordpar
BM og Marja arbeider med andre ting
Fase 3
BM og M arbeider med rest-gt-pipeline
Prosedyre for å arbeide med apertium
Lemmatisere apertium-$-output:
Lage grunnformer av avleidde ord (sjå nedanfor for prosedyre for der_X)
Ingen pluss i nob eller sme => ok
Pluss i nob men ikkje sme => prøv i nob å erstatte “+” med “s”, null, “e”
Pluss i sme men ikkje i nob => prøv i sme:
fjern +,
Gjer /søk/erstatt/: /hallat/hallan/, /eapmi/an/, /stit/stin/, /hit/han/, /dit/dan/ /i+/e/, /u+/o/ /t+/n/, /t+//
Pluss i nob og sme => prøv nob først og deretter sme
Hugs i sme
... => stryk <
... => manuelt
Her er oversikt over der
:
1018 passl => stryk der_passl-taggen
719 n => erstatt final t med n
368 eapmi => erstatt -it med eapmi
127 at => stryk der_at-taggen
82 vuohta => legg vuohta til stamme
72 muš => erstatt final -t med muš
57 passs => stryk der_passs-taggen
44 dimin => stryk der_dimin-taggen
12 halla => stryk der_halla-taggen
12 ahtti => erstatt -it med ahttit
11 st => ignorer
11 alla => ignorer
8 h => ignorer
5 d => stryk der_d-taggen
Kommandoar:
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep der_|rev|cut -d"_" -f1|rev|cut -d">" -f1|sort|uniq -c|sort -nr
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep 'eapmi+'|rev|cut -d"+" -f2-|sort|rev|l
Taggen
bruke<vblex> geavahit<v><tv><vabess>
bruke<vblex> geavvat<v><iv><vabess><a>
vurdere<vblex> árvvoštallat<v><tv><vabess>
avklare<vblex> mearridit<v><tv><vabess>
berøre<vblex> guoskat<v><iv><vabess><a>
binde<vblex> čatnat<v><tv><vabess>
diktere<vblex> bidjat<v><tv><vabess>
forsøke<vblex> geahččalit<v><tv><vabess>
rulle<vblex> jorrat<v><iv><vabess><a>
skifte<vblex> lotnut<v><tv><vabess><a>
stabil<adj> rievdat<v><iv><vabess><a>
ubesvart<adj> vástidit<v><tv><vabess><a>
uendret<adj> rievdadit<v><tv><vabess><a>
ugift<adj> náitalit<v><iv><vabess><a>
ukritisk<adj> árvvoštallat<v><tv><vabess><a>
ulønnsom<adj> gánnáhit<v><iv><der2><der_ahtti><v><tv><vabess><a>
umistelig<adj> massit<v><tv><vabess><a>
uskreven<adj> čállit<v><tv><vabess><a>
utføre<vblex> doaibmat<v><iv><vabess><a>
utøve<vblex> doaibmat<v><iv><vabess><a>
uventet<adj> vuordit<v><tv><vabess><a>
uønsket<adj> sávvat<v><tv><vabess><a>
Autshomato
Skal vi pushe CAT (Authomato eller andre ting) på omsetjarar må vi arrangere kurs.
Verkeleg nyttig blir CAT først når TM inneheld tekstar som verkeleg inneheld same emne
Neste møte
Kort prat når Ciprian er ferdig med fase 1/2.