GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD- og korpusmøte 19.12.2012

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

Status

Oppsummere Apertium-gull-arbeid (M og BM ferdig)

BM og M har funne mykje spennande. Gt-pipeline har lemma, det har ikkje Apertium.

$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n>
11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n>
7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n>


second_run>grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | wc -l
   17308
second_run>grep -h '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | sort | uniq | wc -l
   17238


$10 0 -7.7 0.0 0.25 høyskole+utdanning<n><m> allaskuvla+oahpahus<n>

Oppsummere gt-pipeline-alignment

Cip har laga alignment.

22 0 -6.91 0.0 0.25 høgskoleutdanning<subst> allaskuvlaoahpahus<N>
22 0 -6.91 0.0 0.25 hurtigrute<subst> riddorukto<N>


grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|lookup ~/main/words/dicts/nobsme/bin/nobsme.fst |grep '?'|wc -l
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|wc -l


$22 0 -6.911 0.0 0.2222222 yrkesaktiv<adj> bargonávccalaš<a>
$3 0 -8.904 0.0 0.1538462 yrkesaktivitet<n><m> fidnodoaibma<n>
$16 0 -7.23 0.0 0.1612903 yrkeserfaring<n><m> bargoduogáš<n>
$16 0 -7.23 0.0 1.0 yrkeserfaring<n><m> bargovásihus<n>
$17 0 -7.169 0.0 0.2 yrkesopplæring<n><m> fitnooahpahus<n>
$10 0 -7.7 0.0 0.4 yrkesutøver<n><m> fidnobargi<n><actor>

Arbeid framover

Hovudtrekk

Fase 1

Ciprian leksikalisfiserer apertium-pipeline (sjå nedanfor)

BM og Marja arbeider med andre ting

Fase 2

Cip fjernar leksikalifiserte apertium-par frå gt-pipeline

BM og Marja ser på output av leksikaliserte + unifiserte ordpar

BM og Marja arbeider med andre ting

Fase 3

BM og M arbeider med rest-gt-pipeline

Prosedyre for å arbeide med apertium

Lemmatisere apertium-$-output:

Lage grunnformer av avleidde ord (sjå nedanfor for prosedyre for der_X)

Ingen pluss i nob eller sme => ok

Pluss i nob men ikkje sme => prøv i nob å erstatte “+” med “s”, null, “e”

Pluss i sme men ikkje i nob => prøv i sme:

fjern +,

Gjer /søk/erstatt/: /hallat/hallan/, /eapmi/an/, /stit/stin/, /hit/han/, /dit/dan/ /i+/e/, /u+/o/ /t+/n/, /t+//

Pluss i nob og sme => prøv nob først og deretter sme

Hugs i sme

... => stryk <

... => manuelt

Her er oversikt over der:

1018 passl => stryk der_passl-taggen
 719 n => erstatt final t med n
 368 eapmi => erstatt -it med eapmi
 127 at => stryk der_at-taggen
  82 vuohta => legg vuohta til stamme
  72 muš => erstatt final -t med muš
  57 passs => stryk der_passs-taggen
  44 dimin => stryk der_dimin-taggen
  12 halla => stryk der_halla-taggen
  12 ahtti => erstatt -it med ahttit
  11 st => ignorer
  11 alla => ignorer
   8 h => ignorer
   5 d => stryk der_d-taggen

Kommandoar:

grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep der_|rev|cut -d"_" -f1|rev|cut -d">" -f1|sort|uniq -c|sort -nr
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep 'eapmi+'|rev|cut -d"+" -f2-|sort|rev|l

Taggen må vi sjå manuelt på:

bruke<vblex> geavahit<v><tv><vabess>
bruke<vblex> geavvat<v><iv><vabess><a>
vurdere<vblex> árvvoštallat<v><tv><vabess>
avklare<vblex> mearridit<v><tv><vabess>
berøre<vblex> guoskat<v><iv><vabess><a>
binde<vblex> čatnat<v><tv><vabess>
diktere<vblex> bidjat<v><tv><vabess>
forsøke<vblex> geahččalit<v><tv><vabess>
rulle<vblex> jorrat<v><iv><vabess><a>
skifte<vblex> lotnut<v><tv><vabess><a>
stabil<adj> rievdat<v><iv><vabess><a>
ubesvart<adj> vástidit<v><tv><vabess><a>
uendret<adj> rievdadit<v><tv><vabess><a>
ugift<adj> náitalit<v><iv><vabess><a>
ukritisk<adj> árvvoštallat<v><tv><vabess><a>
ulønnsom<adj> gánnáhit<v><iv><der2><der_ahtti><v><tv><vabess><a>
umistelig<adj> massit<v><tv><vabess><a>
uskreven<adj> čállit<v><tv><vabess><a>
utføre<vblex> doaibmat<v><iv><vabess><a>
utøve<vblex> doaibmat<v><iv><vabess><a>
uventet<adj> vuordit<v><tv><vabess><a>
uønsket<adj> sávvat<v><tv><vabess><a>

Autshomato

Skal vi pushe CAT (Authomato eller andre ting) på omsetjarar må vi arrangere kurs.

Verkeleg nyttig blir CAT først når TM inneheld tekstar som verkeleg inneheld same emne

Neste møte

Kort prat når Ciprian er ferdig med fase 1/2.