GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
Til stades: Berit Merete, Marja, Ciprian, Trond
BM og M har funne mykje spennande. Gt-pipeline har lemma, det har ikkje Apertium.
$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n>
11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n>
7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n>
second_run>grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | wc -l
17308
second_run>grep -h '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | sort | uniq | wc -l
17238
$10 0 -7.7 0.0 0.25 høyskole+utdanning<n><m> allaskuvla+oahpahus<n>
Cip har laga alignment.
22 0 -6.91 0.0 0.25 høgskoleutdanning<subst> allaskuvlaoahpahus<N>
22 0 -6.91 0.0 0.25 hurtigrute<subst> riddorukto<N>
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|lookup ~/main/words/dicts/nobsme/bin/nobsme.fst |grep '?'|wc -l
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|wc -l
$22 0 -6.911 0.0 0.2222222 yrkesaktiv<adj> bargonávccalaš<a>
$3 0 -8.904 0.0 0.1538462 yrkesaktivitet<n><m> fidnodoaibma<n>
$16 0 -7.23 0.0 0.1612903 yrkeserfaring<n><m> bargoduogáš<n>
$16 0 -7.23 0.0 1.0 yrkeserfaring<n><m> bargovásihus<n>
$17 0 -7.169 0.0 0.2 yrkesopplæring<n><m> fitnooahpahus<n>
$10 0 -7.7 0.0 0.4 yrkesutøver<n><m> fidnobargi<n><actor>
Lemmatisere apertium-$-output:
Her er oversikt over der
:
1018 passl => stryk der_passl-taggen
719 n => erstatt final t med n
368 eapmi => erstatt -it med eapmi
127 at => stryk der_at-taggen
82 vuohta => legg vuohta til stamme
72 muš => erstatt final -t med muš
57 passs => stryk der_passs-taggen
44 dimin => stryk der_dimin-taggen
12 halla => stryk der_halla-taggen
12 ahtti => erstatt -it med ahttit
11 st => ignorer
11 alla => ignorer
8 h => ignorer
5 d => stryk der_d-taggen
Kommandoar:
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep der_|rev|cut -d"_" -f1|rev|cut -d">" -f1|sort|uniq -c|sort -nr
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep 'eapmi+'|rev|cut -d"+" -f2-|sort|rev|l
Taggen
bruke<vblex> geavahit<v><tv><vabess>
bruke<vblex> geavvat<v><iv><vabess><a>
vurdere<vblex> árvvoštallat<v><tv><vabess>
avklare<vblex> mearridit<v><tv><vabess>
berøre<vblex> guoskat<v><iv><vabess><a>
binde<vblex> čatnat<v><tv><vabess>
diktere<vblex> bidjat<v><tv><vabess>
forsøke<vblex> geahččalit<v><tv><vabess>
rulle<vblex> jorrat<v><iv><vabess><a>
skifte<vblex> lotnut<v><tv><vabess><a>
stabil<adj> rievdat<v><iv><vabess><a>
ubesvart<adj> vástidit<v><tv><vabess><a>
uendret<adj> rievdadit<v><tv><vabess><a>
ugift<adj> náitalit<v><iv><vabess><a>
ukritisk<adj> árvvoštallat<v><tv><vabess><a>
ulønnsom<adj> gánnáhit<v><iv><der2><der_ahtti><v><tv><vabess><a>
umistelig<adj> massit<v><tv><vabess><a>
uskreven<adj> čállit<v><tv><vabess><a>
utføre<vblex> doaibmat<v><iv><vabess><a>
utøve<vblex> doaibmat<v><iv><vabess><a>
uventet<adj> vuordit<v><tv><vabess><a>
uønsket<adj> sávvat<v><tv><vabess><a>
Kort prat når Ciprian er ferdig med fase 1/2.