GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Berit Merete, Marja, Ciprian, Trond
BM og M har funne mykje spennande. Gt-pipeline har lemma, det har ikkje Apertium.
$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n>
11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n>
7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n>
second_run>grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | wc -l
17308
second_run>grep -h '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | sort | uniq | wc -l
17238
$10 0 -7.7 0.0 0.25 høyskole+utdanning<n><m> allaskuvla+oahpahus<n>
Cip har laga alignment.
22 0 -6.91 0.0 0.25 høgskoleutdanning<subst> allaskuvlaoahpahus<N>
22 0 -6.91 0.0 0.25 hurtigrute<subst> riddorukto<N>
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|lookup ~/main/words/dicts/nobsme/bin/nobsme.fst |grep '?'|wc -l
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|wc -l
$22 0 -6.911 0.0 0.2222222 yrkesaktiv<adj> bargonávccalaš<a>
$3 0 -8.904 0.0 0.1538462 yrkesaktivitet<n><m> fidnodoaibma<n>
$16 0 -7.23 0.0 0.1612903 yrkeserfaring<n><m> bargoduogáš<n>
$16 0 -7.23 0.0 1.0 yrkeserfaring<n><m> bargovásihus<n>
$17 0 -7.169 0.0 0.2 yrkesopplæring<n><m> fitnooahpahus<n>
$10 0 -7.7 0.0 0.4 yrkesutøver<n><m> fidnobargi<n><actor>
Lemmatisere apertium-$-output:
Her er oversikt over der
:
1018 passl => stryk der_passl-taggen
719 n => erstatt final t med n
368 eapmi => erstatt -it med eapmi
127 at => stryk der_at-taggen
82 vuohta => legg vuohta til stamme
72 muš => erstatt final -t med muš
57 passs => stryk der_passs-taggen
44 dimin => stryk der_dimin-taggen
12 halla => stryk der_halla-taggen
12 ahtti => erstatt -it med ahttit
11 st => ignorer
11 alla => ignorer
8 h => ignorer
5 d => stryk der_d-taggen
Kommandoar:
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep der_|rev|cut -d"_" -f1|rev|cut -d">" -f1|sort|uniq -c|sort -nr
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep 'eapmi+'|rev|cut -d"+" -f2-|sort|rev|l
Taggen
bruke<vblex> geavahit<v><tv><vabess>
bruke<vblex> geavvat<v><iv><vabess><a>
vurdere<vblex> árvvoštallat<v><tv><vabess>
avklare<vblex> mearridit<v><tv><vabess>
berøre<vblex> guoskat<v><iv><vabess><a>
binde<vblex> čatnat<v><tv><vabess>
diktere<vblex> bidjat<v><tv><vabess>
forsøke<vblex> geahččalit<v><tv><vabess>
rulle<vblex> jorrat<v><iv><vabess><a>
skifte<vblex> lotnut<v><tv><vabess><a>
stabil<adj> rievdat<v><iv><vabess><a>
ubesvart<adj> vástidit<v><tv><vabess><a>
uendret<adj> rievdadit<v><tv><vabess><a>
ugift<adj> náitalit<v><iv><vabess><a>
ukritisk<adj> árvvoštallat<v><tv><vabess><a>
ulønnsom<adj> gánnáhit<v><iv><der2><der_ahtti><v><tv><vabess><a>
umistelig<adj> massit<v><tv><vabess><a>
uskreven<adj> čállit<v><tv><vabess><a>
utføre<vblex> doaibmat<v><iv><vabess><a>
utøve<vblex> doaibmat<v><iv><vabess><a>
uventet<adj> vuordit<v><tv><vabess><a>
uønsket<adj> sávvat<v><tv><vabess><a>
Kort prat når Ciprian er ferdig med fase 1/2.