GiellaLT provides rule-based language technology aimed at minority and indigenous languages
Kursa 2016
bistá 5 beaivvi, mii álgit mánnodaga dii. 9
Trond, ML ja Lene leat hupman MT-vahku sisdoalu birra. Dát lea evttohus:
echo ja | apertium -d. sme-smX
wget http://apertium.projectjj.com/osx/install-nightly.sh
sudo bash install-nightly.sh
python check_mt-otpt.py -f pseudo_tmx_data/cahceravgga_sme2smn.tmx
open otpt_dir/cahceravgga_sme2smn.html
python check_mt-otpt.py -f pseudo_tmx_data/SP-18-2012_sme2smn.tmx
open otpt_dir/SP-18-2012_sme2smn.html
Bargat ieš, oažžut bagadeami
Ovdalgo sáhttá árvvoštallat cealkaga syntávssa dahje váilevaš genererema, de eai galgga leat missing-sánit cealkagis
echo 'cealkka' | apertium -d. sme-smn-dgen
, omd.
#Pariisa<np><top><sg><loc>
usmX
ja dsmXNorm
)usmn
Pariisa
Pariisa Pariisa+N+Prop+Sem/Plc+Sg+Nom
dsmnNorm
Pariisa+N+Prop+Sem/Plc+Sg+Loc
Pariisa+N+Prop+Sem/Plc+Sg+Loc Pariisa+N+Prop+Sem/Plc+Sg+Loc +?
Ferte lasihit/divvut FST (omd. addit +Sg+Loc leksikonii masa Pariisa manná)
Nubbi ovdamearka:
#lávluđ<vblex><der_nomag><n><pl><nom>
usmX
ja dsmXNorm
)usmn
lávluđ
lávluđ lávluđ+V+Inf
dsmnNorm
lávluđ+V+Der/NomAg+N+Sg+Nom
lávluđ+V+Der/NomAg+N+Sg+Nom lávluđ+V+Der/NomAg+N+Sg+Nom +?
Ferte lasihit/divvut FST (addit +Der/NomAg leksikonii masa lávluđ manná)
echo 'cealkka' | apertium -d. sme-smn-biltrans
usme
čájeha sáni vejolaš analysaid olggobealde bidixecho 'cealkka' | apertium -d. sme-smn-disam
Jus buot sánit eai leat mielde bidixis, de lea buoret geavahit dán gohččuma:
echo 'cealkka' | smedis
echo 'cealkka' | apertium -d. sme-smn-chunker
echo 'cealkka' | apertium -d. sme-smn-biltrans
Dahje don sáhtát iskat eaŋkilsániid:
echo "lohkan" | hfst-lookup .deps/sme.automorf.hfst
echo "luuhâm" | hfst-lookup .deps/smn.automorf.hfst
Mis leat dákkár teaksta-máhpat:
check_mt-otpt.py
wercheck_mt-otpt.py
Jorgalit dihto fiilla, ja rahpat bohtosa:
python wercheck_mt-otpt.py -f tmx_data/100writers_sme2smn.tmx
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jorgalit olles máhpa, ja rahpat bohtosa:
python wercheck_mt-otpt.py -d tmx_data/
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jorgalit dihto fiilla, ja rahpat bohtosa:
python check_mt-otpt.py -f mappe/file
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jorgalit olles máhpa, ja rahpat bohtosa:
python check_mt-otpt.py -d tmx_data/
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jus lea eanet go okta vejolaš jorgalus, de sáhttá ráhkadit njuolggadusaid -lrx-fiillas. omd. sämikielâlâš + human vs sämikiel
Lasit bidixii
Geavat dán gohččuma vai oainnát taggaid
echo 'Doppe lea ollu sámegielat olbmot.' | apertium -d. sme-smn-biltrans
^Doppe<adv><sem_plc><@ADVL→>/Tobbeen<adv><sem_plc><@ADVL→>$
^leat<vblex><iv><indic><pres><p3><pl><@+FMAINV>/leđe<vblex><indic><pres><p3><pl><@+FMAINV>$
^ollu<adv><@←ADVL>/ennuv<adv><@←ADVL>$
^sámegielat<adj><sem_hum><attr><@→N>/sämikiel<adj><sem_hum><attr><@→N>/sämikielâlâš<adj><sem_hum><attr><@→N>$
^olmmoš<n><sem_hum><pl><nom><←ext→><@←SUBJ>/olmooš<n><sem_hum><pl><nom><←ext→><@←SUBJ>$
^.<sent>/.<sent>$^.<sent>/.<sent>$
Lasit -lrx-fiilii:
<rule weight="1.0">
<match lemma="sámegielat">
<select lemma="sämikiel"/>
</match>
</rule>
<rule weight="0.5">
<match lemma="sámegielat">
<select lemma="sämikielâlâš"/>
</match>
</rule>
<rule weight="0.6">
<match lemma="sámegielat" tags="adj.sem_hum.attr.*"> (sámegielat<adj><sem_hum><attr><@→N>)
<select lemma="sämikielâlâš"/>
</match>
<or>
<match tags="n.sem_hum.*"/> (omd. olmmoš<n><sem_hum><pl><nom>)
<match tags="n.*.sem_hum.*"/> (omd. oahpaheaddji<n><nomag><sem_hum><pl><nom>)
</or>
</rule>
Nubbi ovdamearka dás: Lexical selection
Hash-listu ráhkaduvvo teavsttaid jorgaleami vuođul, ja buot dábáleamos čuolmmat bohtet listtu bajimussii. Nu ahte čuolmmat sorterejuvvojit frekveanssa mielde.
Jus don háliidat ráhkadit ođđa hash-listtu ieš, dahje don háliidat ohcat ovdamearkkaid, de fertet genereret ođđa jorgalusaid: genereret jorgalusaid
Loga eanet hash-listtuid birra dás: hash-listtut
dev/hash-fi-report.fi
27 #sosiaal<adj><cmp_sgnom><cmp_splitr> sosiála- sosiaal- sosiaal+A+Cmp/Attr+Cmp/SplitR
21 #sosiaal<adj><cmp_sgnom><cmp>syergi
14 #jieškote<prn><ind><sg><gen>
14 #Sosiaal<adj><cmp_sgnom><cmp_splitr>
12 #vääri<n><cmp_sgnom><cmp>#ovdâsteijee<n><nomag><sg><loc><south>
9 #Sosiaal<adj><cmp_sgnom><cmp>syergi
7 #riehtiministeriö<n><sg><gen> riehtiministeriö riehti+N+Cmp/SgNom+Cmp#ministeriö+N+Sg+Acc
6 #Ume<np><top><sg><loc> Ume+N+Prop+Sem/Org+Sg+Loc
Ulbmil: Ipmirdit ja divvut feaillaid.
Gohččumat:
cat dev/hash-report.freq |egrep -v '(cmp|<np-d"#" -f2|cut -d"<" -f1|hfst-lookup smj-sme.automorf.hfst |see
cat dev/hash-report.freq |egrep -v '(cmp|<np>|<top>|der_)'|see
Bidix-sanity listu ráhkaduvvo bidix-listtu vuođul. Čuolmmat sorterejuvvojit alfabehtalaččat.
sh bidix-sanity.sh > sanityoutput
Lea vejolaš heivehit sanityoutput nu ahte oaččut listtu mas eai leat namat, ja mas smX-sánit leat sorterejuvvon sáni loahpa mielde. Dalle lea álkit árvvoštallat sániid (seammá sánit bohtet maŋŋálaga) ja maiddái kopieret sániid FST:i.
Go leat dev
-máhpas:
sh sortedsanityoutput_withoutprop.txt
Loga eanet bidix-sanity birra.
./t/regression-tests
./t/pending-tests
Forslag om nye tagger som forteller funksjon:
Forslag om nye harmoniserte tagger:
fuomášit+V+TV+Der/PassL+V+IV+Der/upmi+N+Sg+Nom
: fuomášupmi fuomášit+V+TV+Der/PassL+V+IV+Der/NomAct+N+Sg+Nom
fuomášit+V+TV+Der/NomAct+N+Sg+Nom
: fuomášeapmiResten av sme-taggene - ikke diskutert, og mange av dem er ikke så viktige for MT
Bargat syntávssalaš áššiiguin
Derivašuvnnat MT perspektiivvas
Adjektiivvat, Px,
bidix