GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Kursa 2016
bistá 5 beaivvi, mii álgit mánnodaga dii. 9
Trond, ML ja Lene leat hupman MT-vahku sisdoalu birra. Dát lea evttohus:
echo ja | apertium -d. sme-smX
wget http://apertium.projectjj.com/osx/install-nightly.sh
sudo bash install-nightly.sh
python check_mt-otpt.py -f pseudo_tmx_data/cahceravgga_sme2smn.tmx
open otpt_dir/cahceravgga_sme2smn.html
python check_mt-otpt.py -f pseudo_tmx_data/SP-18-2012_sme2smn.tmx
open otpt_dir/SP-18-2012_sme2smn.html
Bargat ieš, oažžut bagadeami
Ovdalgo sáhttá árvvoštallat cealkaga syntávssa dahje váilevaš genererema, de eai galgga leat missing-sánit cealkagis
echo 'cealkka' | apertium -d. sme-smn-dgen
, omd.
#Pariisa<np><top><sg><loc>
usmX
ja dsmXNorm
)usmn
Pariisa
Pariisa Pariisa+N+Prop+Sem/Plc+Sg+Nom
dsmnNorm
Pariisa+N+Prop+Sem/Plc+Sg+Loc
Pariisa+N+Prop+Sem/Plc+Sg+Loc Pariisa+N+Prop+Sem/Plc+Sg+Loc +?
Ferte lasihit/divvut FST (omd. addit +Sg+Loc leksikonii masa Pariisa manná)
Nubbi ovdamearka:
#lávluđ<vblex><der_nomag><n><pl><nom>
usmX
ja dsmXNorm
)usmn
lávluđ
lávluđ lávluđ+V+Inf
dsmnNorm
lávluđ+V+Der/NomAg+N+Sg+Nom
lávluđ+V+Der/NomAg+N+Sg+Nom lávluđ+V+Der/NomAg+N+Sg+Nom +?
Ferte lasihit/divvut FST (addit +Der/NomAg leksikonii masa lávluđ manná)
echo 'cealkka' | apertium -d. sme-smn-biltrans
- bidix ráddje biltrans-analysa. Jus omd. dihto sátni lea bidixis dušše adjektiivan,
dalle dat ii sáhte oažžut Adv-analysa, vaikko dat livččii rivttes analysa cealkagis. - usme
čájeha sáni vejolaš analysaid olggobealde bidix - jus sátni oažžu boasttu kásusa, omd. genitiivva dan sajis go akkusatiivva, de feaila lea sme syntávssalaš analysas - dieđit sme-feailla Lenii, Trondii dahje Duommáiecho 'cealkka' | apertium -d. sme-smn-disam
Jus buot sánit eai leat mielde bidixis, de lea buoret geavahit dán gohččuma:
echo 'cealkka' | smedis
echo 'cealkka' | apertium -d. sme-smn-chunker
echo 'cealkka' | apertium -d. sme-smn-biltrans
Dahje don sáhtát iskat eaŋkilsániid:
echo "lohkan" | hfst-lookup .deps/sme.automorf.hfst
echo "luuhâm" | hfst-lookup .deps/smn.automorf.hfst
Mis leat dákkár teaksta-máhpat:
check_mt-otpt.py
wercheck_mt-otpt.py
Jorgalit dihto fiilla, ja rahpat bohtosa:
python wercheck_mt-otpt.py -f tmx_data/100writers_sme2smn.tmx
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jorgalit olles máhpa, ja rahpat bohtosa:
python wercheck_mt-otpt.py -d tmx_data/
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jorgalit dihto fiilla, ja rahpat bohtosa:
python check_mt-otpt.py -f mappe/file
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jorgalit olles máhpa, ja rahpat bohtosa:
python check_mt-otpt.py -d tmx_data/
open otpt_dir/
- de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.Jus lea eanet go okta vejolaš jorgalus, de sáhttá ráhkadit njuolggadusaid -lrx-fiillas. omd. sämikielâlâš + human vs sämikiel
Lasit bidixii
Geavat dán gohččuma vai oainnát taggaid
echo 'Doppe lea ollu sámegielat olbmot.' | apertium -d. sme-smn-biltrans
^Doppe<adv><sem_plc><@ADVL→>/Tobbeen<adv><sem_plc><@ADVL→>$
^leat<vblex><iv><indic><pres><p3><pl><@+FMAINV>/leđe<vblex><indic><pres><p3><pl><@+FMAINV>$
^ollu<adv><@←ADVL>/ennuv<adv><@←ADVL>$
^sámegielat<adj><sem_hum><attr><@→N>/sämikiel<adj><sem_hum><attr><@→N>/sämikielâlâš<adj><sem_hum><attr><@→N>$
^olmmoš<n><sem_hum><pl><nom><←ext→><@←SUBJ>/olmooš<n><sem_hum><pl><nom><←ext→><@←SUBJ>$
^.<sent>/.<sent>$^.<sent>/.<sent>$
Lasit -lrx-fiilii:
<rule weight="1.0">
<match lemma="sámegielat">
<select lemma="sämikiel"/>
</match>
</rule>
<rule weight="0.5">
<match lemma="sámegielat">
<select lemma="sämikielâlâš"/>
</match>
</rule>
<rule weight="0.6">
<match lemma="sámegielat" tags="adj.sem_hum.attr.*"> (sámegielat<adj><sem_hum><attr><@→N>)
<select lemma="sämikielâlâš"/>
</match>
<or>
<match tags="n.sem_hum.*"/> (omd. olmmoš<n><sem_hum><pl><nom>)
<match tags="n.*.sem_hum.*"/> (omd. oahpaheaddji<n><nomag><sem_hum><pl><nom>)
</or>
</rule>
Nubbi ovdamearka dás: Lexical selection
Hash-listu ráhkaduvvo teavsttaid jorgaleami vuođul, ja buot dábáleamos čuolmmat bohtet listtu bajimussii. Nu ahte čuolmmat sorterejuvvojit frekveanssa mielde.
Jus don háliidat ráhkadit ođđa hash-listtu ieš, dahje don háliidat ohcat ovdamearkkaid, de fertet genereret ođđa jorgalusaid: genereret jorgalusaid
Loga eanet hash-listtuid birra dás: hash-listtut
dev/hash-fi-report.fi
27 #sosiaal<adj><cmp_sgnom><cmp_splitr> sosiála- sosiaal- sosiaal+A+Cmp/Attr+Cmp/SplitR
21 #sosiaal<adj><cmp_sgnom><cmp>syergi
14 #jieškote<prn><ind><sg><gen>
14 #Sosiaal<adj><cmp_sgnom><cmp_splitr>
12 #vääri<n><cmp_sgnom><cmp>#ovdâsteijee<n><nomag><sg><loc><south>
9 #Sosiaal<adj><cmp_sgnom><cmp>syergi
7 #riehtiministeriö<n><sg><gen> riehtiministeriö riehti+N+Cmp/SgNom+Cmp#ministeriö+N+Sg+Acc
6 #Ume<np><top><sg><loc> Ume+N+Prop+Sem/Org+Sg+Loc
Ulbmil: Ipmirdit ja divvut feaillaid.
Gohččumat:
cat dev/hash-report.freq |egrep -v '(cmp|<np-d"#" -f2|cut -d"<" -f1|hfst-lookup smj-sme.automorf.hfst |see
cat dev/hash-report.freq |egrep -v '(cmp|<np>|<top>|der_)'|see
Bidix-sanity listu ráhkaduvvo bidix-listtu vuođul. Čuolmmat sorterejuvvojit alfabehtalaččat.
sh bidix-sanity.sh > sanityoutput
Lea vejolaš heivehit sanityoutput nu ahte oaččut listtu mas eai leat namat, ja mas smX-sánit leat sorterejuvvon sáni loahpa mielde. Dalle lea álkit árvvoštallat sániid (seammá sánit bohtet maŋŋálaga) ja maiddái kopieret sániid FST:i.
Go leat dev
-máhpas:
sh sortedsanityoutput_withoutprop.txt
Loga eanet bidix-sanity birra.
./t/regression-tests
./t/pending-tests
Forslag om nye tagger som forteller funksjon:
Forslag om nye harmoniserte tagger:
fuomášit+V+TV+Der/PassL+V+IV+Der/upmi+N+Sg+Nom
: fuomášupmi fuomášit+V+TV+Der/PassL+V+IV+Der/NomAct+N+Sg+Nom
fuomášit+V+TV+Der/NomAct+N+Sg+Nom
: fuomášeapmiResten av sme-taggene - ikke diskutert, og mange av dem er ikke så viktige for MT
Bargat syntávssalaš áššiiguin
Derivašuvnnat MT perspektiivvas
Adjektiivvat, Px,
bidix