GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

Møte om lule- og sørsamisk korpusinnsamling

17.12. 2014. Børre, Kevin, Sandra, Trond.

sme→smj

Ordboka smesmj

Dette er ei ordbok:

echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst 
čállit        tjállet

Lulesamifisering

Dette er ein lulesamifiserar:

Kommandosett for å kompilere lulesamifiserar:

cd $GTHOME/gt/smj/src/
xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop

Bruk:

lookup -q sme2smj.fst
čállit


cat nordsamisk-tekst.txt | preprocess | lookup -q sme2smj.fst


echo "Mun lean okta sápmelaš." | preprocess | lookup -q sme2smj.fst

Uutnytta kjelder til korpus

Filer i freecorpus/smj:

TODO

Tekniske aspekt

Ordboksformat osb.

words/dicts/LaLb/

Digresjon: dtd: Vi har: words/dicts/script/gt_dictionary.dtd

Vi vil lage dtd for LaLb.xml for alle ordbøker, og legg i LaLb/dtd deretter mekke og standardisere modulo ordbok

Arbeidsplan

Neste møte

Torsdag 8.1. kl. 9.