GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

Møte om lule- og sørsamisk korpusinnsamling

17.12. 2014. Børre, Kevin, Sandra, Trond.

sme→smj

Ordboka smesmj

Dette er ei ordbok:

echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst
čállit        tjállet

Lulesamifisering

Dette er ein lulesamifiserar:

Kommandosett for å kompilere lulesamifiserar:

cd $GTHOME/gt/smj/src/
xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop

Bruk:

lookup -q sme2smj.fst
čállit


cat nordsamisk-tekst.txt | preprocess | lookup -q sme2smj.fst


echo "Mun lean okta sápmelaš." | preprocess | lookup -q sme2smj.fst

Uutnytta kjelder til korpus

Filer i freecorpus/smj:

TODO

Tekniske aspekt

Ordboksformat osb.

words/dicts/LaLb/

Digresjon: dtd: Vi har: words/dicts/script/gt_dictionary.dtd

Vi vil lage dtd for LaLb.xml for alle ordbøker, og legg i LaLb/dtd deretter mekke og standardisere modulo ordbok

Arbeidsplan

Neste møte

Torsdag 8.1. kl. 9.