GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started, and our Privacy document.

View GiellaLT on GitHub

Møte om lulesamisk term/ord-bok

09.01. 2015. Børre, Kevin, Sandra, Sjur, Trond.

Saksliste

Referat frå 17.12.

Status

Kevin har lagt til korpus og endra på CorpusTools, m.a. språkattkjenning. Nytt på korpusfronten er framfor alt frå Sverige.

Alt i alt i freecorpus:

mål: fadordbok vs fadterminologisamling

Lulesamifisering

Pipeline

nobsme = src=”fad”

Kvaliteten på lulesamifisering

Programmet: Kjeldefila er sme2smj-lexeme.xfst

cd $GTHOME/gt/smj/src/
xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop
Bruk:
lookup -q sme2smj.fst
čállit


echo čállit | lookup -q sme2smj.fst
ccat -r -l sme  ~/freecorpus/converted/sme/facta/skuvlahistorja1/|preprocess|lookup gt/smj/src/sme2smj.fst |cut -f2|tr '\n' ' '|l


Den svært delvis kontrollerte:
kvaliteten på smesmj/src/*.xml
echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst


 cat words/dicts/nobsme/src/V_nobsme.xml|grep '<t '|grep '"fad"'|tr '<' '>'|cut -d">" -f3|lookup gt/smj/src/sme2smj.fst |see

sme2smj.fst treng ein gjennomgang: Sandra, Thomas, Trond.

Status på kvalitet:

Korpus

Absolutt halde fram.

Manuelt arbeid

Sandra snakkar med folk.

Neste møte

Onsdag 14.1. eller torsdag 22.1.

Sitemap