GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started, and our Privacy document.
09.01. 2015. Børre, Kevin, Sandra, Sjur, Trond.
Saksliste
Kevin har lagt til korpus og endra på CorpusTools, m.a. språkattkjenning. Nytt på korpusfronten er framfor alt frå Sverige.
Alt i alt i freecorpus:
mål: fadordbok vs fadterminologisamling
nobsme = src=”fad”
Programmet: Kjeldefila er sme2smj-lexeme.xfst
cd $GTHOME/gt/smj/src/
xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop
Bruk:
lookup -q sme2smj.fst
čállit
echo čállit | lookup -q sme2smj.fst
ccat -r -l sme ~/freecorpus/converted/sme/facta/skuvlahistorja1/|preprocess|lookup gt/smj/src/sme2smj.fst |cut -f2|tr '\n' ' '|l
Den svært delvis kontrollerte:
kvaliteten på smesmj/src/*.xml
echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst
cat words/dicts/nobsme/src/V_nobsme.xml|grep '<t '|grep '"fad"'|tr '<' '>'|cut -d">" -f3|lookup gt/smj/src/sme2smj.fst |see
sme2smj.fst treng ein gjennomgang: Sandra, Thomas, Trond.
Status på kvalitet:
Absolutt halde fram.
Sandra snakkar med folk.
Onsdag 14.1. eller torsdag 22.1.