GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Berit Merete, Marja, Ciprian, Trond
Trond har vore i Helsingfors.
l_gt
i src/fad_nobsme.20121130_nob-c_sme-c.xml
Todo-lista frå sist er ikkje gjort. Sjå nedanfor, under gt:
Denne kommandoen fjernar semantiske taggar (per 7.1.2013) frå output av lookup2cg.
cat fiilla | perl -pe 's/(Ani|Body|Build|Clth|Edu|Event|Fem|Food|Group|Hum|Mal|Measr|Obj|Org|Plant|Plc|Route|Sur|Time|Txt|Veh|Wpn|Wthr|Allegro|v1|v2|v3|v4) //g' > | uniq > fiilla_semhaga
Den reelle lista av semantiske taggar står her:
main/gt/sme/src/sme-lex.txt
Resultat av reversed engineering av ap-output (filer lagra i words/dicts/nobsme/:)
Entries:
src>grep '<e' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
Lemma nob ap:
src>grep '<l ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
8358
Postprosessert lemma nob obt
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
10519
Postprosessert lemma nob obt med berre ein analyse
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c="' | wc -l
6867
Postprosessert lemma nob obt med berre minst 2 analyser
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
1300
etc...
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
1300
Tilsvarande for samisk:
Lemma sme ap:
src>grep '<t ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
8358
Postprosessert lemma sme ap analysert med sme.fst
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
9981
Postprosessert lemma sme ap analysert med sme.fst med eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c=' | wc -l
6691
Postprosessert lemma sme ap analysert med sme.fst med meir enn eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
1319
etc:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
1319
Trond sjekka mot unob og MS Word:
_nob-c_sme-c
l_
cat src/fad_nobsme.20121130_nob-c_sme-c.xml |grep '<l_'|tr '<' '>' \|
cut -d">" -f3 \|unob|grep '?'|cut -f1|rev|sort|uniq|rev|see
Arbeid framover
fra gt-output. (Cip)
<tg><re>
<tg re="blabla">