GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
Til stades: Berit Merete, Marja, Ciprian, Trond
Trond har vore i Helsingfors.
l_gt
i src/fad_nobsme.20121130_nob-c_sme-c.xml
Todo-lista frå sist er ikkje gjort. Sjå nedanfor, under gt:
Denne kommandoen fjernar semantiske taggar (per 7.1.2013) frå output av lookup2cg.
cat fiilla | perl -pe 's/(Ani|Body|Build|Clth|Edu|Event|Fem|Food|Group|Hum|Mal|Measr|Obj|Org|Plant|Plc|Route|Sur|Time|Txt|Veh|Wpn|Wthr|Allegro|v1|v2|v3|v4) //g' > | uniq > fiilla_semhaga
Den reelle lista av semantiske taggar står her:
main/gt/sme/src/sme-lex.txt
Resultat av reversed engineering av ap-output (filer lagra i words/dicts/nobsme/:)
Entries:
src>grep '<e' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
Lemma nob ap:
src>grep '<l ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
8358
Postprosessert lemma nob obt
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
10519
Postprosessert lemma nob obt med berre ein analyse
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c="' | wc -l
6867
Postprosessert lemma nob obt med berre minst 2 analyser
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
1300
etc...
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
1300
Tilsvarande for samisk:
Lemma sme ap:
src>grep '<t ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
8358
Postprosessert lemma sme ap analysert med sme.fst
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
9981
Postprosessert lemma sme ap analysert med sme.fst med eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c=' | wc -l
6691
Postprosessert lemma sme ap analysert med sme.fst med meir enn eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
1319
etc:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
1319
Trond sjekka mot unob og MS Word:
_nob-c_sme-c
cat src/fad_nobsme.20121130_nob-c_sme-c.xml |grep '<l_'|tr '<' '>' \|
cut -d">" -f3 \|unob|grep '?'|cut -f1|rev|sort|uniq|rev|see
Arbeid framover
fra gt-output. (Cip)
<tg><re>
<tg re="blabla">