GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD- og korpusmøte 14.1.2013

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

Status

Trond har vore i Helsingfors.

gt

Todo-lista frå sist er ikkje gjort. Sjå nedanfor, under gt:

Denne kommandoen fjernar semantiske taggar (per 7.1.2013) frå output av lookup2cg.

cat fiilla | perl -pe 's/(Ani|Body|Build|Clth|Edu|Event|Fem|Food|Group|Hum|Mal|Measr|Obj|Org|Plant|Plc|Route|Sur|Time|Txt|Veh|Wpn|Wthr|Allegro|v1|v2|v3|v4) //g' > | uniq > fiilla_semhaga

Den reelle lista av semantiske taggar står her: main/gt/sme/src/sme-lex.txt

Arbeid framover med FAD

Resultat av reversed engineering av ap-output (filer lagra i words/dicts/nobsme/:)

Entries:
src>grep '<e' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l


Lemma nob ap:
src>grep '<l ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    8358


Postprosessert lemma nob obt
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
   10519


Postprosessert lemma nob obt med berre ein analyse
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c="' | wc -l
    6867


Postprosessert lemma nob obt med berre minst 2 analyser
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
    1300


etc...
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
    1300


Tilsvarande for samisk:
Lemma sme ap:
src>grep '<t ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    8358
Postprosessert lemma sme ap analysert med sme.fst
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    9981


Postprosessert lemma sme ap analysert med sme.fst med eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c=' | wc -l
    6691


Postprosessert lemma sme ap analysert med sme.fst med meir enn eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
    1319
etc:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
    1319

Trond sjekka mot unob og MS Word:

Ta _nob-c_sme-c

Dra ut den norske l_

analysere i unob og dra ut ?

Lime inn i MS Word og gå manuelt gjennom

cat src/fad_nobsme.20121130_nob-c_sme-c.xml |grep '<l_'|tr '<' '>' \|
cut -d">" -f3 \|unob|grep '?'|cut -f1|rev|sort|uniq|rev|see

Arbeid framover

ap:

Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)

Løyse opp c=1, c=2 (Cip, til onsdag)

Sjekke mot unob og eit retteprogram (som vist ovafor) (Trond, til torsdag)

gå gjennom alle ap-sammensatte ord som IKKE fikk noe tilsvarende gt-lemma, feks betaling+sikkerhet

gt:

Filtrere bort modalverb frå gt-output (Cip)

Filtrere bort parallellar som allereie er på plass via ap-output

fra gt-output. (Cip)

Neste steg:

Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)

nobsme

integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)

<tg><re>


<tg re="blabla">

Neste møte