GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

FAD- og korpusmøte 14.1.2013

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

Status

Trond har vore i Helsingfors.

gt

Todo-lista frå sist er ikkje gjort. Sjå nedanfor, under gt:

Denne kommandoen fjernar semantiske taggar (per 7.1.2013) frå output av lookup2cg.

cat fiilla | perl -pe 's/(Ani|Body|Build|Clth|Edu|Event|Fem|Food|Group|Hum|Mal|Measr|Obj|Org|Plant|Plc|Route|Sur|Time|Txt|Veh|Wpn|Wthr|Allegro|v1|v2|v3|v4) //g' > | uniq > fiilla_semhaga

Den reelle lista av semantiske taggar står her: main/gt/sme/src/sme-lex.txt

Arbeid framover med FAD

Resultat av reversed engineering av ap-output (filer lagra i words/dicts/nobsme/:)

Entries:
src>grep '<e' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l

    
Lemma nob ap:    
src>grep '<l ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    8358


Postprosessert lemma nob obt
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
   10519

   
Postprosessert lemma nob obt med berre ein analyse
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c="' | wc -l
    6867


Postprosessert lemma nob obt med berre minst 2 analyser
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
    1300


etc...
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
    1300


Tilsvarande for samisk:
Lemma sme ap:
src>grep '<t ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    8358
Postprosessert lemma sme ap analysert med sme.fst 
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    9981


Postprosessert lemma sme ap analysert med sme.fst med eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c=' | wc -l
    6691

    
Postprosessert lemma sme ap analysert med sme.fst med meir enn eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
    1319
etc:    
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
    1319

Trond sjekka mot unob og MS Word:

Ta _nob-c_sme-c

Dra ut den norske ` l_ `

analysere i unob og dra ut ?

Lime inn i MS Word og gå manuelt gjennom

cat src/fad_nobsme.20121130_nob-c_sme-c.xml |grep '<l_'|tr '<' '>' \|
cut -d">" -f3 \|unob|grep '?'|cut -f1|rev|sort|uniq|rev|see

Arbeid framover

ap:

Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)

Løyse opp c=1, c=2 (Cip, til onsdag)

Sjekke mot unob og eit retteprogram (som vist ovafor) (Trond, til torsdag)

gå gjennom alle ap-sammensatte ord som IKKE fikk noe tilsvarende gt-lemma, feks betaling+sikkerhet

gt:

Filtrere bort modalverb frå gt-output (Cip)

Filtrere bort parallellar som allereie er på plass via ap-output

fra gt-output. (Cip)

Neste steg:

Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)

nobsme

integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)

<tg><re>


<tg re="blabla">

Neste møte