FAD- og korpusmøte 14.1.2013
Til stades: Berit Merete, Marja, Ciprian, Trond
Saker:
- Status
- Arbeid framover med FAD
- nobsme
- Neste møte
Status
Trond har vore i Helsingfors.
- Attende til gt:
** Filtrere bort frå gt-output alt som er parallellisert med apertium, slik
at det manuelle gt-arbeidet blir berre på nye ord
** Resultat:
l_gt
isrc/fad_nobsme.20121130_nob-c_sme-c.xml
gt
Todo-lista frå sist er ikkje gjort. Sjå nedanfor, under gt:
Denne kommandoen fjernar semantiske taggar (per 7.1.2013) frå output av lookup2cg.
cat fiilla | perl -pe 's/(Ani|Body|Build|Clth|Edu|Event|Fem|Food|Group|Hum|Mal|Measr|Obj|Org|Plant|Plc|Route|Sur|Time|Txt|Veh|Wpn|Wthr|Allegro|v1|v2|v3|v4) //g' > | uniq > fiilla_semhaga
Den reelle lista av semantiske taggar står her:
main/gt/sme/src/sme-lex.txt
Arbeid framover med FAD
Resultat av reversed engineering av ap-output (filer lagra i words/dicts/nobsme/:)
Entries:
src>grep '<e' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
Lemma nob ap:
src>grep '<l ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
8358
Postprosessert lemma nob obt
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
10519
Postprosessert lemma nob obt med berre ein analyse
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c="' | wc -l
6867
Postprosessert lemma nob obt med berre minst 2 analyser
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
1300
etc...
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
1300
Tilsvarande for samisk:
Lemma sme ap:
src>grep '<t ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
8358
Postprosessert lemma sme ap analysert med sme.fst
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
9981
Postprosessert lemma sme ap analysert med sme.fst med eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c=' | wc -l
6691
Postprosessert lemma sme ap analysert med sme.fst med meir enn eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
1319
etc:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
1319
Trond sjekka mot unob og MS Word:
Ta _nob-c_sme-c
Dra ut den norske l_
analysere i unob og dra ut ?
Lime inn i MS Word og gå manuelt gjennom
cat src/fad_nobsme.20121130_nob-c_sme-c.xml |grep '<l_'|tr '<' '>' \|
cut -d">" -f3 \|unob|grep '?'|cut -f1|rev|sort|uniq|rev|see
Arbeid framover
ap:
Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)
Løyse opp c=1, c=2 (Cip, til onsdag)
Sjekke mot unob og eit retteprogram (som vist ovafor) (Trond, til torsdag)
gå gjennom alle ap-sammensatte ord som IKKE fikk noe tilsvarende gt-lemma, feks betaling+sikkerhet
gt:
Filtrere bort modalverb frå gt-output (Cip)
Filtrere bort parallellar som allereie er på plass via ap-output
fra gt-output. (Cip)
Neste steg:
Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)
nobsme
integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)
<tg><re>
<tg re="blabla">
Neste møte
- Eigen nobsme-leksikografisk diskusjon tysdag 15.1. 12.00 (Trond, BM, Márjá).
- Neste møte: Måndag 21.1.2013 før lunsj
- Deretter møte ca. onsdag, også med Børre og Sjur.