FAD- og korpusmøte 25.1.2013
Til stades: Berit Merete, Børre, Ciprian, Sjur, Trond
Saker:
- Status
- Arbeid framover med FAD
- Autshumato
- Neste møte
Status
Cip har arbeidd i to pipelines, ap, gt (der gt betyr gt + obt).
Katalogen todo-done:
Det er fem filer i
dhcp274-ans:src ttr000$ wc -l *l|sort -nr
173322 total
93995 done_fad_nobsme.20121130_nob-c_sme-c.xml
50452 done_fad_nobsme.20121130_nob-s_sme-s.xml
21203 done_fad_nobsme.20121130_nob-s_sme-c.xml
7099 todo_fad_nobsme.20121130_nob-c_sme-c.xml
573 todo_fad_nobsme.20121130_nob-s_sme-c.xml
Det er ein systematisk feil i obt. Den gjev ikkje
echo riksvegvegnettet | obt/bin/mtag-osx64
"<riksvegvegnettet>"
"riksvegvegnettet" subst prop <<<
"<vegnettet>"
"vegnett" subst appell nøyt be ent <<<
echo piratsituasjonen | obt/bin/mtag-osx64
"<piratsituasjonen>"
"piratsituasjonen" subst prop <<<
echo situasjonen | obt/bin/mtag-osx64
"<situasjonen>"
"situasjon" subst appell mask be ent <<<
echo hesdfstesituasjonen | obt/bin/mtag-osx64
"<hesdfstesituasjonen>"
"hesdfstesituasjonen" subst prop <<<
riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef
riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef riksvegvegnett
Def som kan reduserast til Indef:
cat *l|grep l_gt |tr '<' '>'|cut -d">" -f3|unob|grep '+Def'|cut -f1|wc -l
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
215
Arbeid framover med FAD
TILTAK
ordparallellisering
BM, Marja og Trond ser på dette:
rette 2 todo-filer i main/words/dicts/nobsme/terms/admin/src/todo-
todo-filene: rett sme manuelt i fil
I prosessen: sjå om det er ting som kan ordnast (halv)automatisk
nob
finpusse lemma
Redusere Def til Indef
Finn dei: Trond
Putt dei inn på plass: Ciprian
analysere ord som ikkje får analyse Trond
600 som ikke har lemma med gt-pipeline
Analysere ordformer og gje grunnformer
nobsme
Endre til (**Ciprian**)
Sette inn rank-verdiar manuelt
Sortere mg etter rank-verdiar (Ciprian)
Autsh (sjå neste punkt)
grep 'l_gt_c="0"' *l |wc -l
191
grep 't_gt_c="0"' *l |wc -l
369
Ultimate mål:
- Forbetre allmennordboka med FAD-resultat (tja, det beste kan vera å ha dei kvar for seg)
- Lage domenespesifikk FAD-ordbok ** Risten2, evt. NSG
- Lage grensesnitt for parallellkorpus ( -> Korp )
- Lage Auths-løysing
Autshumato
[/tools/autshumato.html]
Få omsetjarar til å bruke Authsumato
- Tilby avgrensa omsetjingsminne
- Dictionary og glossary (nob
sme), to alternativ: ** Tilby **autsh-Dictionary** (nobsme minus vanlege ord) og **autsh-glossary** (FAD-ordboka? par som har høgare domenefrekvens enn allmennfrekvens) ** Domenespesifikk FAD er Dictionary og deira private er Glossary - med kvalitetssikring? ** Tilby omsetjingsminnet in toto ** Tilby å parallellisere tekstpar for folk
Kandidatar til å teste: Arnstein, Sametingsomsetjarar, Mikkel Magnus Utsi? Dep?
TODO
- Prøve Autshumato sjølv (alle andre enn BM)
- Lære Autshumato til BM (husk å dokumentere)
- Diskutere med Arnstein + vise
Neste møte
- Tromsø tysdag 29.1 kl. 13
- Plenum: Veka etter der att (vi vurderer det)