FAD- og korpusmøte 20.11.2012
Til stades: Berit Merete, Børre, Marja, Ciprian, Sjur, Trond
Saker:
- Status
- Arbeid framover
- Autshomato
- Neste møte
Status
Gullgravinga
Ciprian har laga ei køyring (over 0.1) som M & BM har sett på, med lemma & POS+.
Status: Eit par dagars arbeid att.
Problem: Komposita.
$67 0 -5.798 0.0 0.2087912 språk+regle
11 0 -7.605 0.0 0.1212121 sovemedisin
$3 0 -8.904 0.0 0.2222222 sommerhalvår
OBS! vuohta er forsvunnet +Der/vuohta
7 0 -8.057 0.0 0.25 handel+avtale
$66 0 -5.813 0.0 0.25 spesialist+helse+tjeneste<n><m> erenoamáš+dearvvas+bálvalus<n>
=> spesialist+helse+tjeneste<n><m> erenoamáš+dearvvas+Der/vuohta+bálvalus<n>
erenoamášdearvvasvuohtabálvalus
dhcp806-ans:~ ttr000$ echo erenoamášdearvvasvuohtabálvalus | usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
erenoamášdearvvasvuohtabálvalus erenoamáš+A+SgGenCmp+Cmp#dearvvas+A+Attr+Der/vuohta+N+SgNomCmp+Cmp#bálvalus+N+Sg+Nom
...
dhcp806-ans:~ ttr000$ echo erenoamášdearvvasvuohtabálvalus | usme | lookup2cg
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
"<erenoamášdearvvasvuohtabálvalus>"
"erenoamáš#dearvvasvuohta#bálvalus" N Sg Nom
Vi får lemma, men mistar delane. Jf:
dhcp806-ans:~ ttr000$ echo sátneheasta | usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
sátneheasta sátni+N+SgNomCmp+Cmp#heasta+Ani+N+Sg+Nom
dhcp806-ans:~ ttr000$ echo sátneheasta | usme | lookup2cg
"<sátneheasta>"
"sátne#heasta" Ani N Sg Nom
Desse orda er merka.
63 0 -5.822 0.0 0.1111111 rik<adj> sátnerikkis<a> = gt
34 0 -6.476 0.0 0.2 lære+verk<n><nt> sátni+oassi<n> = ap
hum-tf4-ans161:second_run ttr000$ cat *candidates_ap* | grep sátnerikkis
hum-tf4-ans161:second_run ttr000$ cat *candidates_ap* | grep 'sátni+rikkis'
354 0 -4.096 0.0 0.025 samiskspråklig<adj> priváhtarievttálaš<a> gt
22 0 -6.911 0.0 0.5625 privatrettslig<adj> priváhtarievttálaš<a>
l ~/big/st/nob/nowac/nowac-1.1.lemmas_repaired.freq ##
l ~/big/st/nob/nowac/nowac-1.1.lemmas.freq
l ~/big/st/nob/00_readme.txt
- http://www.tekstlab.uio.no/nowac/
- http://www.hf.uio.no/iln/om/organisasjon/tekstlab/
- http://www.hf.uio.no/iln/om/organisasjon/tekstlab/prosjekter/nowac/index.html
- http://www.hf.uio.no/iln/om/organisasjon/tekstlab/tjenester/nowac-frequency.html
GJERA:
- Diskutere kolonnene med Francis (Trond)
- Bli ferdig med *.filtered (tidleg i neste veke) (Marja, Berit)
- Bruke NoWaC som språkmodell og køyre gt-parallellisering (Cip)
- Rydde opp i komposita (På vent)
- Skilje mellom fagord og andre ord ** Nye ordpar vil vi ha ** Lakuner i nobsme vil vi gjerne ha sjølv om det ikkje er fagord ** Ordpar vi allereie har filtrerer vi vekk ** nob-ord som har andre sme i FAD enn i nobsme er gode kandidatar til fagord
- Møte for å evaluere dei to vegane i neste veke
Korpuskonvertering
Later- og skip-tagger (på vent) korpusarbeidet skal pågå kontinuerlig
Korpus-buggar
- 1482 maj P5 Pre- and Børre Gaup prepocess: problemer med kolon og linjeskift ** Denne vil vi fikse.
- 1061 min P4 Corpus Børre Gaup Language identification ignores xml:lang value ** Dette ser ut til å vere overkommeleg.
- 1491 enh P5 Corpus Børre Gaup Introduce new attributes to improve sentence alignability ** Denne bør opp som sak på FAD-møtet.
- 1391 enh P5 Corpus Børre Gaup Files declared in xsl meta file but missing in the converted corpus
- 1481 nor P5 Corpus Berit Nystad Esko… Underspecified translation direction (Berit)
- 1484 enh P5 Corpus Børre Gaup unequal number of object vs. meta files in the whole corpus
- 1531 nor P5 Corpus Børre Gaup Filnavn bør ikke inneholde spesielle samiske eller norske bokstaver
- 1074 nor P5 Corpus Ciprian Gerstenbe… Possible infinite template recursion because of input data
- 1494 maj P5 Pre- and Trond Trosterud Ø blir til både ø og ö i analysen ** Dette er ein bug som kan bli plagsom den dagen den blir plagsom.
TILTAK
- Ansvarlege: gå gjennom lista til neste møte.
Arbeid framover
Sjå ovafor.
Autshomato
Utsetje til neste møte.
Neste møte
Onsdag 19.12. 09.30