FAD- og korpusmøte 4.1.2013
Til stades: Berit Merete, Marja, Ciprian, Trond
Saker:
- Status
- Euralex
- nobsme
- Arbeid framover med FAD
- Neste møte
Status for FAD
Vi hadde: ap-pipeline med manuell sjekk. Har vi no: gt-pipeline? Ja.
fad_nobsme_candidates_gt-pl.20121213
Viktig poeng: Same input for gt og ap. Resultatet kan danne grunnlaget for ein vitskapleg artikkel (kva metode er best).
Euralex
Vi laga dette formatet til Euralex, parallel, i katalog
big/gt/sme/parallel_nob2sme
. Det er på formatet:
- nobsent
smesent
Ciprian har laga ein ny versjon av parallellkorpuset for Euralex.
Alle er fornøgd, og har no ein betre parallellversjon.
nobsme
Marja har arbeidd med eksempelsetningar. Problem: nob-setninga inneheld ikkje nob-ordet.
Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang
Arbeid framover med FAD
(jf. også siste møtereferat):
gt-parallellisering (enkle punkt til måndag, vanskelege punkt til neste mandag)
Filtrere bort modalverb frå gt-output (Cip)
Filtrere bort plusslause parallellar som allereie er på plass via ap-output
fra gt-output. = 14058 - 1983 = 12075. (Cip)
Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)
Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)
integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)
I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +.
Vi må ha ei rein liste som er simple-simple. Den lista utgjer dei orda som skal fjernast frå gt-output.
main/words/dicts/nobsme/terms/admin/src
fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | grep '+' | wc -l
1983
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | wc -l
14058
Neste møte
- I filmfestivalveka.