FAD-Møte 18.10.2012
Til stades: Børre, Ciprian, Marja, Trond, Berit Merete
Saker:
- Ordparallellisering
- Setningsparallellisering
- Rutiner ** Arbeidsfordeling
- Arbeid framover
- Neste møte
Issues for the next meeting:
-
documenting the whole working cycle and the responisibilities for each step
-
synching the tmx-toktmx files
work_in_progress>wc -l input_data_t/ 109345 input_data_tmx/data.nob 109345 input_data_tmx/data.sme 150781 input_data_toktmx/data.nob 150781 input_data_toktmx/data.sme
- analysis and improvement of the output file of the word alignment step
Ordparallellisering
Vi har eit ordparallellisert output, men det er ikkje brukbart, pga. problem med tredobbel preprosessering. Sjå punkt om rutiner lenger ned.
Setningsparallellisering
Rutiner
Oversikt over heile pipeline
Pipeline var feil: det var tredobbel preprosessering. Cip tok data frå tmx, men nye filer er ikkje “i synch med tmx”. Börre genererer tmx og toktmx (Sjur ville ha tmx for CAT-arbeid, og toktmx (ekstra mellomrom).
toktmx er setningsalignment. Det bør gå til ???, tmx bør gå til preprosessering.
- tmx:
**
Báiki: Samelandssenter, Kárášjohka **Áigi: guovvamánu 23. - 26. b. 1999 - toktmx:
**
Báiki : Samelandssenter , Kárášjohka **Áigi : guovvamánu 23. - 26. b. 1999
tca2 må ha tokenisert input. Ergo har vi toktmx.
For vidare analyse treng vi utokenisert. Vi får utokenisert
ved å endre frå toktmx til tmx med toktmx2tmx.py
.
Problemet er at obt har ein preprosesserar inne i taggaren sin. Dei må ha setning som input, og ikkje ord-per-linje.
tmx og toktmx er ikkje i sync fordi vi har konvertert til toktmx men ikkje til tmx. Det er to ulike trinn, til toktmx er trinn n, og til tmx er trinn n+1. Dette er ikkje automatisert.
tmx er originalstreng.
Rutine: Konvertere til xml: convert2xml.pl Finne parallelle filer: pick-parallel-doc.pl Sentence alignment: corpus-parallel.py -> gir toktmx Pynte toktmx: toktmx2tmx.py -> gir tmx
ta toktmx som input
køyr corpusparallel.py
01_readme_FAD-pipeline.txt
Forbetring
plan- og bygningsloven:
"<plan->"
"plan-" ukjent
"<og>"
"og" konj
"<bygningsloven>"
"bygningslov" subst appell mask be ent <*lov>
/big/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/20121014_data
Arbeidsfordeling
Konvertering, sentencealignment, wordalignment (Ciprian)
Missinglister (BM, Márjá)
Arbeid framover
Konvertere orig på nytt og overføre data til prestable. (Ciprian)
Sentencealigne på nytt (Ciprian)
Lage nye sme-missinglister (Ciprian)
Gå gjennom sme-missingliste, inkl oaţţut, oñña, ieţas (BM, Márjá, Børre)
Til mandag kl 12: Lage liste over filpar som ikke blir overført til prestable (Ciprian)
Gå igjennom liste over filpar som ikke blir overført til prestable (BM, Márjá)
Legge ut dokumentasjon om hvordan rette opp feil i fil-parallelisering (BM, Børre)
Legge ut dokumentasjon om hvordan rette opp feil i setningsparallelisering (BM, Børre)
Neste møte
Fredag 26. oktober kl 10