GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Børre, Ciprian, Marja, Trond, Berit Merete
Issues for the next meeting:
documenting the whole working cycle and the responisibilities for each step
synching the tmx-toktmx files
work_in_progress>wc -l input_data_t/ 109345 input_data_tmx/data.nob 109345 input_data_tmx/data.sme 150781 input_data_toktmx/data.nob 150781 input_data_toktmx/data.sme
Vi har eit ordparallellisert output, men det er ikkje brukbart, pga. problem med tredobbel preprosessering. Sjå punkt om rutiner lenger ned.
Oversikt over heile pipeline
Pipeline var feil: det var tredobbel preprosessering. Cip tok data frå tmx, men nye filer er ikkje “i synch med tmx”. Börre genererer tmx og toktmx (Sjur ville ha tmx for CAT-arbeid, og toktmx (ekstra mellomrom).
toktmx er setningsalignment. Det bør gå til ???, tmx bør gå til preprosessering.
tca2 må ha tokenisert input. Ergo har vi toktmx.
For vidare analyse treng vi utokenisert. Vi får utokenisert
ved å endre frå toktmx til tmx med toktmx2tmx.py
.
Problemet er at obt har ein preprosesserar inne i taggaren sin. Dei må ha setning som input, og ikkje ord-per-linje.
tmx og toktmx er ikkje i sync fordi vi har konvertert til toktmx men ikkje til tmx. Det er to ulike trinn, til toktmx er trinn n, og til tmx er trinn n+1. Dette er ikkje automatisert.
tmx er originalstreng.
Rutine: Konvertere til xml: convert2xml.pl Finne parallelle filer: pick-parallel-doc.pl Sentence alignment: corpus-parallel.py -> gir toktmx Pynte toktmx: toktmx2tmx.py -> gir tmx
01_readme_FAD-pipeline.txt
plan- og bygningsloven:
"<plan->"
"plan-" ukjent
"<og>"
"og" konj
"<bygningsloven>"
"bygningslov" subst appell mask be ent <*lov>
/big/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/20121014_data
Fredag 26. oktober kl 10