Møte, FAD, 30.8.2012
Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete
Saksliste
- Status quo ** setningar ** ord
- Arbeid framover
Status quo
Setningar
Ciprian kan køyre pipeline. Showstopper er Trond,
som ikkje har retta nob/src/abbr.txt
.
Børre har flytta tekstar frå språkkatalogane til mixed-katalogane. Vi har dermed ikkje same prestable som før.
Børre har laga ei bra pipeline for python.
Input frå Børre: Informasjon om metafiler til kvar fil: Det kan mangle peikarar i dei tilfella der fila er flytta frå katalog til katalog, og der det er dobbeltfiler.
Originalspråk: Metafiler manglar informasjon om retning, og om språk.
Ciprian køyrer setningsparallellisering på nytt, og genererer
ein ny prestable
. Den nye blir referanse for arbeidet med abbr.
TODO
- Børre ser på samsvar mellom fil og metafil.
- Ciprian sendar setningspar til Trond
- Trond endrar nob/src/abbr.txt slik at vi får same output som sme.
- Parallelt (sic:) Ciprian køyrer ny prestable, input frå Børre.
- Nye namn til preprestable / gogoX + dokumetasjon (Ciprian)
Ord
Når tiltaka under setningsparallellisering er gjennomført (sjå ovafor) køyrer Ciprian ordparallellisering på nytt.
TODO
- Køyre ny versjon (etter setningsparallellisering) Ciprian
- Sjekke ordparallelliseringa Marja, Berit Merete
- Diskutere grensenivå for konfidens.
Forbetringar i prosessen
- lagra kvar versjon av konvertert materiale, spar dei siste to-tre versjonane. På det viset er det lett å jamføra resultatet av ulike konverteringar, slik at ein lett kan sjå kva som har endra seg.
Arbeid framover
Bugar
- 1074 nor P5 Possible infinite template recursion because of input data
- 1170 nor P3 Soft hyphens should be converted to
- 1172 nor P5 Recent svn (r47755) breaks encoding conversion when speci…
- 1369 enh P5 OCR files have been included in our prestable corpus
- 1387 nor P5 Doubled content in the toktmx files in the nob2sme sente…
- 1389 cri P3 files in orig directory lacking an xsl meta file
- 1390 enh P5 Recorded typos still in the final format (tmx/toktmx)
- 1391 enh P5 Parallel files declared in xsl meta file but missing in t…
- 1392 enh P5 Unspecified translation direction in the meta file in for…
Moment til ein neste fase
Manuelt arbeid med utgangspunkt i norskspråklege forvaltningsordbøker eller -ordlister.
Dependensanalyse og MWE i parallellisering.
Neste møte
Onsdag 5.9., kl. 1300.