GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD- og korpusmøte 4.1.2013

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

Status for FAD

Vi hadde: ap-pipeline med manuell sjekk. Har vi no: gt-pipeline? Ja.

fad_nobsme_candidates_gt-pl.20121213

Viktig poeng: Same input for gt og ap. Resultatet kan danne grunnlaget for ein vitskapleg artikkel (kva metode er best).

Euralex

Vi laga dette formatet til Euralex, parallel, i katalog big/gt/sme/parallel_nob2sme. Det er på formatet:

Ciprian har laga ein ny versjon av parallellkorpuset for Euralex.

Alle er fornøgd, og har no ein betre parallellversjon.

nobsme

Marja har arbeidd med eksempelsetningar. Problem: nob-setninga inneheld ikkje nob-ordet.

Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang

Arbeid framover med FAD

(jf. også siste møtereferat):

gt-parallellisering (enkle punkt til måndag, vanskelege punkt til neste mandag)

Filtrere bort modalverb frå gt-output (Cip)

Filtrere bort plusslause parallellar som allereie er på plass via ap-output

fra gt-output. = 14058 - 1983 = 12075. (Cip)

Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)

Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)

integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)

I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +.

Vi må ha ei rein liste som er simple-simple. Den lista utgjer dei orda som skal fjernast frå gt-output.

main/words/dicts/nobsme/terms/admin/src

fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml

src>grep '<t' fad_nobsme.20121130_merged_simp.xml | grep '+' | wc -l
    1983
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | wc -l
   14058

Neste møte