GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

FAD- og korpusmøte 4.1.2013

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

Status for FAD

Vi hadde: ap-pipeline med manuell sjekk. Har vi no: gt-pipeline? Ja.

fad_nobsme_candidates_gt-pl.20121213

Viktig poeng: Same input for gt og ap. Resultatet kan danne grunnlaget for ein vitskapleg artikkel (kva metode er best).

Euralex

Vi laga dette formatet til Euralex, parallel, i katalog big/gt/sme/parallel_nob2sme. Det er på formatet:

Ciprian har laga ein ny versjon av parallellkorpuset for Euralex.

Alle er fornøgd, og har no ein betre parallellversjon.

nobsme

Marja har arbeidd med eksempelsetningar. Problem: nob-setninga inneheld ikkje nob-ordet.

Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang

Arbeid framover med FAD

(jf. også siste møtereferat):

gt-parallellisering (enkle punkt til måndag, vanskelege punkt til neste mandag)

Filtrere bort modalverb frå gt-output (Cip)

Filtrere bort plusslause parallellar som allereie er på plass via ap-output

fra gt-output. = 14058 - 1983 = 12075. (Cip)

Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)

Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)

integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)

I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +.

Vi må ha ei rein liste som er simple-simple. Den lista utgjer dei orda som skal fjernast frå gt-output.

main/words/dicts/nobsme/terms/admin/src

fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml

src>grep '<t' fad_nobsme.20121130_merged_simp.xml | grep '+' | wc -l
    1983
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | wc -l
   14058

Neste møte