GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Berit Merete, Marja, Ciprian, Trond
Vi hadde: ap-pipeline med manuell sjekk. Har vi no: gt-pipeline? Ja.
fad_nobsme_candidates_gt-pl.20121213
Viktig poeng: Same input for gt og ap. Resultatet kan danne grunnlaget for ein vitskapleg artikkel (kva metode er best).
Vi laga dette formatet til Euralex, parallel, i katalog
big/gt/sme/parallel_nob2sme
. Det er på formatet:
Ciprian har laga ein ny versjon av parallellkorpuset for Euralex.
Alle er fornøgd, og har no ein betre parallellversjon.
Marja har arbeidd med eksempelsetningar. Problem: nob-setninga inneheld ikkje nob-ordet.
Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang
(jf. også siste møtereferat):
fra gt-output. = 14058 - 1983 = 12075. (Cip)
I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +.
Vi må ha ei rein liste som er simple-simple. Den lista utgjer dei orda som skal fjernast frå gt-output.
main/words/dicts/nobsme/terms/admin/src
fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | grep '+' | wc -l
1983
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | wc -l
14058