GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
Til stades: Berit Merete, Marja, Ciprian, Trond
Vi hadde: ap-pipeline med manuell sjekk. Har vi no: gt-pipeline? Ja.
fad_nobsme_candidates_gt-pl.20121213
Viktig poeng: Same input for gt og ap. Resultatet kan danne grunnlaget for ein vitskapleg artikkel (kva metode er best).
Vi laga dette formatet til Euralex, parallel, i katalog
big/gt/sme/parallel_nob2sme
. Det er på formatet:
Ciprian har laga ein ny versjon av parallellkorpuset for Euralex.
Alle er fornøgd, og har no ein betre parallellversjon.
Marja har arbeidd med eksempelsetningar. Problem: nob-setninga inneheld ikkje nob-ordet.
Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang
(jf. også siste møtereferat):
fra gt-output. = 14058 - 1983 = 12075. (Cip)
I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +.
Vi må ha ei rein liste som er simple-simple. Den lista utgjer dei orda som skal fjernast frå gt-output.
main/words/dicts/nobsme/terms/admin/src
fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | grep '+' | wc -l
1983
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | wc -l
14058