GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
FAD-möte 17.9.
Til stades: BM, Cip, Trond
Vi har eit resultat for fordelinga av o, med grense linje 1700 i
fad_only_p-fila,
jf. dokumentet art/2013/oovtast/terms/eval.txt
Neste steg: Repeter for merged-gt-fad og gt-only.
TILTAK
sjekke overlapp av våre nob med nob i NHH-KBN-NOT-termsamlinga.
Why - motivasjon - FAD - 1 slide
How - Hvordan med tall: Korpus - xml - parallellfiler - sentence alignment - filtrere støy - analysere m/ Oslo-Bergen og GT - word alignment - automatisk (terskel) & manuell - antall entry (ny data A, V, N) - sammenliknet med GT-data
Overgang til what: En side med GT-data og nye fad-data (Ciprian har illustrajonen)
What - Evaluering: Hvor mye data har vi fått fra fad, evaluering, sammenlikning. Konklusjon : sammenfatning, peke på arbeid videre
Ciprian: Evaluering mot database -
Ciprians del: 7 slide
Berits del: 8 slide - 5 slides med problematikk, 2 slides for brukbarhet, 1 slide konklusjon
Berit: Frekvenser - hvordan er de laget: sme: FAD/GT, nob: FAD/Nowac Hvordan har vi gjort dette? Problemer med data, for lite data, ikke velbestemt domene Forklare hvordan vi har evaluert og hva resultatet er: dette er ferdig for fad_only, må også gjøres for de to andre gruppene
Problematisk å vurdere data. Vi har gjort vår del, men vi er ikke normative
Hva er vitsen : vi lager ordlister og økt antall lemma i ordboka, parallellkorpus, glossary, støtte for oversettere.
Konklusjon: 1 slide
Hente tall fra rapporten, tidligere presentasjon
TILTAK
Cip lagar ei ramme, eit .tex-dokument