GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: BM, Cip, Trond
Vi har eit resultat for fordelinga av o, med grense linje 1700 i
fad_only_p-fila,
jf. dokumentet art/2013/oovtast/terms/eval.txt
Neste steg: Repeter for merged-gt-fad og gt-only.
TILTAK
sjekke overlapp av våre nob med nob i NHH-KBN-NOT-termsamlinga.
Why - motivasjon - FAD - 1 slide
How - Hvordan med tall: Korpus - xml - parallellfiler - sentence alignment - filtrere støy - analysere m/ Oslo-Bergen og GT - word alignment - automatisk (terskel) & manuell - antall entry (ny data A, V, N) - sammenliknet med GT-data
Overgang til what: En side med GT-data og nye fad-data (Ciprian har illustrajonen)
What - Evaluering: Hvor mye data har vi fått fra fad, evaluering, sammenlikning. Konklusjon : sammenfatning, peke på arbeid videre
Ciprian: Evaluering mot database -
Ciprians del: 7 slide
Berits del: 8 slide - 5 slides med problematikk, 2 slides for brukbarhet, 1 slide konklusjon
Berit: Frekvenser - hvordan er de laget: sme: FAD/GT, nob: FAD/Nowac Hvordan har vi gjort dette? Problemer med data, for lite data, ikke velbestemt domene Forklare hvordan vi har evaluert og hva resultatet er: dette er ferdig for fad_only, må også gjøres for de to andre gruppene
Problematisk å vurdere data. Vi har gjort vår del, men vi er ikke normative
Hva er vitsen : vi lager ordlister og økt antall lemma i ordboka, parallellkorpus, glossary, støtte for oversettere.
Konklusjon: 1 slide
Hente tall fra rapporten, tidligere presentasjon
TILTAK
Cip lagar ei ramme, eit .tex-dokument