GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD-möte 17.9.

Til stades: BM, Cip, Trond

Saker

Evaluering

BM-Trond

Vi har eit resultat for fordelinga av o, med grense linje 1700 i fad_only_p-fila, jf. dokumentet art/2013/oovtast/terms/eval.txt

Neste steg: Repeter for merged-gt-fad og gt-only.

TILTAK

Ciprian - Bergensevaluering

sjekke overlapp av våre nob med nob i NHH-KBN-NOT-termsamlinga.

Foredrag

Formalia

Why - motivasjon - FAD - 1 slide

How - Hvordan med tall: Korpus - xml - parallellfiler - sentence alignment - filtrere støy - analysere m/ Oslo-Bergen og GT - word alignment - automatisk (terskel) & manuell - antall entry (ny data A, V, N) - sammenliknet med GT-data

Overgang til what: En side med GT-data og nye fad-data (Ciprian har illustrajonen)

What - Evaluering: Hvor mye data har vi fått fra fad, evaluering, sammenlikning. Konklusjon : sammenfatning, peke på arbeid videre

Ciprian: Evaluering mot database -

Ciprians del: 7 slide

Berits del: 8 slide - 5 slides med problematikk, 2 slides for brukbarhet, 1 slide konklusjon

Berit: Frekvenser - hvordan er de laget: sme: FAD/GT, nob: FAD/Nowac Hvordan har vi gjort dette? Problemer med data, for lite data, ikke velbestemt domene Forklare hvordan vi har evaluert og hva resultatet er: dette er ferdig for fad_only, må også gjøres for de to andre gruppene

Problematisk å vurdere data. Vi har gjort vår del, men vi er ikke normative

Hva er vitsen : vi lager ordlister og økt antall lemma i ordboka, parallellkorpus, glossary, støtte for oversettere.

Konklusjon: 1 slide

Hente tall fra rapporten, tidligere presentasjon

TILTAK

Cip lagar ei ramme, eit .tex-dokument