GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD-møte 14.8.2013

Til stades:

BM, Cip, Marja, Trond.

Saksliste

presentasjonen i Enare

Punkt frå abstractet:

poeng for oss:

arbeidet

disambiguere

src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr
1974 _out_/N_nobsme.xml
 682 _out_/V_nobsme.xml
 319 _out_/A_nobsme.xml
 ==> omkring 3000 rene fad-t-elementer

status

src_fad-only>grep '<e' * | grep 'mg_c' | sort | uniq -c | sort -nr
 151 N_nobsme.xml:   <e src="fad" mg_c="2">
 120 N_nobsme.xml:   <e src="fad" mg_c="3">
 103 N_nobsme.xml:   <e src="fad" mg_c="4">
  37 N_nobsme.xml:   <e src="fad" mg_c="5">
  17 N_nobsme.xml:   <e src="fad" mg_c="6">
   9 N_nobsme.xml:   <e src="fad" mg_c="7">
   4 N_nobsme.xml:   <e src="fad" mg_c="8">
   1 N_nobsme.xml:   <e src="fad" mg_c="9">
   1 N_nobsme.xml:   <e src="fad" mg_c="10">


   src_fad-only>grep '<e' * | grep 'mg_c' | wc -l
     443

For lemma og translation:

abs frekv for ordet i heile domenet =

rel frekv for ordet i heile domenet = gfL, gfT

abs frekv for ordet i fagdomenet

rel frekv for ordet i fagdomenet = ffL, ffT

Kva kan vi gjere med desse tala?

Scenarier:

Filene:

   <e>
      <lg>
         <l pos="N" gf="0.0000000623088" ff="0">topptekst</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="N" usage="vd" gf="0" ff="0">badjeteaksta</t>
         </tg>
      </mg>
   </e>


   <e>
      <lg>
         <l pos="N" gf="0.0000001142327" ff="0">bunntekst</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="N" usage="vd" gf="0.0000001120293" ff="0">vuolleteaksta</t>
         </tg>
      </mg>
   </e>

for og :

Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg):

er L vanlegare i fad enn i generell

output av differanse:

Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa

kan vi finne:

viss vi for lemma L finn at:
d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv
d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ


så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing.

Arbeid framover:

grunndata for fad ferdig (unifisering) (bm, trond, marja)

frekvensar for ordpar frå fad-merge (cip)

differansar som ovafor (cip)

nytt møte, evaluering, presentasjon (alle) <–

Neste møte

Tysdag 20.8. kl. 10.00