GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

FAD-møte 14.8.2013

Til stades:

BM, Cip, Marja, Trond.

Saksliste

presentasjonen i Enare

Punkt frå abstractet:

poeng for oss:

arbeidet

disambiguere

src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr 
1974 _out_/N_nobsme.xml
 682 _out_/V_nobsme.xml
 319 _out_/A_nobsme.xml
 ==> omkring 3000 rene fad-t-elementer

status

src_fad-only>grep '<e' * | grep 'mg_c' | sort | uniq -c | sort -nr  
 151 N_nobsme.xml:   <e src="fad" mg_c="2">
 120 N_nobsme.xml:   <e src="fad" mg_c="3">
 103 N_nobsme.xml:   <e src="fad" mg_c="4">
  37 N_nobsme.xml:   <e src="fad" mg_c="5">
  17 N_nobsme.xml:   <e src="fad" mg_c="6">
   9 N_nobsme.xml:   <e src="fad" mg_c="7">
   4 N_nobsme.xml:   <e src="fad" mg_c="8">
   1 N_nobsme.xml:   <e src="fad" mg_c="9">
   1 N_nobsme.xml:   <e src="fad" mg_c="10">

   
   src_fad-only>grep '<e' * | grep 'mg_c' | wc -l 
     443

For lemma og translation:

abs frekv for ordet i heile domenet =

rel frekv for ordet i heile domenet = gfL, gfT

abs frekv for ordet i fagdomenet

rel frekv for ordet i fagdomenet = ffL, ffT

Kva kan vi gjere med desse tala?

Scenarier:

Filene:

   <e>
      <lg>
         <l pos="N" gf="0.0000000623088" ff="0">topptekst</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="N" usage="vd" gf="0" ff="0">badjeteaksta</t>
         </tg>
      </mg>
   </e>


   <e>
      <lg>
         <l pos="N" gf="0.0000001142327" ff="0">bunntekst</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="N" usage="vd" gf="0.0000001120293" ff="0">vuolleteaksta</t>
         </tg>
      </mg>
   </e>

for og :

Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg):

er L vanlegare i fad enn i generell

output av differanse:

Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa

kan vi finne:

viss vi for lemma L finn at:
d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv
d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ


så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing.

Arbeid framover:

grunndata for fad ferdig (unifisering) (bm, trond, marja)

frekvensar for ordpar frå fad-merge (cip)

differansar som ovafor (cip)

nytt møte, evaluering, presentasjon (alle) <–

Neste møte

Tysdag 20.8. kl. 10.00