GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
FAD-møte 14.8.2013
Til stades:
BM, Cip, Marja, Trond.
Saksliste
Punkt frå abstractet:
poeng for oss:
src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr
1974 _out_/N_nobsme.xml
682 _out_/V_nobsme.xml
319 _out_/A_nobsme.xml
==> omkring 3000 rene fad-t-elementer
status
src_fad-only>grep '<e' * | grep 'mg_c' | sort | uniq -c | sort -nr
151 N_nobsme.xml: <e src="fad" mg_c="2">
120 N_nobsme.xml: <e src="fad" mg_c="3">
103 N_nobsme.xml: <e src="fad" mg_c="4">
37 N_nobsme.xml: <e src="fad" mg_c="5">
17 N_nobsme.xml: <e src="fad" mg_c="6">
9 N_nobsme.xml: <e src="fad" mg_c="7">
4 N_nobsme.xml: <e src="fad" mg_c="8">
1 N_nobsme.xml: <e src="fad" mg_c="9">
1 N_nobsme.xml: <e src="fad" mg_c="10">
src_fad-only>grep '<e' * | grep 'mg_c' | wc -l
443
For lemma og translation:
Kva kan vi gjere med desse tala?
Scenarier:
Filene:
<e>
<lg>
<l pos="N" gf="0.0000000623088" ff="0">topptekst</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="N" usage="vd" gf="0" ff="0">badjeteaksta</t>
</tg>
</mg>
</e>
<e>
<lg>
<l pos="N" gf="0.0000001142327" ff="0">bunntekst</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="N" usage="vd" gf="0.0000001120293" ff="0">vuolleteaksta</t>
</tg>
</mg>
</e>
for
Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg):
er L vanlegare i fad enn i generell
output av differanse:
Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa
kan vi finne:
viss vi for lemma L finn at:
d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv
d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ
så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing.
Arbeid framover:
Tysdag 20.8. kl. 10.00