GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades:
BM, Cip, Marja, Trond.
Saksliste
Punkt frå abstractet:
poeng for oss:
src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr
1974 _out_/N_nobsme.xml
682 _out_/V_nobsme.xml
319 _out_/A_nobsme.xml
==> omkring 3000 rene fad-t-elementer
status
src_fad-only>grep '<e' * | grep 'mg_c' | sort | uniq -c | sort -nr
151 N_nobsme.xml: <e src="fad" mg_c="2">
120 N_nobsme.xml: <e src="fad" mg_c="3">
103 N_nobsme.xml: <e src="fad" mg_c="4">
37 N_nobsme.xml: <e src="fad" mg_c="5">
17 N_nobsme.xml: <e src="fad" mg_c="6">
9 N_nobsme.xml: <e src="fad" mg_c="7">
4 N_nobsme.xml: <e src="fad" mg_c="8">
1 N_nobsme.xml: <e src="fad" mg_c="9">
1 N_nobsme.xml: <e src="fad" mg_c="10">
src_fad-only>grep '<e' * | grep 'mg_c' | wc -l
443
For lemma og translation:
Kva kan vi gjere med desse tala?
Scenarier:
Filene:
<e>
<lg>
<l pos="N" gf="0.0000000623088" ff="0">topptekst</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="N" usage="vd" gf="0" ff="0">badjeteaksta</t>
</tg>
</mg>
</e>
<e>
<lg>
<l pos="N" gf="0.0000001142327" ff="0">bunntekst</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="N" usage="vd" gf="0.0000001120293" ff="0">vuolleteaksta</t>
</tg>
</mg>
</e>
for
Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg):
er L vanlegare i fad enn i generell
output av differanse:
Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa
kan vi finne:
viss vi for lemma L finn at:
d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv
d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ
så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing.
Arbeid framover:
Tysdag 20.8. kl. 10.00