FAD-møte 14.8.2013
Til stades:
BM, Cip, Marja, Trond.
Saksliste
- presentasjonen i Enare
- arbeidet
- neste møte
presentasjonen i Enare
Punkt frå abstractet:
- We report on the onging work
- evaluate by native speakers
- copmparing to dict
- We have a dictionary
- We get a domain-specific list
- What does it give us?
poeng for oss:
- kva har vi gjort
- eksisterer det ein samisk fagterminologi
- er vi i stand til å finne den
- er dette nyttig
arbeidet
disambiguere
src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr
1974 _out_/N_nobsme.xml
682 _out_/V_nobsme.xml
319 _out_/A_nobsme.xml
==> omkring 3000 rene fad-t-elementer
status
src_fad-only>grep '<e' * | grep 'mg_c' | sort | uniq -c | sort -nr
151 N_nobsme.xml: <e src="fad" mg_c="2">
120 N_nobsme.xml: <e src="fad" mg_c="3">
103 N_nobsme.xml: <e src="fad" mg_c="4">
37 N_nobsme.xml: <e src="fad" mg_c="5">
17 N_nobsme.xml: <e src="fad" mg_c="6">
9 N_nobsme.xml: <e src="fad" mg_c="7">
4 N_nobsme.xml: <e src="fad" mg_c="8">
1 N_nobsme.xml: <e src="fad" mg_c="9">
1 N_nobsme.xml: <e src="fad" mg_c="10">
src_fad-only>grep '<e' * | grep 'mg_c' | wc -l
443
For lemma og translation:
abs frekv for ordet i heile domenet =
rel frekv for ordet i heile domenet = gfL, gfT
abs frekv for ordet i fagdomenet
rel frekv for ordet i fagdomenet = ffL, ffT
Kva kan vi gjere med desse tala?
Scenarier:
- vanleg i fagdomene / sjelden i heile domene
- Kva er terskelen for å finne fagord?
- Finn vi fagord i det heile?
- Finn vi domener?
Filene:
<e>
<lg>
<l pos="N" gf="0.0000000623088" ff="0">topptekst</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="N" usage="vd" gf="0" ff="0">badjeteaksta</t>
</tg>
</mg>
</e>
<e>
<lg>
<l pos="N" gf="0.0000001142327" ff="0">bunntekst</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="N" usage="vd" gf="0.0000001120293" ff="0">vuolleteaksta</t>
</tg>
</mg>
</e>
for
- gf = global relativ frekvens (nowac)
- ff = fagfrekvens (fad)
Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg):
- gfL, ffL, gfT, ffT
- tttt … relative skilnader her
- tt00
- t0t0
- ttt0
- 0000
er L vanlegare i fad enn i generell
- ffL - gfL = positiv ==> fagord (meir vanleg i domene)
- ffL - gfL = 0 ==> generelt ord (like vanleg) der 0 er det same som ± 0.05
- ffL - gfL = negativ ==> ikkje fagord (mindre vanleg i domene)
output av differanse:
- list ordpar ordna etter d(ffL,gfL) (øverst det ordparet som er “mest fagord”
- Sjå på lista og trekk ei grense
Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa
kan vi finne:
viss vi for lemma L finn at:
d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv
d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ
så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing.
Arbeid framover:
grunndata for fad ferdig (unifisering) (bm, trond, marja)
frekvensar for ordpar frå fad-merge (cip)
differansar som ovafor (cip)
nytt møte, evaluering, presentasjon (alle) <–
Neste møte
Tysdag 20.8. kl. 10.00