GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
FAD-Møte 25.9.2012
Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete
Status quo for data før tillegg etter førre møte: 109021 setningspar.
1_ape_n>wc -l data.*
109021 data.tagged.clean.nob
109021 data.tagged.clean.sme
1_ape_n>wc -l 20120
1_ape_n>wc -l 20120720_run/data.*
113287 20120720_run/data.tagged.clean.nob
113287 20120720_run/data.tagged.clean.sme
$GTFREE=/Users/cipriangerstenberger/20120924_schlange_reloaded find prestable/converted/nob -name *.xml -exec corpus-parallel.py -p sme {} \;
BM og Marja har henta nye filer, primært sametingsprotokollar (både plenum og ulike komitémøte), men også ein del filer frå samiske kommuner.
Filene har vore i pdf-format. Etter konverteringa er ordene sjekka mot missing-list. Det er ikkje konverteringsfeil i data. Dei orda som står i missing-list no er ord som genuint manglar i fst (flest skrivefeil).
BM og Marja har brukt skripta til å sjekke parallellfilene (pick-parallel-docs.pl)
Legge ut dokumentasjon av korpusinnsamlingsprosessene på nettet. Hvor?
Dokumentasjon av Script.
Hvilken analysator bør man bruke? Giellatekno (sme og nob), Ordbank (nob) eller Apertium (sme og nob)?
Sme-analyse - Apertium:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt|tr -d '[<>/]'| \
hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol|grep '/\*'|wc -l
Antall missing: 1312
Top missing av 1312:
22 ^rievttálaš/*rievttálaš$
20 ^buohtalas/*buohtalas$
18 ^NBR/*NBR$
18 ^ee/*ee$^./.<CLB>$
17 ^mill/*mill$^./.<CLB>$
16 ^álggahansiidaoasi/*álggahansiidaoasi$
15 ^ovttaoaivilis/*ovttaoaivilis$
12 ^Evtt/*Evtt$^./.<CLB>$
11 ^iešalddis/*iešalddis$
11 ^guovludepartementa/*guovludepartementa$
11 ^čearu/*čearu$
8 ^seammaládje/*seammaládje$
8 ^biebmodepar/*biebmodepar$
8 ^almmolašrievttálaš/*almmolašrievttálaš$
7 ^Rt/*Rt$^./.<CLB>$
7 ^NOU/*NOU$
7 ^makkárge/*makkárge$
7 ^iešheanalis/*iešheanalis$
7 ^Departementa/*Departementa$
6 ^organiserema/*organiserema$
6 ^og/*og$
6 ^njuovžilis/*njuovžilis$
Sme-analyse - Giellatekno:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt | \
lookup -flags mbTT -utf8 main/gt/sme/bin/sme.fst|grep '+?'|wc -l
Antall missing: 299
Top missing av 299:
9 og og +?
8 biebmodepar biebmodepar +?
5 headjuda headjuda +?
5 govttohemet govttohemet +?
4 tids tids +?
4 St.dieđ.nr St.dieđ.nr +?
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 natur+gode<n><nt> luonddubuorri<n>
Fra usme:
gt $ usme
luonddubuorri
luonddubuorri luonddubuorri+N+Sg+Nom
luonddubuorri luondu+N+SgGenCmp+Cmp#buorri+N+Sg+Nom
Fra Apertium:
echo luonddubuorri |hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol^luonddubuorri/luonddubuorri<N><Sg><Nom>/luondu<N><Sg><Gen><Cmp>+buorri<N><Sg><Nom>$
<e><p><l>luonddubuorri<s n="N"/></l><r>naturgode<s n="n"/><s n="nt"/></r></p><par n="__n"/></e>
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 reindrift+linje<n><f> boazu+doallu+suorgi<n>
Fra usme:
gt $ usme
boazodoallosuorgi
boazodoallosuorgi boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi boazodoallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi
+N+Sg+Nom
Fra Apertium:
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftlinje" | lt-proc nn-nb.automorf-no-cp.bin
^reindriftlinje/*reindriftlinje$
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftslinje" | lt-proc nn-nb.automorf-no-cp.bin
^reindriftslinje/*reindriftslinje$
^boazodoallosuorgi/boazodoallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doalut<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>$
Apertium sin nordsamiske fst inneheld berre dei som er i bidix. Vår analysator inneheld alle dei samiske orda vi har, mens apertium har fjerna dei som ikkje er i bidix.
Jf. ovafor (skilnad 299 vs. 1312 missing). Bruk analysatoren sme.fst (dvs. den deskriptive).
Her er den beste apertium-analysatoren den som ligg i apertium/trunk/apertium-nn-bn.
main/st/nob/src/
make
unob
main/st/nob/obt/
Sitat frå 00_readme.txt:
Basic usage
===========
Usage on a mac:
cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-osx64 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3
Usage on victorio is same as above, but with mtag-linux32 instead, thus:
cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-linux32 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3
Advanced usage
==============
In order to combine cg and statistics, you may use nob_morf-prestat.cg3
instead of nob_morf.cg3, thus the last line is:
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf-prestat.cg3
Dei beste analysatorane (med størst dekning) er:
000_run>find prestable/converted -name "*.xml" | wc -l
2934
20120924_schlange_reloaded>find prestable/converted -name "*.xml" | wc -l
2944
Tiltaksliste
| /ling/ParallelCorpusConversion.html] (Berit)
Framdrift:
Vi satsar på å ha ordparallellisert output til neste møte.
Fredag 10.10. når det passar for den finske presidenten.