GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete
Status quo for data før tillegg etter førre møte: 109021 setningspar.
1_ape_n>wc -l data.*
109021 data.tagged.clean.nob
109021 data.tagged.clean.sme
1_ape_n>wc -l 20120
1_ape_n>wc -l 20120720_run/data.*
113287 20120720_run/data.tagged.clean.nob
113287 20120720_run/data.tagged.clean.sme
$GTFREE=/Users/cipriangerstenberger/20120924_schlange_reloaded find prestable/converted/nob -name *.xml -exec corpus-parallel.py -p sme {} \;
BM og Marja har henta nye filer, primært sametingsprotokollar (både plenum og ulike komitémøte), men også ein del filer frå samiske kommuner.
Filene har vore i pdf-format. Etter konverteringa er ordene sjekka mot missing-list. Det er ikkje konverteringsfeil i data. Dei orda som står i missing-list no er ord som genuint manglar i fst (flest skrivefeil).
BM og Marja har brukt skripta til å sjekke parallellfilene (pick-parallel-docs.pl)
Legge ut dokumentasjon av korpusinnsamlingsprosessene på nettet. Hvor?
Dokumentasjon av Script.
Hvilken analysator bør man bruke? Giellatekno (sme og nob), Ordbank (nob) eller Apertium (sme og nob)?
Sme-analyse - Apertium:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt|tr -d '[<>/]'| \
hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol|grep '/\*'|wc -l
Antall missing: 1312
Top missing av 1312:
22 ^rievttálaš/*rievttálaš$
20 ^buohtalas/*buohtalas$
18 ^NBR/*NBR$
18 ^ee/*ee$^./.<CLB>$
17 ^mill/*mill$^./.<CLB>$
16 ^álggahansiidaoasi/*álggahansiidaoasi$
15 ^ovttaoaivilis/*ovttaoaivilis$
12 ^Evtt/*Evtt$^./.<CLB>$
11 ^iešalddis/*iešalddis$
11 ^guovludepartementa/*guovludepartementa$
11 ^čearu/*čearu$
8 ^seammaládje/*seammaládje$
8 ^biebmodepar/*biebmodepar$
8 ^almmolašrievttálaš/*almmolašrievttálaš$
7 ^Rt/*Rt$^./.<CLB>$
7 ^NOU/*NOU$
7 ^makkárge/*makkárge$
7 ^iešheanalis/*iešheanalis$
7 ^Departementa/*Departementa$
6 ^organiserema/*organiserema$
6 ^og/*og$
6 ^njuovžilis/*njuovžilis$
Sme-analyse - Giellatekno:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt | \
lookup -flags mbTT -utf8 main/gt/sme/bin/sme.fst|grep '+?'|wc -l
Antall missing: 299
Top missing av 299:
9 og og +?
8 biebmodepar biebmodepar +?
5 headjuda headjuda +?
5 govttohemet govttohemet +?
4 tids tids +?
4 St.dieđ.nr St.dieđ.nr +?
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 natur+gode<n><nt> luonddubuorri<n>
Fra usme:
gt $ usme
luonddubuorri
luonddubuorri luonddubuorri+N+Sg+Nom
luonddubuorri luondu+N+SgGenCmp+Cmp#buorri+N+Sg+Nom
Fra Apertium:
echo luonddubuorri |hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol^luonddubuorri/luonddubuorri<N><Sg><Nom>/luondu<N><Sg><Gen><Cmp>+buorri<N><Sg><Nom>$
<e><p><l>luonddubuorri<s n="N"/></l><r>naturgode<s n="n"/><s n="nt"/></r></p><par n="__n"/></e>
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 reindrift+linje<n><f> boazu+doallu+suorgi<n>
Fra usme:
gt $ usme
boazodoallosuorgi
boazodoallosuorgi boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi boazodoallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi
+N+Sg+Nom
Fra Apertium:
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftlinje" | lt-proc nn-nb.automorf-no-cp.bin
^reindriftlinje/*reindriftlinje$
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftslinje" | lt-proc nn-nb.automorf-no-cp.bin
^reindriftslinje/*reindriftslinje$
^boazodoallosuorgi/boazodoallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doalut<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>$
Apertium sin nordsamiske fst inneheld berre dei som er i bidix. Vår analysator inneheld alle dei samiske orda vi har, mens apertium har fjerna dei som ikkje er i bidix.
Jf. ovafor (skilnad 299 vs. 1312 missing). Bruk analysatoren sme.fst (dvs. den deskriptive).
Her er den beste apertium-analysatoren den som ligg i apertium/trunk/apertium-nn-bn.
main/st/nob/src/
make
unob
main/st/nob/obt/
Sitat frå 00_readme.txt:
Basic usage
===========
Usage on a mac:
cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-osx64 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3
Usage on victorio is same as above, but with mtag-linux32 instead, thus:
cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-linux32 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3
Advanced usage
==============
In order to combine cg and statistics, you may use nob_morf-prestat.cg3
instead of nob_morf.cg3, thus the last line is:
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf-prestat.cg3
Dei beste analysatorane (med størst dekning) er:
000_run>find prestable/converted -name "*.xml" | wc -l
2934
20120924_schlange_reloaded>find prestable/converted -name "*.xml" | wc -l
2944
Tiltaksliste
/ling/ParallelCorpusConversion.html] (Berit) |
Framdrift:
Vi satsar på å ha ordparallellisert output til neste møte.
Fredag 10.10. når det passar for den finske presidenten.