FAD-Møte 25.9.2012
Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete
Saker:
- Status quo
- Bugzilla
- Arbeid framover
- Neste møte
Status quo
Status quo for data før tillegg etter førre møte: 109021 setningspar.
1_ape_n>wc -l data.*
109021 data.tagged.clean.nob
109021 data.tagged.clean.sme
1_ape_n>wc -l 20120
1_ape_n>wc -l 20120720_run/data.*
113287 20120720_run/data.tagged.clean.nob
113287 20120720_run/data.tagged.clean.sme
$GTFREE=/Users/cipriangerstenberger/20120924_schlange_reloaded find prestable/converted/nob -name *.xml -exec corpus-parallel.py -p sme {} \;
Nye korpusfiler
BM og Marja har henta nye filer, primært sametingsprotokollar (både plenum og ulike komitémøte), men også ein del filer frå samiske kommuner.
- Tal på filer:
- Tal på ord:
- Tilstand:
Filene har vore i pdf-format. Etter konverteringa er ordene sjekka mot missing-list. Det er ikkje konverteringsfeil i data. Dei orda som står i missing-list no er ord som genuint manglar i fst (flest skrivefeil).
Metadata
BM og Marja har brukt skripta til å sjekke parallellfilene (pick-parallel-docs.pl)
Dokumentering
Legge ut dokumentasjon av korpusinnsamlingsprosessene på nettet. Hvor?
Setningsparallellisering
Dokumentasjon av Script.
Ordparallellisering
Hvilken analysator bør man bruke? Giellatekno (sme og nob), Ordbank (nob) eller Apertium (sme og nob)?
Sme-analyse - Apertium:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt|tr -d '[<>/]'| \
hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol|grep '/\*'|wc -l
Antall missing: 1312
Top missing av 1312:
22 ^rievttálaš/*rievttálaš$
20 ^buohtalas/*buohtalas$
18 ^NBR/*NBR$
18 ^ee/*ee$^./.<CLB>$
17 ^mill/*mill$^./.<CLB>$
16 ^álggahansiidaoasi/*álggahansiidaoasi$
15 ^ovttaoaivilis/*ovttaoaivilis$
12 ^Evtt/*Evtt$^./.<CLB>$
11 ^iešalddis/*iešalddis$
11 ^guovludepartementa/*guovludepartementa$
11 ^čearu/*čearu$
8 ^seammaládje/*seammaládje$
8 ^biebmodepar/*biebmodepar$
8 ^almmolašrievttálaš/*almmolašrievttálaš$
7 ^Rt/*Rt$^./.<CLB>$
7 ^NOU/*NOU$
7 ^makkárge/*makkárge$
7 ^iešheanalis/*iešheanalis$
7 ^Departementa/*Departementa$
6 ^organiserema/*organiserema$
6 ^og/*og$
6 ^njuovžilis/*njuovžilis$
Sme-analyse - Giellatekno:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt | \
lookup -flags mbTT -utf8 main/gt/sme/bin/sme.fst|grep '+?'|wc -l
Antall missing: 299
Top missing av 299:
9 og og +?
8 biebmodepar biebmodepar +?
5 headjuda headjuda +?
5 govttohemet govttohemet +?
4 tids tids +?
4 St.dieđ.nr St.dieđ.nr +?
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 natur+gode<n><nt> luonddubuorri<n>
Fra usme:
gt $ usme
luonddubuorri
luonddubuorri luonddubuorri+N+Sg+Nom
luonddubuorri luondu+N+SgGenCmp+Cmp#buorri+N+Sg+Nom
Fra Apertium:
echo luonddubuorri |hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol^luonddubuorri/luonddubuorri<N><Sg><Nom>/luondu<N><Sg><Gen><Cmp>+buorri<N><Sg><Nom>$
<e><p><l>luonddubuorri<s n="N"/></l><r>naturgode<s n="n"/><s n="nt"/></r></p><par n="__n"/></e>
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 reindrift+linje<n><f> boazu+doallu+suorgi<n>
Fra usme:
gt $ usme
boazodoallosuorgi
boazodoallosuorgi boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi boazodoallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi
+N+Sg+Nom
Fra Apertium:
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftlinje" | lt-proc nn-nb.automorf-no-cp.bin
^reindriftlinje/*reindriftlinje$
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftslinje" | lt-proc nn-nb.automorf-no-cp.bin
^reindriftslinje/*reindriftslinje$
^boazodoallosuorgi/boazodoallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doalut<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>$
Bugzilla
Arbeid framover
Morfologisk analyse av nordsamisk
Apertium sin nordsamiske fst inneheld berre dei som er i bidix. Vår analysator inneheld alle dei samiske orda vi har, mens apertium har fjerna dei som ikkje er i bidix.
Jf. ovafor (skilnad 299 vs. 1312 missing). Bruk analysatoren sme.fst (dvs. den deskriptive).
Morfologisk analyse av norsk
Apertium:
Her er den beste apertium-analysatoren den som ligg i apertium/trunk/apertium-nn-bn.
Giellatekno, Trond
main/st/nob/src/
make
unob
Norsk ordbank
main/st/nob/obt/
Sitat frå 00_readme.txt:
Basic usage
===========
Usage on a mac:
cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-osx64 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3
Usage on victorio is same as above, but with mtag-linux32 instead, thus:
cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-linux32 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3
Advanced usage
==============
In order to combine cg and statistics, you may use nob_morf-prestat.cg3
instead of nob_morf.cg3, thus the last line is:
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf-prestat.cg3
Konklusjon, analyse:
Dei beste analysatorane (med størst dekning) er:
- sme: sme.fst
- nob: main/st/obt/, den dokumentert under “Advanced usage”.
Setningsparallellisering
000_run>find prestable/converted -name "*.xml" | wc -l
2934
20120924_schlange_reloaded>find prestable/converted -name "*.xml" | wc -l
2944
Ordparallellisering
Arbeidsplan
Tiltaksliste
Hente tekst frå kommunar og fylkeskommunar (Marja, BM)
Legge inn missing-ord i lexc-kjeldefilene (Marja, BM)
Legge ut dokumentasjon på nett: [ParallelCorpusConversion.jspwiki
/ling/ParallelCorpusConversion.html] (Berit) |
Konvertere til xml
Stopp ved manglande abbr og analysator (Børre)
Inkluder nob i innhaldssjekk (Børre, evt. Trond)
Setningsparallellisere
Dokumentasjon av prosessen
Ordparallellisere
integrere relevante fst-ar i pipeline (Ciprian)
Debugge pipeline, sende til Trond (Ciprian)
Evaluere (Trond, Ciprian)
parallellisere (Ciprian)
Sjå på output frå i sommar (to kjøringer) + arbeidsrutine (Marja, BM)
sammenligne outputten iht.
kvantitet: øking av sannsynlighetstall for par som var allerede før
kvalitet: øking av parallelle ord som er relevante til FAD-ordboka
Framdrift:
Vi satsar på å ha ordparallellisert output til neste møte.
Neste møte
Fredag 10.10. når det passar for den finske presidenten.