GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Ciprian, Trond, Marja
Ciprian har samanlikna sentence alignment. toktmx frå forrige køyring med denne Nokre gonger er setningsparallelliseringa dårleg
Sitat Cips brev av 14.11.
Hei,
jeg har sett litt på mulige forskjellen mellom de siste toktmx og de før:
For nob er alt ok, men det ser sånn ut at buggen som vi hadde før med nob har vi nå med preprossesering av sme.
toktmx>ddf nob2sme pre_run/nob2sme
I give up!
Ciprian
Example 01:
diff -E -B -b -w -r
nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (nå)
pre_run/nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (før)
210c210,218
< <seg>§ 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10.dásis .</seg>
---
<seg>§ 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10 .</seg>
</tuv>
</tu>
<tu>
<tuv xml:lang="nob">
<seg></seg>
</tuv>
<tuv xml:lang="sme">
<seg>dásis .</seg>
Example 02:
diff -E -B -b -w -r
nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (nå)
pre_run/nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (før)
18c18
< <seg>E JØM . RKE IL</seg>
---
<seg>E JØM RKE IL</seg>
55c55
< <seg></seg>
---
<seg>Handlingsplan for samiske språk</seg>
63c63
< <seg>Handlingsplan for samiske språk</seg>
---
<seg>Handlingsplan</seg>
Poenget her er at den nye preprosesseringa legg til punktum som ikkje var
der i starten, som i strengen JØM . RKE
, her hadde input ikkje
punktum. Dette er ein bug vi har hatt, og retta, som no kjem opp
på nytt.
Vi må dokumentere testing av toktmx-fila.
Enkel testing for toktmx:
Cip har analysert bokmåplswikipedia med OBT-stat.
Først analyse med 300 ord, det gjekk fint.
new_analysis_wiki>wc -l input_00_wiki/*
300 input_00_wiki/p-a_01_test.txt
300 input_00_wiki/p-a_02_test.txt
300 input_00_wiki/p-a_03_test.txt
300 input_00_wiki/p-a_04_test.txt
Så analyse med heile wikipedia (60 mill ord, 7,3 mill linjer), det gjekk ikkje.
Analysatoren stansar for den første fila. Prosessen med ruby køyrer ikkje.
new_analysis_wiki>ls -latru wiki.*nowiki*
-rw-r--r--+ 1 ciprian staff 0 20 nov 10:35 wiki.tag.noisy.nob.nowiki_aa
-rw-r--r--+ 1 ciprian staff 40369111 20 nov 10:35 wiki.raw.clean.nob.nowiki_aa
Filer med xyz (Ciprians verkty, 1,8 mill linjer per fil, det gjekk ikkje.
new_analysis_wiki>wc -l 000_bu_wiki_input/*
1839533 000_bu_wiki_input/p-a_01.txt
1839581 000_bu_wiki_input/p-a_02.txt
1839616 000_bu_wiki_input/p-a_03.txt
1839500 000_bu_wiki_input/p-a_04.txt
7358230 total
Filer med WikiExtractor.py, ca. 0,2 mill linjer per fil, det gjekk ikkje.
new_analysis_wiki>wc -l ../../../../nob/corp/*.txt
189183 ../../../../nob/corp/nowiki_aa.txt
225291 ../../../../nob/corp/nowiki_ab.txt
...
main/st/nob/obt
echo "jeg gjør det" | $GTHOME/st/nob/bin/mtag-osx64 -wxml | vislcg3 -g $GTHOME/st/nob/src/nob_morf-prestat.cg3 --no-pass-origin -e $GTHOME/st/nob/OBT-Stat/bin/run_obt_stat.rb
perl -ne 'print if /\S/'
$GTHOME/st/nob/obt/bin/mtag-osx64 -wxml < $INTERIM_1 vislcg3 -C latin1 --codepage-input \ utf-8 -g $CGF --codepage-output utf-8 --no-pass-origin -e | $GTHOME/st/nob/obt/OBT-Stat/run_obt_stat.rb | perl -ne 'print if /\S/' > $INTERIM_2
#!/bin/sh
if [ $## -ne 1 ]
then
echo "Usage: `basename $0` TEXTFILE"
exit $E_BADARGS
fi
bin/mtag -wxml < $1 | vislcg3 -C latin1 --codepage-input \
utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \
OBT-Stat/bin/run_obt_stat.rb | perl -ne 'print if /\S/'
echo "Jeg gjør det." | bin/mtag -wxml | \
vislcg3 -C latin1 --codepage-input utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \
OBT-Stat/bin/run_obt_stat.rb | \
perl -ne 'print if /\S/'
no.crp.txt is the Wikipedia for Bokmål, then I tagged and stripped it, then I made a frequency list, then I ran it through the relative-frequency script.
TILTAK
Cip har fletta alt til src/. Det finst dublettar mellom src og new_entries2add
If you put together n/v_nobsme from source with that from new_entries2add you get
work_in_prog>grep '<l ' n_nobsme.xml | sort | uniq -c | sort -nr | grep '2' | wc -l
319
work_in_prog>grep '<l ' v_nobsme.xml | sort | uniq -c | sort -nr | grep '2' | wc -l
17
Dublettar: 319 av 717 substantiv, 17 av 59 verb.
<e merged="2">
<lg>
<l pos="a">profesjonell</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="a">profesjonealla</t>
</tg>
</mg>
<mg>
<tg xml:lang="sme">
<t pos="a">ámmátlaš</t>
</tg>
</mg>
</e>
<e merged="2">
<lg>
<l pos="a">stri</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="a">čáris</t>
<t pos="a">garra</t>
<t pos="a">rávdnjái</t>
</tg>
</mg>
<mg>
<tg xml:lang="sme">
<t pos="a">stráŋga</t>
</tg>
</mg>
</e>
<e merged="2">
<lg>
<l pos="a">lignende</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="a" usage="vd">seammasullasaš</t>
<t pos="a">sullásaš</t>
</tg>
</mg>
</e>
<e merged="3">
<lg>
<l pos="a">tverrfaglig</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="a">fágaidgaskasaš</t>
</tg>
</mg>
<mg>
<tg xml:lang="sme">
<t pos="a">fágaidrasttideaddji</t>
</tg>
</mg>
<mg>
<tg xml:lang="sme">
<t pos="a" usage="vd">doaresfágalaš</t>
</tg>
</mg>
</e>
<e>
<lg>
<l pos="a">bevisst</l>
</lg>
<mg>
<tg xml:lang="sme">
<t pos="a" usage="vd">diđolaš</t>
<t pos="a" usage="vd">dihtomielalaš</t>
</tg>
</mg>
</e>
Til meg der disse en “minimalpar” med bare en Fugevokal som forskjell. Hvis dem har samme betydning jeg tror at man kan legge en lsub for å ha bare en entry (se smenob).
To typar dublettar:
Rydd opp: Stryk, rearranger, osb. Ignorer flagget “vd”.
Seint i neste veke.