GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Børre, Ciprian, Marja, Trond, Berit Merete
Cip har analysert med obt (Oslo-Bergen-taggaren, main/st/nob/obt) sme-data var allereie analysert med gt. Det var støy i obt, som Trond og spesielt Cip såg på i helga. Det er no i orden.
No er pipeline ok, men det er problem med Giza. Jf. second_run/00_readme.txt.
Trass intensivt arbeid i helga kan Cip dermed ikkje levere ordparallelliserte data no. Problemet er output frå analyse som skal til giza som input.
Prosedyre for å få full apertium, med alle ord:
<section id=”infrequent”-elementet (men ikkje meir) frå dev/infreq*nb.dix inn i apertium-nn-nb.nb.dix (t.d. rett etter siste <section>)
Vi bruker sme-nob
I prinsippet to ulike alternativer/pipelines:
apertium-sme-nob.sme.lexc
maksimal)mtag-osx64
frå main/st/nob/obtsme.fst
frå main/gt/binTil i morgon får Ciprian output obt + gt (alternativ 2). Vi jobber for å få til alternativ 1 for å sjekke om det er en forskjell i output. Alternativ 1 skal være ferdig etter at alternativ 2 er ferdig.
Så på fad_nobsme_candidates_ap-pl.20121009. Den hadde være (på norsk) og masse parallelformer av samiske verb på andre siden.
Om det er output fra Giza, så ser det ut som om Giza ikke forstår at “er truet = lea áitojuvvon”, men trur at være = áitojuvvon. Alt dette er støy.
Toppen i fad_nobsme_candidates_ap-pl.20121009
:
49839 0 0.8494 0.0 1.0 være<vblex> áitit<v><tv><der3><der_passl><v><imprt><sg2>
49839 0 0.8494 0.0 1.0 være<vblex> vuodjut<v><iv><der3><der_passl><v><ind><prs><sg3>
49839 0 0.8494 0.0 0.6666667 være<vblex> ambulánsa+vuodjit<v><tv><der2><actor><n>
49839 0 0.8494 0.0 0.5 være<vblex> ávvudit<v><tv><der3><der_passl><v><prfprc>
49839 0 0.8494 0.0 0.5 være<vblex> váldu+áŋgiruššat<v><iv><der4><der_n><n><pl><nom>
...
28628 0 0.295 0.0 0.1666667 ha<vblex> ii<v><iv><neg><imprt><pl2>
28628 0 0.295 0.0 0.1666667 ha<vblex> giella+nannet<v><tv><der4><der_n><n><sg><ill>
28628 0 0.295 0.0 0.1666667 ha<vblex> dássi+molsut<v><tv><der4><der_n><n><sg><gen>
28628 0 0.295 0.0 0.1666667 ha<vblex> dárkkistit+neavvut<v><tv><der2><actor><n>
28628 0 0.295 0.0 0.1666667 ha<vblex> buktit<v><tv><vabess>
97 0 -5.392 0.0 0.4210526 true<vblex> áitit<v><tv>
47 0 -6.116 0.0 0.25 synke<vblex> vuodjut<v><iv>
41 0 -6.253 0.0 0.0416667 forlengelse<n><m> joatkit<v><tv><der4><der_n><n><sg><gen>
34 0 -6.44 0.0 0.0015432 forenkle<vblex> joatkit<v><tv>
echo videreføres | lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin |
^videreføres/videreføre
echo videreført | lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin |
1.0 videreføre<vblex> joatkit<v><tv><der_passs><v>
0.6 videreføre<vblex> joatkit<v><tv><der1><der_h><v>
0.5 være<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2>
0.5 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2>
0.4305556 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><inf>
ha
Unike norske ord i
Samanlikne lemma og tag frå juli og oktober:
cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6| sort|uniq |wc -l
19822
cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|sort|uniq |wc -l
21176
Samanline lemma utan tag frå juli og oktober:
cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l
18196
cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l
19403
Eksempel for å sammenlikne juli og oktober: Samisk som adjektiv.
Fra juli, 4 av de 7 første kandidatene er interessante:
18674 0 0.2023 0.0 0.5 samisk<adj> -_08<a><ord>
18674 0 0.2023 0.0 0.3253493 samisk<adj> sámegiel<a>
18674 0 0.2023 0.0 0.2641509 samisk<adj> sápmelaš<a><der3><der_vuohta><n>
18674 0 0.2023 0.0 0.25 samisk<adj> -_1<a><ord>
18674 0 0.2023 0.0 0.1777778 samisk<adj> sápmelaš<a>
18674 0 0.2023 0.0 0.1428571 samisk<adj> čuovvut<v><tv><vabess><a>
18674 0 0.2023 0.0 0.137931 samisk<adj> sámegielalaš<a>
Fra oktober, 4 av de 4 første kandidatene er interessante:
28821 0 0.3017 0.0 0.3150685 samisk<adj> sámegiel<a>
28821 0 0.3017 0.0 0.2767857 samisk<adj> sápmelaš<a>
28821 0 0.3017 0.0 0.2745098 samisk<adj> sápmelaš<a><der3><der_vuohta><n>
28821 0 0.3017 0.0 0.1818182 samisk<adj> sámegielalaš<a>
Taggar som skal med for nob:
Eitt av fleire tema: Setningsparallellisering (filtrering, delvis parallelliserte dokumenter, grenseverdi, dokumentasjon, arbeidsfordeling, oppdatering av big/gt/sme/parallel_nob2sme/admin_out.txt)
Neste møte blir torsdag 18.10 klokka 13.00