GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD-Møte 15.10.2012

Til stades: Børre, Ciprian, Marja, Trond, Berit Merete

Saker:

Ordparallellisering

Cip har analysert med obt (Oslo-Bergen-taggaren, main/st/nob/obt) sme-data var allereie analysert med gt. Det var støy i obt, som Trond og spesielt Cip såg på i helga. Det er no i orden.

No er pipeline ok, men det er problem med Giza. Jf. second_run/00_readme.txt.

Trass intensivt arbeid i helga kan Cip dermed ikkje levere ordparallelliserte data no. Problemet er output frå analyse som skal til giza som input.

Apertium utan bidix

Prosedyre for å få full apertium, med alle ord:

Leggja til alle orda i dev/infreq*.dix

I trunk/apertium-nn-nb/dev/infreq*.dix, kopier heile

<section id=”infrequent”-elementet (men ikkje meir) frå dev/infreq*nb.dix inn i apertium-nn-nb.nb.dix (t.d. rett etter siste <section>)

kompiler ny nb-nn.automorf.bin

Vi bruker sme-nob

I prinsippet to ulike alternativer/pipelines:

Alternativ 1: Apertium:

Maksimum nb frå nn-nb.nb.dix (med Kevin sitt tillegg frå infrequent)

Maksimum sme (importert frå gt utan å trimme ned via sme-nob.dix, som dokumentert i apertium-sme-nob/update-morph, for å få apertium-sme-nob.sme.lexc maksimal)

Alternativ 2: Originalane frå gt og obt:

mtag-osx64 frå main/st/nob/obt

sme.fst frå main/gt/bin

Til i morgon får Ciprian output obt + gt (alternativ 2). Vi jobber for å få til alternativ 1 for å sjekke om det er en forskjell i output. Alternativ 1 skal være ferdig etter at alternativ 2 er ferdig.

Output frå Giza++

Så på fad_nobsme_candidates_ap-pl.20121009. Den hadde være (på norsk) og masse parallelformer av samiske verb på andre siden.

Om det er output fra Giza, så ser det ut som om Giza ikke forstår at “er truet = lea áitojuvvon”, men trur at være = áitojuvvon. Alt dette er støy.

Toppen i fad_nobsme_candidates_ap-pl.20121009:

49839 0 0.8494 0.0 1.0 være<vblex> áitit<v><tv><der3><der_passl><v><imprt><sg2>
49839 0 0.8494 0.0 1.0 være<vblex> vuodjut<v><iv><der3><der_passl><v><ind><prs><sg3>
49839 0 0.8494 0.0 0.6666667 være<vblex> ambulánsa+vuodjit<v><tv><der2><actor><n>
49839 0 0.8494 0.0 0.5 være<vblex> ávvudit<v><tv><der3><der_passl><v><prfprc>
49839 0 0.8494 0.0 0.5 være<vblex> váldu+áŋgiruššat<v><iv><der4><der_n><n><pl><nom>


...
28628 0 0.295 0.0 0.1666667 ha<vblex> ii<v><iv><neg><imprt><pl2>
28628 0 0.295 0.0 0.1666667 ha<vblex> giella+nannet<v><tv><der4><der_n><n><sg><ill>
28628 0 0.295 0.0 0.1666667 ha<vblex> dássi+molsut<v><tv><der4><der_n><n><sg><gen>
28628 0 0.295 0.0 0.1666667 ha<vblex> dárkkistit+neavvut<v><tv><der2><actor><n>
28628 0 0.295 0.0 0.1666667 ha<vblex> buktit<v><tv><vabess>


97 0 -5.392 0.0 0.4210526 true<vblex> áitit<v><tv>
47 0 -6.116 0.0 0.25 synke<vblex> vuodjut<v><iv>
41 0 -6.253 0.0 0.0416667 forlengelse<n><m> joatkit<v><tv><der4><der_n><n><sg><gen>
34 0 -6.44 0.0 0.0015432 forenkle<vblex> joatkit<v><tv>
1.0 videreføre<vblex> joatkit<v><tv><der_passs><v>
0.6 videreføre<vblex> joatkit<v><tv><der1><der_h><v>
0.5 være<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2>
0.5 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2>
0.4305556 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><inf>

ha = 21176 ha = 19403

Unike norske ord i

Samanlikne lemma og tag frå juli og oktober:

cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6| sort|uniq |wc -l
   19822
cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|sort|uniq |wc -l
   21176

Samanline lemma utan tag frå juli og oktober:

cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l
   18196
cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l
   19403

Eksempel for å sammenlikne juli og oktober: Samisk som adjektiv.

Fra juli, 4 av de 7 første kandidatene er interessante:

18674 0 0.2023 0.0 0.5 samisk<adj> -_08<a><ord>
18674 0 0.2023 0.0 0.3253493 samisk<adj> sámegiel<a>
18674 0 0.2023 0.0 0.2641509 samisk<adj> sápmelaš<a><der3><der_vuohta><n>
18674 0 0.2023 0.0 0.25 samisk<adj> -_1<a><ord>
18674 0 0.2023 0.0 0.1777778 samisk<adj> sápmelaš<a>
18674 0 0.2023 0.0 0.1428571 samisk<adj> čuovvut<v><tv><vabess><a>
18674 0 0.2023 0.0 0.137931 samisk<adj> sámegielalaš<a>

Fra oktober, 4 av de 4 første kandidatene er interessante:

28821 0 0.3017 0.0 0.3150685 samisk<adj> sámegiel<a>
28821 0 0.3017 0.0 0.2767857 samisk<adj> sápmelaš<a>
28821 0 0.3017 0.0 0.2745098 samisk<adj> sápmelaš<a><der3><der_vuohta><n>
28821 0 0.3017 0.0 0.1818182 samisk<adj> sámegielalaš<a>

Konklusjon

Taggar som skal med for nob:

Arbeid framover

Ny versjon av ordparallellisering med gt/obt til i morgon (Cip)

Deretter evaluering av 1009 vs. 1016 (Márjá, BM)

Neste møte

Eitt av fleire tema: Setningsparallellisering (filtrering, delvis parallelliserte dokumenter, grenseverdi, dokumentasjon, arbeidsfordeling, oppdatering av big/gt/sme/parallel_nob2sme/admin_out.txt)

Neste møte blir torsdag 18.10 klokka 13.00