GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD- og korpusmøte 20.11.2012

Til stades: Ciprian, Trond, Marja

Saker:

Status

Ciprian har samanlikna sentence alignment. toktmx frå forrige køyring med denne Nokre gonger er setningsparallelliseringa dårleg

Vi har framleis problem med punktum

Sitat Cips brev av 14.11.


Hei,

jeg har sett litt på mulige forskjellen mellom de siste toktmx og de før:

For nob er alt ok, men det ser sånn ut at buggen som vi hadde før med nob har vi nå med preprossesering av sme.

toktmx>ddf nob2sme pre_run/nob2sme

I give up!

Ciprian

Example 01:

diff -E -B -b -w -r
           nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx  (nå)
   pre_run/nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx  (før)
210c210,218
<         <seg>§ 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10.dásis .</seg>
---
       <seg>§ 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10 .</seg>
     </tuv>
   </tu>
   <tu>
     <tuv xml:lang="nob">
       <seg></seg>
     </tuv>
     <tuv xml:lang="sme">
       <seg>dásis .</seg>

Example 02:

diff -E -B -b -w -r
	nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (nå)
	pre_run/nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (før)
18c18
<         <seg>E JØM . RKE IL</seg>
---
       <seg>E JØM RKE IL</seg>
55c55
<         <seg></seg>
---
       <seg>Handlingsplan for samiske språk</seg>
63c63
<         <seg>Handlingsplan for samiske språk</seg>
---
       <seg>Handlingsplan</seg>

Poenget her er at den nye preprosesseringa legg til punktum som ikkje var der i starten, som i strengen JØM . RKE, her hadde input ikkje punktum. Dette er ein bug vi har hatt, og retta, som no kjem opp på nytt.

Vi må dokumentere testing av toktmx-fila.

Enkel testing for toktmx:

Oslo-Bergen-tagger

Cip har analysert bokmåplswikipedia med OBT-stat.

Først analyse med 300 ord, det gjekk fint.

new_analysis_wiki>wc -l input_00_wiki/*
     300 input_00_wiki/p-a_01_test.txt
     300 input_00_wiki/p-a_02_test.txt
     300 input_00_wiki/p-a_03_test.txt
     300 input_00_wiki/p-a_04_test.txt

Så analyse med heile wikipedia (60 mill ord, 7,3 mill linjer), det gjekk ikkje.

Analysatoren stansar for den første fila. Prosessen med ruby køyrer ikkje.

new_analysis_wiki>ls -latru wiki.*nowiki*
-rw-r--r--+ 1 ciprian  staff         0 20 nov 10:35 wiki.tag.noisy.nob.nowiki_aa
-rw-r--r--+ 1 ciprian  staff  40369111 20 nov 10:35 wiki.raw.clean.nob.nowiki_aa

Filer med xyz (Ciprians verkty, 1,8 mill linjer per fil, det gjekk ikkje.

new_analysis_wiki>wc -l 000_bu_wiki_input/*
 1839533 000_bu_wiki_input/p-a_01.txt
 1839581 000_bu_wiki_input/p-a_02.txt
 1839616 000_bu_wiki_input/p-a_03.txt
 1839500 000_bu_wiki_input/p-a_04.txt
 7358230 total

Filer med WikiExtractor.py, ca. 0,2 mill linjer per fil, det gjekk ikkje.

new_analysis_wiki>wc -l ../../../../nob/corp/*.txt
  189183 ../../../../nob/corp/nowiki_aa.txt
  225291 ../../../../nob/corp/nowiki_ab.txt
...
main/st/nob/obt
echo "jeg gjør det" | $GTHOME/st/nob/bin/mtag-osx64 -wxml  | vislcg3 -g $GTHOME/st/nob/src/nob_morf-prestat.cg3 --no-pass-origin -e $GTHOME/st/nob/OBT-Stat/bin/run_obt_stat.rb


perl -ne 'print if /\S/'
$GTHOME/st/nob/obt/bin/mtag-osx64  -wxml < $INTERIM_1  vislcg3 -C latin1 --codepage-input \ utf-8 -g $CGF --codepage-output utf-8 --no-pass-origin -e | $GTHOME/st/nob/obt/OBT-Stat/run_obt_stat.rb | perl -ne 'print if /\S/' > $INTERIM_2
#!/bin/sh


if [ $## -ne 1 ]
then
  echo "Usage: `basename $0` TEXTFILE"
  exit $E_BADARGS
fi


bin/mtag -wxml < $1 | vislcg3 -C latin1 --codepage-input \
  utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \
  OBT-Stat/bin/run_obt_stat.rb | perl -ne 'print if /\S/'
echo "Jeg gjør det." | bin/mtag -wxml  | \
vislcg3 -C latin1 --codepage-input utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \
OBT-Stat/bin/run_obt_stat.rb | \
perl -ne 'print if /\S/'

no.crp.txt is the Wikipedia for Bokmål, then I tagged and stripped it, then I made a frequency list, then I ran it through the relative-frequency script.

TILTAK

nobsme

Cip har fletta alt til src/. Det finst dublettar mellom src og new_entries2add

If you put together n/v_nobsme from source with that from new_entries2add you get

work_in_prog>grep '<l ' n_nobsme.xml | sort | uniq -c | sort -nr | grep '2' | wc -l
    319


work_in_prog>grep '<l ' v_nobsme.xml | sort | uniq -c | sort -nr | grep '2' | wc -l
     17

Dublettar: 319 av 717 substantiv, 17 av 59 verb.

   <e merged="2">
      <lg>
         <l pos="a">profesjonell</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a">profesjonealla</t>
         </tg>
      </mg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a">ámmátlaš</t>
         </tg>
      </mg>
   </e>




   <e merged="2">
      <lg>
         <l pos="a">stri</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a">čáris</t>
            <t pos="a">garra</t>
            <t pos="a">rávdnjái</t>
         </tg>
      </mg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a">stráŋga</t>
         </tg>
      </mg>
   </e>




   <e merged="2">
      <lg>
         <l pos="a">lignende</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a" usage="vd">seammasullasaš</t>
            <t pos="a">sullásaš</t>
         </tg>
      </mg>
   </e>


   <e merged="3">
      <lg>
         <l pos="a">tverrfaglig</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a">fágaidgaskasaš</t>
         </tg>
      </mg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a">fágaidrasttideaddji</t>
         </tg>
      </mg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a" usage="vd">doaresfágalaš</t>
         </tg>
      </mg>
   </e>




   <e>
      <lg>
         <l pos="a">bevisst</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="a" usage="vd">diđolaš</t>
            <t pos="a" usage="vd">dihtomielalaš</t>
         </tg>
      </mg>
   </e>

Til meg der disse en “minimalpar” med bare en Fugevokal som forskjell. Hvis dem har samme betydning jeg tror at man kan legge en lsub for å ha bare en entry (se smenob).

økshammer øksehammer

To typar dublettar:

Dei som er i src, dei er merka med “2”.

Leksikografar: vent med n, v

Leksikografar: For andre ordklassar:

Rydd opp: Stryk, rearranger, osb. Ignorer flagget “vd”.

Dei som er i new_entries2add, og har dublettar i src (319/717 n, 17/59 v)

Ciprian unifiserer

Deretter arbeider leksikografane

Neste møte

Seint i neste veke.