GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD-Møte 6.11.2012

Til stades: Ciprian, Marja, Trond, Berit Merete, Sjur, Børre

Saker:

Status quo

Parallellfiler og analyse

Godkjenning av filpar

Márjá, Berit Merete og Børre har sett på dette. Jf. punkt lenger ned.

Oslo-Bergen-tagger

Testfiler generert som vist på Wikipedia-sida

sum-cg.pl gjev talet på homonymi etter disambiguering.

aa-words:


19865
"<av>" prep  adj fork
	"av" prep
	"AV" adj fork
9435
"<og>" konj  konj clb
	"og" konj clb
	"og" konj
7862
"<i>" prep  subst appell mask ub ent
	"i" subst appell mask ub ent
	"i" prep
3763
"<en>" det mask ent kvant  pron ent pers hum
	"en" pron ent pers hum
	"en" det mask ent kvant
2964
"<de>" det dem fl  pron fl pers 3 nom
	"de" pron fl pers 3 nom
	"de" det dem fl


aa-grammar:
16931:
 subst appell nøyt ub ent
 subst appell nøyt ub fl


10400:
 konj clb
 konj


7751:
 subst appell mask ub ent
 prep


5257:
 adj ub m/f ent pos
 adj nøyt ub ent pos


3929:
 pron fl pers 3 nom
 det dem fl

TILTAK

Wikipedia

Skilnaden dei i mellom er xml-syntaks vs. wikisyntaks:

xml: <title>blabla</title>
wiki: ==blabla==

TILTAK

Ukjente ord

NOB

Ciprian:
cat ukjent_nob_20121028.txt |wc -l
    3426


Av disse 3426 kan Trond analysera 265 med OBT:
cat $GTBIG/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/ukjent_nob_20121028.txt \
	| cut -c6- | cut -d"<" -f1 | $GTHOME/st/nob/obt/bin/mtag-osx64 |grep '^   '\
	| grep -v ukjent | wc -l
     265

Det betyr framleis at det er over 3100 ukjende NOB-ord i korpuset (ukjende for OBT). OBT-taggaren er lukka, så kva gjer vi? Eitt alternativ er:

mtag-osx64 < text | vår-tilleggs-fst | vislcg3 -g nob_morf-prestat.cg3

Her er topp-ti for ord ingen kjenner att:

        "kap" ukjent
        "11-Rev" ukjent
        "lule" ukjent
        "allaskuvla" ukjent
        "siidaen" ukjent
        "of" ukjent
        "dei" ukjent
        "forr." ukjent
        "barne" ukjent

TILTAK

SME

Missing

Top missing (N=1987867 og deromkring)

 841 og
 546 for
 395 av
 356 til
 159 Sak
 147 om
 136 samiske
 136 of
 134 med
 110 er
 103 samisk
(...)
  66 Arkiivaáššenr
  64 buš-
  61 Arkiiváššenr
  54 Ođđasisj
  52 Luondduhálddašan
  47 Liigejuollud
  26 ­dikki
  25 álgoál

Svar: Fortsette med leksikalisering (BM, Marja).

Parallellkorpus og prosessering

Missing list er dominert av norsk. Problemet er at ikkje alle kapitla er omsett til samisk.

Mål: ordne dette slik at også desse filene kan bli med. Inn i xsl: kva sider skal med og kva skal ikkje med.

Med pdf-filer er dette lett: vi kan legge til page range: Vi vil ha side 20-24, osb.

Tekstboksar er også lagt inn ulike stader i parallelldokument. Tidlegare i veka laga Børre ein mekanisme for å få dette til å fungere, (flytte rundt på boksar?) og det fungerte.

Problemet her er original-integritet.

Pagerange fungerer for pdf, men dessverre ikkje for andre format.

Vi har altså to alternativ:

Slette asymmetriske filer (eller asymmetrisk innhald)

Symmetrisere asymmetriske sider

Sjur: Vi bør ta utgangspunkt i tekst, ikkje i side.

BM: Vi kan kombinere desse to innfallsvinklane: Der side er relevant bruker vi det, og i andre samanhengar brukar vi andre virkemiddel.

Børre: Det finst også dokument som har annakvar side og annakvar spalte på sme, nob. Desse ligg i dag i mixed. Programma pdf2text etc. har val der du kan dra ut side eller tekststraum. I dag dreg vi ut tekststraum. Det er også mogleg å dra ut side for side.

Prosessere data ulikt alt ettersom hvordan dokumentet er strukturert. Dette gjeld spesielt pdf-dokument: språkblanda på annakvar side, annakvar spalte, eller ulike seksjonar.

Informasjon om skip og later inn i metadata

TILTAK

Berit Merete sitt brev 5.11. 23:32 :


Forslag til forbedring av parallellkorpuset Jeg og Marja har sett på Ciprian sin forenkling av filtesting i html for wrong ratio filer (veldig bra!) og på bakgrunn av det kan vi si at det er en del store filpar som ikke blir godkjent av pick-parallell-files-scriptet.

For øyeblikket er det helt rett å ikke godkjenne flere av disse filene som parallelle filer siden disse filparene er ubalanserte, dvs at kun deler av den norske teksten er oversatt til samisk. Det gjelder blant annet disse filparene:

1.
freecorpus/orig/sme/admin/depts/other_files/Klimamelding_St_meld_39_samisk.pdf
freecorpus/orig/nob/admin/depts/other_files/STM200820090039000DDDPDFS.pdf
--- Nob-fila har 177 sider, mens sme-fila har 23 sider.
Dette fordi kun kapittel 1 er oversatt til samisk


2.
freecorpus/orig/sme/admin/depts/other_files/NAC_2001_35.pdf
freecorpus/orig/nob/admin/depts/other_files/NOU200120010035000DDDPDFA.pdf
-- nob har 325 sider, sme har 74 sider. Kun kapittel 1 og 11 er oversatt til samisk.

En annen utfordring for antallet filer i det setningparalleliserte korpuset er samiske filer som inneholder noen sider på norsk, for eksempel denne filen:

3.
freecorpus/orig/sme/admin/ffk/sp2011-2014-1.pdf
-- dokumentet inneholder 15 sider, hvorav de to siste sidene er på norsk (sameloven).
Denne filen blir ikke konvertert til xml pga av error-meldingen "too_low_mainlang".

Så har vi filer med løpende tekst som blir brutt av tekstvinduer med informasjon. Problemet er at disse tekstvinduene bryter den løpende teksten på forskjellige steder i den norske og den samiske filen. Et eksempel på dette filparet:

4.
freecorpus/orig/sme/admin/depts/other_files/HP_2009_samisk_sprak_nordsam.pdf
freecorpus/orig/nob/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf
-- paralleliseringen av filene går for så vidt greit, med noen feilparalleliseringer

Jeg har diskutert disse filene med Børre og han har kommet med noen forslag til løsninger.

Når det gjelder pdf-filer, går det an å legge inn informasjon i xsl-filen om page rage, dvs hvilke sider i originalfilen som skal paralleliseres. Dette ville ha løst 1., 2. og 3. problem .

Når der gjelder filer som nevnt i nr 4, har Børre jobbet med å implementere noen nye tagger som kan brukes til å løse utfordringer med tekstvinduer i løpende tekst. De nye taggene heter og og de passer for alle typer filer (pdf, html etc). Disse taggene kan i følge Børre legges inn i xsl-filen.

Dette ville ha løst utfordringene med denne type filer på orig- og xsl-nivå.

Vi kan jo diskutere dette videre på møtet i morgen.

God natt!

Hilsen Berit


Akilles og skilpadda

Tema for neste møte.

Neste møte

Fysisk i Tromsø.

Ikkje måndag før lunsj, ikkje tysdag, onsdag og torsdag morgon, ikkje fredag.

Moglege tidspunkt: Tysdag og torsdag f.o.m. ca. 10.

Tentativ tid: Tysdag 13.11. 10.30