FAD-Møte 6.11.2012

Til stades: Ciprian, Marja, Trond, Berit Merete, Sjur, Børre

Saker:

Status quo
Oslo-Bergen-tagger
Wikipedia
Ukjente ord
Parallellkorpus og prosessering
Akilles og skilpadda
Neste møte

Status quo

Parallellfiler og analyse

Analyse: second_run/00_readme.txt. ** Talet på filpar som er forkasta pga. ubalanse har gått ned frå 418 til 241.
Ordparallellisering: second_run/work_in_progress/00_readme.txt, ukjente:
sme N=1987867 ** sme tokens: 39 212 (2012.10.28), 38 481 (2012.11.02) ** sme types: 20 701 (2012.10.28), 20 535 (2012.11.02)
nob: N=2348630 ** nob tokens: 11 060 (2012.10.28), 10 952 (2012.11.02) ** nob types: 3 426 (2012.10.28), 3 431 (2012.11.02)

Godkjenning av filpar

Márjá, Berit Merete og Børre har sett på dette. Jf. punkt lenger ned.

Oslo-Bergen-tagger

Testfiler generert som vist på Wikipedia-sida

cat $GTBIG/st/nob/corp/nowiki_aa.txt obt/bin/mtag-osx64 vislcg3 -g obt/src/nob_morf-prestat.cg3 > aa
cat aa sum-cg.pl –words > aa-words
cat aa sum-cg.pl –grammar > aa-grammar

sum-cg.pl gjev talet på homonymi etter disambiguering.

aa-words:


19865
"<av>" prep  adj fork
	"av" prep
	"AV" adj fork
9435
"<og>" konj  konj clb
	"og" konj clb
	"og" konj
7862
"<i>" prep  subst appell mask ub ent
	"i" subst appell mask ub ent
	"i" prep
3763
"<en>" det mask ent kvant  pron ent pers hum
	"en" pron ent pers hum
	"en" det mask ent kvant
2964
"<de>" det dem fl  pron fl pers 3 nom
	"de" pron fl pers 3 nom
	"de" det dem fl


aa-grammar:
16931:
 subst appell nøyt ub ent
 subst appell nøyt ub fl


10400:
 konj clb
 konj


7751:
 subst appell mask ub ent
 prep


5257:
 adj ub m/f ent pos
 adj nøyt ub ent pos


3929:
 pron fl pers 3 nom
 det dem fl

TILTAK

Trond følgjer opp obt.

Wikipedia

Ciprian har brukt WP2TXT
Trond har brukt WikiExtractor.py

Skilnaden dei i mellom er xml-syntaks vs. wikisyntaks:

xml: <title>blabla</title>
wiki: ==blabla==

TILTAK

Trond og Ciprian diskuterer Wikipedia-formatet :-)

Ukjente ord

NOB

Ciprian:
cat ukjent_nob_20121028.txt |wc -l
    3426


Av disse 3426 kan Trond analysera 265 med OBT:
cat $GTBIG/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/ukjent_nob_20121028.txt \
	| cut -c6- | cut -d"<" -f1 | $GTHOME/st/nob/obt/bin/mtag-osx64 |grep '^   '\
	| grep -v ukjent | wc -l
     265

Det betyr framleis at det er over 3100 ukjende NOB-ord i korpuset (ukjende for OBT). OBT-taggaren er lukka, så kva gjer vi? Eitt alternativ er:

mtag-osx64 < text | vår-tilleggs-fst | vislcg3 -g nob_morf-prestat.cg3

Her er topp-ti for ord ingen kjenner att:

        "kap" ukjent
        "11-Rev" ukjent
        "lule" ukjent
        "allaskuvla" ukjent
        "siidaen" ukjent
        "of" ukjent
        "dei" ukjent
        "forr." ukjent
        "barne" ukjent

TILTAK

Trond og Ciprian synkroniserer og analyserer data ang nob ukjente ord
Trond ser på outputten av OBT analysen dvs. i kontekst (mål: få Oslo til å forbetre)

SME

Missing

Top missing (N=1987867 og deromkring)

og
for
av
til
Sak
om
samiske
of
med
er
samisk
(...)
Arkiivaáššenr
buš-
Arkiiváššenr
Ođđasisj
Luondduhálddašan
Liigejuollud
­dikki
álgoál

Svar: Fortsette med leksikalisering (BM, Marja).

Parallellkorpus og prosessering

Missing list er dominert av norsk. Problemet er at ikkje alle kapitla er omsett til samisk.

Mål: ordne dette slik at også desse filene kan bli med. Inn i xsl: kva sider skal med og kva skal ikkje med.

Med pdf-filer er dette lett: vi kan legge til page range: Vi vil ha side 20-24, osb.

Tekstboksar er også lagt inn ulike stader i parallelldokument. Tidlegare i veka laga Børre ein mekanisme for å få dette til å fungere, (flytte rundt på boksar?) og det fungerte.

Problemet her er original-integritet.

Pagerange fungerer for pdf, men dessverre ikkje for andre format.

Vi har altså to alternativ:

Slette asymmetriske filer (eller asymmetrisk innhald)

Symmetrisere asymmetriske sider

Sjur: Vi bør ta utgangspunkt i tekst, ikkje i side.

BM: Vi kan kombinere desse to innfallsvinklane: Der side er relevant bruker vi det, og i andre samanhengar brukar vi andre virkemiddel.

Børre: Det finst også dokument som har annakvar side og annakvar spalte på sme, nob. Desse ligg i dag i mixed. Programma pdf2text etc. har val der du kan dra ut side eller tekststraum. I dag dreg vi ut tekststraum. Det er også mogleg å dra ut side for side.

Prosessere data ulikt alt ettersom hvordan dokumentet er strukturert. Dette gjeld spesielt pdf-dokument: språkblanda på annakvar side, annakvar spalte, eller ulike seksjonar.

Informasjon om skip og later inn i metadata

TILTAK

Børre og Sjur implementerer skip og later i metadata og dokumenterer hvordan dette skal gjøres
Márjá og BM legger inn info om dette når slike dokument blir oppdaget

Berit Merete sitt brev 5.11. 23:32 :

Forslag til forbedring av parallellkorpuset Jeg og Marja har sett på Ciprian sin forenkling av filtesting i html for wrong ratio filer (veldig bra!) og på bakgrunn av det kan vi si at det er en del store filpar som ikke blir godkjent av pick-parallell-files-scriptet.

For øyeblikket er det helt rett å ikke godkjenne flere av disse filene som parallelle filer siden disse filparene er ubalanserte, dvs at kun deler av den norske teksten er oversatt til samisk. Det gjelder blant annet disse filparene:

1.
freecorpus/orig/sme/admin/depts/other_files/Klimamelding_St_meld_39_samisk.pdf
freecorpus/orig/nob/admin/depts/other_files/STM200820090039000DDDPDFS.pdf
--- Nob-fila har 177 sider, mens sme-fila har 23 sider.
Dette fordi kun kapittel 1 er oversatt til samisk


2.
freecorpus/orig/sme/admin/depts/other_files/NAC_2001_35.pdf
freecorpus/orig/nob/admin/depts/other_files/NOU200120010035000DDDPDFA.pdf
-- nob har 325 sider, sme har 74 sider. Kun kapittel 1 og 11 er oversatt til samisk.

En annen utfordring for antallet filer i det setningparalleliserte korpuset er samiske filer som inneholder noen sider på norsk, for eksempel denne filen:

3.
freecorpus/orig/sme/admin/ffk/sp2011-2014-1.pdf
-- dokumentet inneholder 15 sider, hvorav de to siste sidene er på norsk (sameloven).
Denne filen blir ikke konvertert til xml pga av error-meldingen "too_low_mainlang".

Så har vi filer med løpende tekst som blir brutt av tekstvinduer med informasjon. Problemet er at disse tekstvinduene bryter den løpende teksten på forskjellige steder i den norske og den samiske filen. Et eksempel på dette filparet:

4.
freecorpus/orig/sme/admin/depts/other_files/HP_2009_samisk_sprak_nordsam.pdf
freecorpus/orig/nob/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf
-- paralleliseringen av filene går for så vidt greit, med noen feilparalleliseringer

Jeg har diskutert disse filene med Børre og han har kommet med noen forslag til løsninger.

Når det gjelder pdf-filer, går det an å legge inn informasjon i xsl-filen om page rage, dvs hvilke sider i originalfilen som skal paralleliseres. Dette ville ha løst 1., 2. og 3. problem .

Når der gjelder filer som nevnt i nr 4, har Børre jobbet med å implementere noen nye tagger som kan brukes til å løse utfordringer med tekstvinduer i løpende tekst. De nye taggene heter og og de passer for alle typer filer (pdf, html etc). Disse taggene kan i følge Børre legges inn i xsl-filen.

Dette ville ha løst utfordringene med denne type filer på orig- og xsl-nivå.

Vi kan jo diskutere dette videre på møtet i morgen.

God natt!

Hilsen Berit

Akilles og skilpadda

Tema for neste møte.

Neste møte

Fysisk i Tromsø.

Ikkje måndag før lunsj, ikkje tysdag, onsdag og torsdag morgon, ikkje fredag.

Moglege tidspunkt: Tysdag og torsdag f.o.m. ca. 10.

Tentativ tid: Tysdag 13.11. 10.30

GiellaLT

Page Content

FAD-Møte 6.11.2012

Saker:

Status quo

Parallellfiler og analyse

Godkjenning av filpar

Oslo-Bergen-tagger

Wikipedia

Ukjente ord

NOB

SME

Missing

Parallellkorpus og prosessering

Slette asymmetriske filer (eller asymmetrisk innhald)

Symmetrisere asymmetriske sider

Akilles og skilpadda

Neste møte