GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Ciprian, Marja, Trond, Berit Merete, Sjur, Børre
Márjá, Berit Merete og Børre har sett på dette. Jf. punkt lenger ned.
Testfiler generert som vist på Wikipedia-sida
cat $GTBIG/st/nob/corp/nowiki_aa.txt | obt/bin/mtag-osx64 | vislcg3 -g obt/src/nob_morf-prestat.cg3 > aa |
cat aa | sum-cg.pl –words > aa-words |
cat aa | sum-cg.pl –grammar > aa-grammar |
sum-cg.pl
gjev talet på homonymi etter disambiguering.
aa-words:
19865
"<av>" prep adj fork
"av" prep
"AV" adj fork
9435
"<og>" konj konj clb
"og" konj clb
"og" konj
7862
"<i>" prep subst appell mask ub ent
"i" subst appell mask ub ent
"i" prep
3763
"<en>" det mask ent kvant pron ent pers hum
"en" pron ent pers hum
"en" det mask ent kvant
2964
"<de>" det dem fl pron fl pers 3 nom
"de" pron fl pers 3 nom
"de" det dem fl
aa-grammar:
16931:
subst appell nøyt ub ent
subst appell nøyt ub fl
10400:
konj clb
konj
7751:
subst appell mask ub ent
prep
5257:
adj ub m/f ent pos
adj nøyt ub ent pos
3929:
pron fl pers 3 nom
det dem fl
TILTAK
Skilnaden dei i mellom er xml-syntaks vs. wikisyntaks:
xml: <title>blabla</title>
wiki: ==blabla==
TILTAK
Ciprian:
cat ukjent_nob_20121028.txt |wc -l
3426
Av disse 3426 kan Trond analysera 265 med OBT:
cat $GTBIG/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/ukjent_nob_20121028.txt \
| cut -c6- | cut -d"<" -f1 | $GTHOME/st/nob/obt/bin/mtag-osx64 |grep '^ '\
| grep -v ukjent | wc -l
265
Det betyr framleis at det er over 3100 ukjende NOB-ord i korpuset (ukjende for OBT). OBT-taggaren er lukka, så kva gjer vi? Eitt alternativ er:
mtag-osx64 < text | vår-tilleggs-fst | vislcg3 -g nob_morf-prestat.cg3
Her er topp-ti for ord ingen kjenner att:
"kap" ukjent
"11-Rev" ukjent
"lule" ukjent
"allaskuvla" ukjent
"siidaen" ukjent
"of" ukjent
"dei" ukjent
"forr." ukjent
"barne" ukjent
TILTAK
Top missing (N=1987867 og deromkring)
841 og
546 for
395 av
356 til
159 Sak
147 om
136 samiske
136 of
134 med
110 er
103 samisk
(...)
66 Arkiivaáššenr
64 buš-
61 Arkiiváššenr
54 Ođđasisj
52 Luondduhálddašan
47 Liigejuollud
26 dikki
25 álgoál
Svar: Fortsette med leksikalisering (BM, Marja).
Missing list er dominert av norsk. Problemet er at ikkje alle kapitla er omsett til samisk.
Mål: ordne dette slik at også desse filene kan bli med. Inn i xsl: kva sider skal med og kva skal ikkje med.
Med pdf-filer er dette lett: vi kan legge til page range: Vi vil ha side 20-24, osb.
Tekstboksar er også lagt inn ulike stader i parallelldokument. Tidlegare i veka laga Børre ein mekanisme for å få dette til å fungere, (flytte rundt på boksar?) og det fungerte.
Problemet her er original-integritet.
Pagerange fungerer for pdf, men dessverre ikkje for andre format.
Vi har altså to alternativ:
Sjur: Vi bør ta utgangspunkt i tekst, ikkje i side.
BM: Vi kan kombinere desse to innfallsvinklane: Der side er relevant bruker vi det, og i andre samanhengar brukar vi andre virkemiddel.
Børre: Det finst også dokument som har annakvar side og annakvar spalte på sme, nob. Desse ligg i dag i mixed. Programma pdf2text etc. har val der du kan dra ut side eller tekststraum. I dag dreg vi ut tekststraum. Det er også mogleg å dra ut side for side.
Prosessere data ulikt alt ettersom hvordan dokumentet er strukturert. Dette gjeld spesielt pdf-dokument: språkblanda på annakvar side, annakvar spalte, eller ulike seksjonar.
Informasjon om skip og later inn i metadata
TILTAK
Berit Merete sitt brev 5.11. 23:32 :
Forslag til forbedring av parallellkorpuset Jeg og Marja har sett på Ciprian sin forenkling av filtesting i html for wrong ratio filer (veldig bra!) og på bakgrunn av det kan vi si at det er en del store filpar som ikke blir godkjent av pick-parallell-files-scriptet.
For øyeblikket er det helt rett å ikke godkjenne flere av disse filene som parallelle filer siden disse filparene er ubalanserte, dvs at kun deler av den norske teksten er oversatt til samisk. Det gjelder blant annet disse filparene:
1.
freecorpus/orig/sme/admin/depts/other_files/Klimamelding_St_meld_39_samisk.pdf
freecorpus/orig/nob/admin/depts/other_files/STM200820090039000DDDPDFS.pdf
--- Nob-fila har 177 sider, mens sme-fila har 23 sider.
Dette fordi kun kapittel 1 er oversatt til samisk
2.
freecorpus/orig/sme/admin/depts/other_files/NAC_2001_35.pdf
freecorpus/orig/nob/admin/depts/other_files/NOU200120010035000DDDPDFA.pdf
-- nob har 325 sider, sme har 74 sider. Kun kapittel 1 og 11 er oversatt til samisk.
En annen utfordring for antallet filer i det setningparalleliserte korpuset er samiske filer som inneholder noen sider på norsk, for eksempel denne filen:
3.
freecorpus/orig/sme/admin/ffk/sp2011-2014-1.pdf
-- dokumentet inneholder 15 sider, hvorav de to siste sidene er på norsk (sameloven).
Denne filen blir ikke konvertert til xml pga av error-meldingen "too_low_mainlang".
Så har vi filer med løpende tekst som blir brutt av tekstvinduer med informasjon. Problemet er at disse tekstvinduene bryter den løpende teksten på forskjellige steder i den norske og den samiske filen. Et eksempel på dette filparet:
4.
freecorpus/orig/sme/admin/depts/other_files/HP_2009_samisk_sprak_nordsam.pdf
freecorpus/orig/nob/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf
-- paralleliseringen av filene går for så vidt greit, med noen feilparalleliseringer
Jeg har diskutert disse filene med Børre og han har kommet med noen forslag til løsninger.
Når det gjelder pdf-filer, går det an å legge inn informasjon i xsl-filen om page rage, dvs hvilke sider i originalfilen som skal paralleliseres. Dette ville ha løst 1., 2. og 3. problem .
Når der gjelder filer som nevnt i nr 4, har Børre jobbet med å
implementere noen nye tagger som kan brukes til å løse
utfordringer med tekstvinduer i løpende tekst. De nye taggene
heter
Dette ville ha løst utfordringene med denne type filer på orig- og xsl-nivå.
Vi kan jo diskutere dette videre på møtet i morgen.
God natt!
Hilsen Berit
Tema for neste møte.
Fysisk i Tromsø.
Ikkje måndag før lunsj, ikkje tysdag, onsdag og torsdag morgon, ikkje fredag.
Moglege tidspunkt: Tysdag og torsdag f.o.m. ca. 10.
Tentativ tid: Tysdag 13.11. 10.30