GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started, and our Privacy document.

FAD-Møte 31.10.2012

Til stades: Ciprian, Marja, Trond, Berit Merete

Dette var eit internt gt-møte for å klargjere status quo på korridoren.

Saker:

Status quo
Forslag til bedring av pick-parallel:
Oslo-Bergen-tagger
Ukjente ord

Status quo

Forslag til bedring av pick-parallel:

overføringsratio 73-110, skal dette økes? Nei, men den bør forbedres, se nedenfor
legge inn i metafilen: info om antall ord (word count) også i wrong ratio filene : lettere å skaffe oversikt over hvilke dokument som er store nok til at de bør sjekkes manuelt

Dette er gjort:

New Revision: 64705


Modified:
   trunk/gt/script/langTools/Converter.pm
Log:
Insert wordcount

Oslo-Bergen-tagger

må forbedredes: bindestrekene har Ciprian tatt bort, må meldes til Oslo-Bergen

Tiltak

Sjekke skilnaden mellom nob_morf-prestat.cg3 og nob_morf.cg3 (Cip)
Køyre sum-cg.pl på output, evt. samanlikne med onlineversjon (Trond)
Melde frå til Oslo + diskutere (Trond)

Vi har brukt nob_morf-prestat.cg3. Bør vi bruke nob_morf.cg3?

cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf-prestat.cg3 > data.tagged.shitty.nob


cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf.cg3 > data.tagged.shitty.nob

Hva skal gjøres med store filer med minimale feil i setningsparallelliseringen? feks HP_2009_samisk_sprak_norsk.pdf og HP_2009_samisk_sprak_nordsam.pdf

I disse store pdf-dokumentene (over 60 sider) er det løpende tekst som blir brutt av flere små info-vinduer med tekst. Problemet er at de ikke kommer på samme plass i samisk og norsk dokument, selv om det er samme tekst. Dette medfører at setningsparallelliseringen blir feil. Dette kan rettes manuelt i prestable før filene flyttes til stable. Dette kan ikke rettes automatisk.

Dette kan rette på følgende måter:

gullkorpus med gullstandard (ekte gull), filen må merkes at er sjekket manuelt
forskjellige typer gullkorpus i forskjellig format i forskjellige stadier i løpet av pipeline, feks gullkorpus i orig, gullkorpus rett etter konvertering, gullkorpus etter setningsalignment,
informasjon om forandringene må dokumenteres

Det vi kan lage her er skygge-originalar: Delar av dokumentet som i dag er i ulik rekkjefølgje vil vi manuelt omarrangere, og lagre som nye originalar.

Alle aktuelt++ og aigeguovdil++ fra regjeringen.no er ikke parallelle fordi dette er oversikt over pressemeldinger og ikke alle pressemeldinger blir oversatt til samisk

Ukjente ord

Spørsmål: Er det ingen spelrelax for allcapitalized strings?

original input string: BEARRÁIGEAHČČANLÁVDEGOTTI       BEARRÁIGEAHČČANLÁVDEGOTTI       +?


echo "bearráigeahččanlávdegotti" | lookup -q -flags mbTT $GTHOME/gt/sme/bin/sme.fst
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Gen
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Acc

Svar: Jo det finst, men:

Svaret på det ligg i allcaps.regex. Dette scriptet er ikkje i bruk, fordi resultatet er ein svært langsom automat (jf. B&K for dokumentasjon).

Mange symboler i unknown lista skal filteres bort, det samme skal gjøres med Wikipedia info

Word count skal bare være nummer og ord, ikke slash og slike ting.

~ $ usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
márjá
márjá	márjá	+?


oslo
oslo	oslo	+?


Márjá
Márjá	Márjá+N+Prop+Fem+Sg+Attr
Márjá	Márjá+N+Prop+Fem+Sg+Nom


Oslo
Oslo	Oslo+N+Prop+Plc+Sg+Nom
Oslo	Oslo+N+Prop+Plc+Sg+Gen
Oslo	Oslo+N+Prop+Plc+Sg+Acc


deatnu
deatnu	deatnu+Plc+N+Sg+Nom
deatnu	deatnut+V+TV+Ind+Prs+Sg3


Deatnu
Deatnu	Deatnu+N+Prop+Plc+Sg+Nom
Deatnu	deatnu+Plc+N+Sg+Nom
Deatnu	deatnut+V+TV+Ind+Prs+Sg3


Mánná
Mánná	mánná+Hum+N+Sg+Nom
Mánná	mannat+V+TV+Ind+Prs+Sg3

Kandidat til kommando for å finne ekte ukjente samiske ord:

cat unknown_sme_20121028.txt |sed 's/^ *//g;'|cut -d"bt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep -v '[.+@]'|grep -v '^$' > tull

TODO

Ciprian:

Sjekke ny wordcount pipeline
Konvertere alt på nytt
Implementere html-format når wrong ratio skal sjekkes
Ny unknown-liste
Analysere med engelsk analysator - fjerne engelske ord fra unknown liste
analysere hele nob-wikipedia på nytt med OBT og uten punktuasjon

BM & Marja:

Sjekke ratio etter implementering av word counter
sjekke unknown word i sme, legge til i kildefiler
sjekke siste word alignment fra ap-pipeline - for å bli vant med formatet
Teste ut forskjellige typer forbedringer av input data til setningsparallelliseringen, feks er det mulig å legge inn info i xsl-fil om hvilke sider skal fjernes automatisk fra originalfila, er det mulig å redigere xml-fil manuelt slik at filene blir identiske.

cat unknown_sme_without_nob_20121028.txt	~/main/st/nob/obt/bin/mtag-osx64	grep ‘” ukjent’	cut -d”"” -f2	ueng	grep ‘+?’	cut -f1	rev	sort	rev > ukj
cat ukj	grep -v ‘[0-9-]’	usme	grep ‘?’	cut -f1	rev	sort	rev	see

Neste møte

Tysdag 6.11. kl. 10.00, også med Sjur og Børre (sjekke om tidspunkt passar)

Edit on GitHub

Sitemap