GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

FAD-Møte 31.10.2012

Til stades: Ciprian, Marja, Trond, Berit Merete

Dette var eit internt gt-møte for å klargjere status quo på korridoren.

Saker:

Status quo

Forslag til bedring av pick-parallel:

Dette er gjort:

New Revision: 64705


Modified:
   trunk/gt/script/langTools/Converter.pm
Log:
Insert wordcount

Oslo-Bergen-tagger

Tiltak

Vi har brukt nob_morf-prestat.cg3. Bør vi bruke nob_morf.cg3?

cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf-prestat.cg3 > data.tagged.shitty.nob


cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf.cg3 > data.tagged.shitty.nob

Hva skal gjøres med store filer med minimale feil i setningsparallelliseringen? feks HP_2009_samisk_sprak_norsk.pdf og HP_2009_samisk_sprak_nordsam.pdf

I disse store pdf-dokumentene (over 60 sider) er det løpende tekst som blir brutt av flere små info-vinduer med tekst. Problemet er at de ikke kommer på samme plass i samisk og norsk dokument, selv om det er samme tekst. Dette medfører at setningsparallelliseringen blir feil. Dette kan rettes manuelt i prestable før filene flyttes til stable. Dette kan ikke rettes automatisk.

Dette kan rette på følgende måter:

Det vi kan lage her er skygge-originalar: Delar av dokumentet som i dag er i ulik rekkjefølgje vil vi manuelt omarrangere, og lagre som nye originalar.

Alle aktuelt++ og aigeguovdil++ fra regjeringen.no er ikke parallelle fordi dette er oversikt over pressemeldinger og ikke alle pressemeldinger blir oversatt til samisk

Ukjente ord

Spørsmål: Er det ingen spelrelax for allcapitalized strings?

original input string: BEARRÁIGEAHČČANLÁVDEGOTTI       BEARRÁIGEAHČČANLÁVDEGOTTI       +?


echo "bearráigeahččanlávdegotti" | lookup -q -flags mbTT $GTHOME/gt/sme/bin/sme.fst
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Gen
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Acc

Svar: Jo det finst, men:

Svaret på det ligg i allcaps.regex. Dette scriptet er ikkje i bruk, fordi resultatet er ein svært langsom automat (jf. B&K for dokumentasjon).

Mange symboler i unknown lista skal filteres bort, det samme skal gjøres med Wikipedia info

Word count skal bare være nummer og ord, ikke slash og slike ting.

~ $ usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
márjá
márjá	márjá	+?


oslo
oslo	oslo	+?


Márjá
Márjá	Márjá+N+Prop+Fem+Sg+Attr
Márjá	Márjá+N+Prop+Fem+Sg+Nom


Oslo
Oslo	Oslo+N+Prop+Plc+Sg+Nom
Oslo	Oslo+N+Prop+Plc+Sg+Gen
Oslo	Oslo+N+Prop+Plc+Sg+Acc


deatnu
deatnu	deatnu+Plc+N+Sg+Nom
deatnu	deatnut+V+TV+Ind+Prs+Sg3


Deatnu
Deatnu	Deatnu+N+Prop+Plc+Sg+Nom
Deatnu	deatnu+Plc+N+Sg+Nom
Deatnu	deatnut+V+TV+Ind+Prs+Sg3


Mánná
Mánná	mánná+Hum+N+Sg+Nom
Mánná	mannat+V+TV+Ind+Prs+Sg3

Kandidat til kommando for å finne ekte ukjente samiske ord:

cat unknown_sme_20121028.txt |sed 's/^ *//g;'|cut -d"bt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep -v '[.+@]'|grep -v '^$' > tull

TODO

Ciprian:

BM & Marja:

cat unknown_sme_without_nob_20121028.txt ~/main/st/nob/obt/bin/mtag-osx64 grep ‘” ukjent’ cut -d”"” -f2 ueng grep ‘+?’ cut -f1 rev sort rev > ukj
cat ukj grep -v ‘[0-9-]’ usme grep ‘?’ cut -f1 rev sort rev see  

Neste møte

Tysdag 6.11. kl. 10.00, også med Sjur og Børre (sjekke om tidspunkt passar)