GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

FAD-Møte 31.10.2012

Til stades: Ciprian, Marja, Trond, Berit Merete

Dette var eit internt gt-møte for å klargjere status quo på korridoren.

Saker:

Status quo

Forslag til bedring av pick-parallel:

Dette er gjort:

New Revision: 64705


Modified:
   trunk/gt/script/langTools/Converter.pm
Log:
Insert wordcount

Oslo-Bergen-tagger

Tiltak

Vi har brukt nob_morf-prestat.cg3. Bør vi bruke nob_morf.cg3?

cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf-prestat.cg3 > data.tagged.shitty.nob


cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf.cg3 > data.tagged.shitty.nob    

Hva skal gjøres med store filer med minimale feil i setningsparallelliseringen? feks HP_2009_samisk_sprak_norsk.pdf og HP_2009_samisk_sprak_nordsam.pdf

I disse store pdf-dokumentene (over 60 sider) er det løpende tekst som blir brutt av flere små info-vinduer med tekst. Problemet er at de ikke kommer på samme plass i samisk og norsk dokument, selv om det er samme tekst. Dette medfører at setningsparallelliseringen blir feil. Dette kan rettes manuelt i prestable før filene flyttes til stable. Dette kan ikke rettes automatisk.

Dette kan rette på følgende måter:

Det vi kan lage her er skygge-originalar: Delar av dokumentet som i dag er i ulik rekkjefølgje vil vi manuelt omarrangere, og lagre som nye originalar.

Alle aktuelt++ og aigeguovdil++ fra regjeringen.no er ikke parallelle fordi dette er oversikt over pressemeldinger og ikke alle pressemeldinger blir oversatt til samisk

Ukjente ord

Spørsmål: Er det ingen spelrelax for allcapitalized strings?

original input string: BEARRÁIGEAHČČANLÁVDEGOTTI       BEARRÁIGEAHČČANLÁVDEGOTTI       +?


echo "bearráigeahččanlávdegotti" | lookup -q -flags mbTT $GTHOME/gt/sme/bin/sme.fst
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Gen
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Acc

Svar: Jo det finst, men:

Svaret på det ligg i allcaps.regex. Dette scriptet er ikkje i bruk, fordi resultatet er ein svært langsom automat (jf. B&K for dokumentasjon).

Mange symboler i unknown lista skal filteres bort, det samme skal gjøres med Wikipedia info

Word count skal bare være nummer og ord, ikke slash og slike ting.

~ $ usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
márjá
márjá	márjá	+?


oslo
oslo	oslo	+?


Márjá
Márjá	Márjá+N+Prop+Fem+Sg+Attr
Márjá	Márjá+N+Prop+Fem+Sg+Nom


Oslo
Oslo	Oslo+N+Prop+Plc+Sg+Nom
Oslo	Oslo+N+Prop+Plc+Sg+Gen
Oslo	Oslo+N+Prop+Plc+Sg+Acc


deatnu
deatnu	deatnu+Plc+N+Sg+Nom
deatnu	deatnut+V+TV+Ind+Prs+Sg3


Deatnu
Deatnu	Deatnu+N+Prop+Plc+Sg+Nom
Deatnu	deatnu+Plc+N+Sg+Nom
Deatnu	deatnut+V+TV+Ind+Prs+Sg3


Mánná
Mánná	mánná+Hum+N+Sg+Nom
Mánná	mannat+V+TV+Ind+Prs+Sg3

Kandidat til kommando for å finne ekte ukjente samiske ord:

cat unknown_sme_20121028.txt |sed 's/^ *//g;'|cut -d"bt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep -v '[.+@]'|grep -v '^$' > tull

TODO

Ciprian:

BM & Marja:

cat unknown_sme_without_nob_20121028.txt ~/main/st/nob/obt/bin/mtag-osx64 grep ‘” ukjent’ cut -d”"” -f2 ueng grep ‘+?’ cut -f1 rev sort rev > ukj
cat ukj grep -v ‘[0-9-]’ usme grep ‘?’ cut -f1 rev sort rev see  

Neste møte

Tysdag 6.11. kl. 10.00, også med Sjur og Børre (sjekke om tidspunkt passar)