GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Ciprian, Marja, Trond, Berit Merete
Dette var eit internt gt-møte for å klargjere status quo på korridoren.
Dette er gjort:
New Revision: 64705
Modified:
trunk/gt/script/langTools/Converter.pm
Log:
Insert wordcount
Tiltak
Vi har brukt nob_morf-prestat.cg3
. Bør vi bruke nob_morf.cg3
?
cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
~/main/st/nob/obt/bin/mtag-osx64 | \
vislcg3 -g ~/main/st/nob/obt/src/nob_morf-prestat.cg3 > data.tagged.shitty.nob
cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
~/main/st/nob/obt/bin/mtag-osx64 | \
vislcg3 -g ~/main/st/nob/obt/src/nob_morf.cg3 > data.tagged.shitty.nob
Hva skal gjøres med store filer med minimale feil i setningsparallelliseringen? feks HP_2009_samisk_sprak_norsk.pdf og HP_2009_samisk_sprak_nordsam.pdf
I disse store pdf-dokumentene (over 60 sider) er det løpende tekst som blir brutt av flere små info-vinduer med tekst. Problemet er at de ikke kommer på samme plass i samisk og norsk dokument, selv om det er samme tekst. Dette medfører at setningsparallelliseringen blir feil. Dette kan rettes manuelt i prestable før filene flyttes til stable. Dette kan ikke rettes automatisk.
Dette kan rette på følgende måter:
Det vi kan lage her er skygge-originalar: Delar av dokumentet som i dag er i ulik rekkjefølgje vil vi manuelt omarrangere, og lagre som nye originalar.
Alle aktuelt++ og aigeguovdil++ fra regjeringen.no er ikke parallelle fordi dette er oversikt over pressemeldinger og ikke alle pressemeldinger blir oversatt til samisk
Spørsmål: Er det ingen spelrelax for allcapitalized strings?
original input string: BEARRÁIGEAHČČANLÁVDEGOTTI BEARRÁIGEAHČČANLÁVDEGOTTI +?
echo "bearráigeahččanlávdegotti" | lookup -q -flags mbTT $GTHOME/gt/sme/bin/sme.fst
bearráigeahččanlávdegotti bearráigeahččanlávdegoddi+Org+N+Sg+Gen
bearráigeahččanlávdegotti bearráigeahččanlávdegoddi+Org+N+Sg+Acc
Svar: Jo det finst, men:
Svaret på det ligg i allcaps.regex. Dette scriptet er ikkje i bruk, fordi resultatet er ein svært langsom automat (jf. B&K for dokumentasjon).
Mange symboler i unknown lista skal filteres bort, det samme skal gjøres med Wikipedia info
Word count skal bare være nummer og ord, ikke slash og slike ting.
~ $ usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
márjá
márjá márjá +?
oslo
oslo oslo +?
Márjá
Márjá Márjá+N+Prop+Fem+Sg+Attr
Márjá Márjá+N+Prop+Fem+Sg+Nom
Oslo
Oslo Oslo+N+Prop+Plc+Sg+Nom
Oslo Oslo+N+Prop+Plc+Sg+Gen
Oslo Oslo+N+Prop+Plc+Sg+Acc
deatnu
deatnu deatnu+Plc+N+Sg+Nom
deatnu deatnut+V+TV+Ind+Prs+Sg3
Deatnu
Deatnu Deatnu+N+Prop+Plc+Sg+Nom
Deatnu deatnu+Plc+N+Sg+Nom
Deatnu deatnut+V+TV+Ind+Prs+Sg3
Mánná
Mánná mánná+Hum+N+Sg+Nom
Mánná mannat+V+TV+Ind+Prs+Sg3
Kandidat til kommando for å finne ekte ukjente samiske ord:
cat unknown_sme_20121028.txt |sed 's/^ *//g;'|cut -d"bt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep -v '[.+@]'|grep -v '^$' > tull
TODO
Ciprian:
BM & Marja:
cat unknown_sme_without_nob_20121028.txt | ~/main/st/nob/obt/bin/mtag-osx64 | grep ‘” ukjent’ | cut -d”"” -f2 | ueng | grep ‘+?’ | cut -f1 | rev | sort | rev > ukj |
cat ukj | grep -v ‘[0-9-]’ | usme | grep ‘?’ | cut -f1 | rev | sort | rev | see |
Tysdag 6.11. kl. 10.00, også med Sjur og Børre (sjekke om tidspunkt passar)