GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.
Til stades: Ciprian, Trond, Sjur, Børre
Ciprian har byrja testa kvart enkelt steg i parallellføringsprosesseringa:
Oppsummering: mykje er bra, nokre punkt som Ciprian skal sjekka enno. Notatar i statistics_fad.xml
.
Uløyseleg problem med split compounds, må fiksast i preprossessering før OBT-analyse.
hum-tf4-ans143:obt ttr000$ echo "Jorden var øde og tom, og mørke lå over havdypet. " | ./bin/mtag-osx64 |vislcg3 -g src/nob_morf.cg3
"<jorden>"
"jord" subst appell mask be ent
"<var>"
"være" verb pret a5 pr1 pr2 <aux1/perf_part>
"<øde>"
"øde" adj ub m/f ent pos
"øde" adj fl pos
"øde" subst appell nøyt ub ent
"øde" adj nøyt ub ent pos
"<og>"
"og" konj
"<tom>"
"tom" adj ub m/f ent pos
"<,>"
"$," <komma>
"<og>"
"og" konj clb
"<mørke>"
"mørk" adj fl pos
"mørke" subst appell nøyt ub ent
"<lå>"
"ligge" verb pret i2 tr11 pa4 a5
"<over>"
"over" prep
"<havdypet>"
"havdyp" subst appell nøyt be ent
"<.>"
"$." clb <punkt>
hum-tf4-ans143:obt ttr000$ echo "Jorden var øde og tom, og mørke lå over havdypet. " | ./bin/mtag-osx64 |vislcg3 -g src/nob_morf-prestat.cg3 | OBT-Stat/bin/run_obt_stat.rb
"<jorden>"
"jord" subst appell mask be ent
"<var>"
"være" verb pret a5 pr1 pr2 <aux1/perf_part>
"<øde>"
"øde" adj ub m/f ent pos
"<og>"
"og" konj
"<tom>"
"tom" adj ub m/f ent pos
"<,>"
"$," <komma>
"<og>"
"og" konj clb
"<mørke>"
"mørke" subst appell nøyt ub ent
"<lå>"
"ligge" verb pret i2 tr11 pa4 a5
"<over>"
"over" prep
"<havdypet>"
"havdyp" subst appell nøyt be ent
"<.>"
"$." clb <punkt>
sme unknown:
cat data.tagged.clean.sme | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep unknown | wc -l
tokens 39014 (20121014)
39212 (20121028)
38481 (20121102)
38650 (20121112)
cat data.tagged.clean.sme | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep unknown | sort | uniq -c | sort -nr | wc -l
types 19725 (20121014)
20701 (20121028)
20535 (20121102)
21103 (20121112)
nob ukjent:
cat data.tagged.clean.nob | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep '<ukjent>' | wc -l
tokens 17140 (20121014)
11060 (20121028)
10952 (20121102)
11007 (20121112)
cat data.tagged.clean.nob | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep '<ukjent>' | sort | uniq -c | sort -nr | wc -l
types 4083 (20121014)
3426 (20121028)
3431 (20121102)
3453 (20121112)
Tronds vs. Ciprians verkty.
WP2TXT
, dokumentert i README-fila, finst
her.Ciprian vil ha kvalitetssikra verktya for å trekkja ut tekst frå WP: Trond sitt verkty vs Ciprian sitt.
Det største problemet: Ugyldige UTF-8-teikn. Må sjekkast.
GJERAST:
Alle bindestrekar er no fjerna, som reduserte ukjende ord i NOB med ca 1/3. Det meste av resten er støy. Det same gjeld SME - dei fleste ukjende ord no er støy.
Dette punktet er avslutta for denne gong.
Alle testar og sjekkar for metadatakonsistens bør utvidast til å bli brukt på heile korpuset, og for alle språk. Alle ikkje-samiske språk må ha minst ein samisk parallell (dvs språk utan kopling til samisk er ikkje interessant i utgangspunktet, og unnatak må merkast tydeleg). Det finst andre nykkelspråk - t.d. komi, eller andre minoritetsspråk. Men reine majoritetsspråkstekstar vil vi ikkje ha.
GJERAST:
Trond har kompletert dokumentasjonen, og sjekka kor mykje av dokumentasjonen vi kan visa til andre. /tools/autshumato.html
Resultat etter testing:
Enkel terminologi/”glossary” kan lagast slik:
vold:veahkaválddálašvuohta # ;
cat ~/main/words/dicts/nobsme/bin/nobsme.lexc \|
cut -d" " -f1|tr '_' ' '|tr ':' '\t'|grep -v LEXIC \|
> ~/Documents/tm/nobsme_glossary.txt
Vi er ganske nære, men det er framleis mykje arbeid med å testa, laga manglande ressursar og dokumentera, ev. laga ferdige installeringspakker. Vi har mykje anna på gang no, så vi ventar til etter Akilles (=FAD).
Tysdag 20. november kl 10.30 finsk tid.