GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Ciprian, Trond, Sjur, Børre
Ciprian har byrja testa kvart enkelt steg i parallellføringsprosesseringa:
Oppsummering: mykje er bra, nokre punkt som Ciprian skal sjekka enno. Notatar i statistics_fad.xml
.
Uløyseleg problem med split compounds, må fiksast i preprossessering før OBT-analyse.
hum-tf4-ans143:obt ttr000$ echo "Jorden var øde og tom, og mørke lå over havdypet. " | ./bin/mtag-osx64 |vislcg3 -g src/nob_morf.cg3
"<jorden>"
"jord" subst appell mask be ent
"<var>"
"være" verb pret a5 pr1 pr2 <aux1/perf_part>
"<øde>"
"øde" adj ub m/f ent pos
"øde" adj fl pos
"øde" subst appell nøyt ub ent
"øde" adj nøyt ub ent pos
"<og>"
"og" konj
"<tom>"
"tom" adj ub m/f ent pos
"<,>"
"$," <komma>
"<og>"
"og" konj clb
"<mørke>"
"mørk" adj fl pos
"mørke" subst appell nøyt ub ent
"<lå>"
"ligge" verb pret i2 tr11 pa4 a5
"<over>"
"over" prep
"<havdypet>"
"havdyp" subst appell nøyt be ent
"<.>"
"$." clb <punkt>
hum-tf4-ans143:obt ttr000$ echo "Jorden var øde og tom, og mørke lå over havdypet. " | ./bin/mtag-osx64 |vislcg3 -g src/nob_morf-prestat.cg3 | OBT-Stat/bin/run_obt_stat.rb
"<jorden>"
"jord" subst appell mask be ent
"<var>"
"være" verb pret a5 pr1 pr2 <aux1/perf_part>
"<øde>"
"øde" adj ub m/f ent pos
"<og>"
"og" konj
"<tom>"
"tom" adj ub m/f ent pos
"<,>"
"$," <komma>
"<og>"
"og" konj clb
"<mørke>"
"mørke" subst appell nøyt ub ent
"<lå>"
"ligge" verb pret i2 tr11 pa4 a5
"<over>"
"over" prep
"<havdypet>"
"havdyp" subst appell nøyt be ent
"<.>"
"$." clb <punkt>
sme unknown:
cat data.tagged.clean.sme | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep unknown | wc -l
tokens 39014 (20121014)
39212 (20121028)
38481 (20121102)
38650 (20121112)
cat data.tagged.clean.sme | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep unknown | sort | uniq -c | sort -nr | wc -l
types 19725 (20121014)
20701 (20121028)
20535 (20121102)
21103 (20121112)
nob ukjent:
cat data.tagged.clean.nob | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep '<ukjent>' | wc -l
tokens 17140 (20121014)
11060 (20121028)
10952 (20121102)
11007 (20121112)
cat data.tagged.clean.nob | PERL_UNICODE=D perl -p -e 's/ /\n/g' | grep '<ukjent>' | sort | uniq -c | sort -nr | wc -l
types 4083 (20121014)
3426 (20121028)
3431 (20121102)
3453 (20121112)
Tronds vs. Ciprians verkty.
WP2TXT
, dokumentert i README-fila, finst
her.Ciprian vil ha kvalitetssikra verktya for å trekkja ut tekst frå WP: Trond sitt verkty vs Ciprian sitt.
Det største problemet: Ugyldige UTF-8-teikn. Må sjekkast.
GJERAST:
Alle bindestrekar er no fjerna, som reduserte ukjende ord i NOB med ca 1/3. Det meste av resten er støy. Det same gjeld SME - dei fleste ukjende ord no er støy.
Dette punktet er avslutta for denne gong.
Alle testar og sjekkar for metadatakonsistens bør utvidast til å bli brukt på heile korpuset, og for alle språk. Alle ikkje-samiske språk må ha minst ein samisk parallell (dvs språk utan kopling til samisk er ikkje interessant i utgangspunktet, og unnatak må merkast tydeleg). Det finst andre nykkelspråk - t.d. komi, eller andre minoritetsspråk. Men reine majoritetsspråkstekstar vil vi ikkje ha.
GJERAST:
Trond har kompletert dokumentasjonen, og sjekka kor mykje av dokumentasjonen vi kan visa til andre. /tools/autshumato.html
Resultat etter testing:
Enkel terminologi/”glossary” kan lagast slik:
vold:veahkaválddálašvuohta ## ;
cat ~/main/words/dicts/nobsme/bin/nobsme.lexc \|
cut -d" " -f1|tr '_' ' '|tr ':' '\t'|grep -v LEXIC \|
> ~/Documents/tm/nobsme_glossary.txt
Vi er ganske nære, men det er framleis mykje arbeid med å testa, laga manglande ressursar og dokumentera, ev. laga ferdige installeringspakker. Vi har mykje anna på gang no, så vi ventar til etter Akilles (=FAD).
Tysdag 20. november kl 10.30 finsk tid.