GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete
Saker:
abbr.txt -bugen i nob er ok, feilen lå i preprocess. i, æ, ø, å introduserte punktum foran stor neste bokstav.
Ny køyring er undervegs (no) med ny abbr. Vi har 2456 filer som har peikarar og blir konvertert. 1653 filer blir overført til prestable, dei 2456-1653=803 filpara er (nesten) tom, eller forholdet i tekstmengda mellom dei to filene i paret er for skeivt.
Ein grunn er at OCR-filer, bug #1369, har snike seg inn i resultatet.
parallel_corpus_tmp>find nob2sme/nob -name \*.xml | wc -l
2456
parallel_corpus_tmp>find nob2sme/sme -name \*.xml | wc -l
2456
prestable>find converted/nob/ -name \*.xml | wc -l
1653
prestable>find converted/sme -name \*.xml | wc -l
1653
xsl-arket kan spesifisere at visse noder har visse språk. Viss du spesifiserer at dokumentet t.d. er på sme og smj, vil text_cat arbeide med berre dei to språka. Denne spesifiseringa fungerer på dokumentnivå, men ikkje på nodenivå.
For liten prosent av mainlang gjeld for 8 filer.
Konklusjon: P4.
Vi finn ut om den korrekte forma står i ei typos-fil som de facto blir brukt.
Cip snakkar ikkje om den generelle typos.txt, men om den fil-spesifikke (xsl-spesifikke) lista over skrivefeil.
Børre: Vi må sjekke converted, prestable
for å sjå om orda
frå filnamn.typos
er retta.
Konklusjon: maj, P2
TODO
grep -r
(kommandoen fins i Bugzilla) og oppsummerer.Problem: filnamn.ext og (filnamn.ext.xsl minus .xsl) matchar ikkje.
2 i nob og 3 i sme som er utan innhald. Bugen blir med andre ord mindre og mindre.
Børre: 1391 har to feilkjelder: Nokon har skrive parallellfiler som ikkje har eksistert. Vi ser no på dei konverterte filene og ser om vi manglar parallellfiler. Ofte manglar filene fordi det ikkje har vorte konvertert. Det er mogleg at språkattkjenninga har sagt at det er for mykje norsk der, eller det er for mange språk der.
Cip: Eg snakkar om filer i orig
, ikkje filer i converted
. Jf. nedafor, der same
fil er ført opp to gonger, ein gong med a og ein gong med á.
my_conversion>find orig -type f -name
"S*hkavuorru_Gollegiella_-_Keskitalo.doc*"
orig/sme/admin/depts/other_files/Sahkavuorru_Gollegiella_-_Keskitalo.doc
orig/sme/admin/depts/other_files/Sahkavuorru_Gollegiella_-_Keskitalo.doc.xsl
orig/sme/admin/depts/other_files/Sáhkavuorru_Gollegiella_-_Keskitalo.doc.xsl
Konklusjon: maj, P2
Talet på problematiske filer: 67 … 8 … 10 (retninga er i hovudsak god).
Konklusjon: nor, P2, BM
TODO
Desse har snike seg med i converted. Børre leiter etter dei. Dette er same fenomen som #1390.
Dette er sametingsprotokollane i perioden ca. 1990-1994.
Konklusjon: Denne buggen er avhengig av 1390. På vent til 1390 er fiksa.
TODO
Rutiner for oppdatering av oversettelsesminne - html-filer oppdateres automatisk. Hvordan skal vi håndtere pdf-tekster? Manuell redigering av store pdf-dokument fordi store dokument ofte er skjeve, dvs at ikke alle kapitler blir oversatt til samisk.
Samiske tall forteller skal bort fra FAD-korpus. Hvor er det rapportert? I forbindelse med Gullkorpus-arbeidet.
TODO
Dagens prestable blir no frose (slik at vi kan diffe data). Det skal lages en ny prestable.
Det er 10 filer som har underspesifisert retning (dei peiker på kvarandre). Det som manglar her er å finne rett retning.
Sjekke filpar på grensen til å bli godkjent.
Det er visse typos som ikkje blir korrigert, sjølv om ordforma finst i typos.txt.
TODO
Starte med å sjå på ordparallellisering den 24.9. med atterhald om resultat at 1390-fiksing.
Onsdag 19.9. 2012 kl 13.00.