GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started, and our Privacy document.

View GiellaLT on GitHub

Møte om sørsamisk kmd-prosjekt: 18.9.2017

Til stades: Risten Birje, Kevin Trond

Saker

Bakgrunn

Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide.

Sist hadde vi filer i desse mappene:

words/dictsnobsma/inc/candidates

Input til filene var:

og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar

koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar:

Dette står òg godt forklart i 00_readme.txt i inc/candidates.

Målet er å få nye oppslag i nobsma.

Mappene under inc/ er:

Under inc ligg også N_missing_nowac.freq som inneheld 5017 vanlege substantiv frå NOWAC-korpuset for norsk som ikkje finst i nobsma, med sme omsetjing RB har arbeidd ein del med denne, og omsett 82 ord

Status

Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor) er allereie gjort. Done-mappene 1, 2, 3 inneheld 6225 oppslag. Oppslaga i done er allereie lagt inn i src/*.xml (flott!).

Det som står att no er 2661 nob-ord i candidates. RB har sett gjennom listene i {candidates}, og satt + på gode

Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta, men vi bør vurdere om det er vits i å køyre ei 5. køyring)

Candidates-filene inneheld 2661 nob-ord. Her er alle filene, med oversyn over kommentaren til kvar av dei (første linja i fila, der første linje er tom er det ingen kommentar):

tf4-hsl-m0024:candidates trond$ head -1 ?_*
==> A_intersection_multis <==




==> A_intersection_singles <==
+ på gode


==> A_rest <==
+ på gode - ferdig


==> A_syn_ana_00_multis <==
+ på gode


==> A_syn_ana_00_singles <==
+ på gode


==> N_decomplow_ana_00_multis_nob <==




==> N_intersection_multis <==




==> N_intersection_singles <==
+ på gode


==> N_precomplow_ana_00_multis_nob <==
+ på gode


==> N_precomplow_ana_00_singles_nob <==
+ på gode


==> N_rest <==




==> N_syn_ana_00_multis <==




==> N_syn_ana_00_singles <==




==> V_intersection_multis <==




==> V_intersection_singles <==
+ på gode


==> V_rest <==
+ på gode


==> V_syn_multis <==




==> V_syn_singles <==
+ på gode

Her er oversyn over alle filene:

13 av dei har +-merker, og er i det minste delvis gått gjennom:

  34 N_precomplow_ana_00_multis_nob
  27 A_intersection_singles
  16 V_intersection_singles
  16 N_precomplow_ana_00_singles_nob
  15 N_intersection_singles
  14 N_syn_ana_00_multis
  11 N_rest
   6 V_syn_multis
   6 A_syn_ana_00_multis
   5 V_rest
   5 A_syn_ana_00_singles
   4 A_rest
   1 V_syn_singles

Metode

Jf. 00_readme.txt. Døme ledig:

A_intersection_multis:ledig        tovme        bargguheapme/guorosnaga/guorus/rabas        60        2        132        0
A_intersection_multis:ledig        latjkes        bargguheapme/guorosnaga/guorus/rabas        60        19        132        0
A_intersection_multis:ledig        gåaroes        bargguheapme/guorosnaga        60        102        17        0
A_syn_ana_00_singles:+arbeidsledig        barkehts        bargguheapme        11        102        33        0

Sjølv om det står bargguheapme i sme-kolonna for “ledig”, er dette ikkje relevant. sme-kolonnen er berre til hjelp, og skal ikkje vere med i arbeidet framover. Målet er å få samsvar mellom nob- og sma-kolonna. Sjølv om vi ikkje hadde hatt arbeidsledig i ei anna fil ville det ha vore riktig å ignorere sme-kolonna.

Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig), men at vi har ein omsetjingskandidat, som det i beste fall er mogleg å seie “ja” til.

Framover

RB går gjennom filene i candidates.

Kevin legg resultatet til i nobsma etterpå

Deretter tenkjer vi oss om

Eitt naturleg neste steg er topp-200 i revidert nowac-missing:

T/K oppdaterer dagens nowac-missing-liste

Eit anna steg er andre korpussamlingar (og då tar vi nytt møte)

Sitemap