GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started, and our Privacy document.

Møte om sørsamisk kmd-prosjekt: 18.9.2017

Til stades: Risten Birje, Kevin Trond

Saker

Bakgrunn
Status
Framover

Bakgrunn

Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide.

Sist hadde vi filer i desse mappene:

words/dictsnobsma/inc/candidates

Input til filene var:

Snitt av ulike ordbøker
oppdeling av nob-samansetjingar og generering av sma-samansetjingar
synonymi-hopping
og så ein metode til

og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar

koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar:

[https://github.com/unhammer/evttohus#output-filename-format]

Dette står òg godt forklart i 00_readme.txt i inc/candidates.

Målet er å få nye oppslag i nobsma.

Mappene under inc/ er:

candidates, done1, done2, done3

Under inc ligg også N_missing_nowac.freq som inneheld 5017 vanlege substantiv frå NOWAC-korpuset for norsk som ikkje finst i nobsma, med sme omsetjing RB har arbeidd ein del med denne, og omsett 82 ord

Status

Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor) er allereie gjort. Done-mappene 1, 2, 3 inneheld 6225 oppslag. Oppslaga i done er allereie lagt inn i src/*.xml (flott!).

Det som står att no er 2661 nob-ord i candidates. RB har sett gjennom listene i {candidates}, og satt + på gode

Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta, men vi bør vurdere om det er vits i å køyre ei 5. køyring)

Candidates-filene inneheld 2661 nob-ord. Her er alle filene, med oversyn over kommentaren til kvar av dei (første linja i fila, der første linje er tom er det ingen kommentar):

tf4-hsl-m0024:candidates trond$ head -1 ?_*
==> A_intersection_multis <==




==> A_intersection_singles <==
+ på gode


==> A_rest <==
+ på gode - ferdig


==> A_syn_ana_00_multis <==
+ på gode


==> A_syn_ana_00_singles <==
+ på gode


==> N_decomplow_ana_00_multis_nob <==




==> N_intersection_multis <==




==> N_intersection_singles <==
+ på gode


==> N_precomplow_ana_00_multis_nob <==
+ på gode


==> N_precomplow_ana_00_singles_nob <==
+ på gode


==> N_rest <==




==> N_syn_ana_00_multis <==




==> N_syn_ana_00_singles <==




==> V_intersection_multis <==




==> V_intersection_singles <==
+ på gode


==> V_rest <==
+ på gode


==> V_syn_multis <==




==> V_syn_singles <==
+ på gode

Her er oversyn over alle filene:

A_intersection_multis
A_intersection_singles
A_rest
A_syn_ana_00_multis
A_syn_ana_00_singles
N_decomplow_ana_00_multis_nob
N_intersection_multis
N_intersection_singles
N_precomplow_ana_00_multis_nob
N_precomplow_ana_00_singles_nob
N_rest
N_syn_ana_00_multis
N_syn_ana_00_singles
V_intersection_multis
V_intersection_singles
V_rest
V_syn_multis
V_syn_singles

13 av dei har +-merker, og er i det minste delvis gått gjennom:

  34 N_precomplow_ana_00_multis_nob
  27 A_intersection_singles
  16 V_intersection_singles
  16 N_precomplow_ana_00_singles_nob
  15 N_intersection_singles
  14 N_syn_ana_00_multis
  11 N_rest
   6 V_syn_multis
   6 A_syn_ana_00_multis
   5 V_rest
   5 A_syn_ana_00_singles
   4 A_rest
   1 V_syn_singles

Metode

Jf. 00_readme.txt. Døme ledig:

A_intersection_multis:ledig        tovme        bargguheapme/guorosnaga/guorus/rabas        60        2        132        0
A_intersection_multis:ledig        latjkes        bargguheapme/guorosnaga/guorus/rabas        60        19        132        0
A_intersection_multis:ledig        gåaroes        bargguheapme/guorosnaga        60        102        17        0
A_syn_ana_00_singles:+arbeidsledig        barkehts        bargguheapme        11        102        33        0

Sjølv om det står bargguheapme i sme-kolonna for “ledig”, er dette ikkje relevant. sme-kolonnen er berre til hjelp, og skal ikkje vere med i arbeidet framover. Målet er å få samsvar mellom nob- og sma-kolonna. Sjølv om vi ikkje hadde hatt arbeidsledig i ei anna fil ville det ha vore riktig å ignorere sme-kolonna.

Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig), men at vi har ein omsetjingskandidat, som det i beste fall er mogleg å seie “ja” til.

GiellaLT

Møte om sørsamisk kmd-prosjekt: 18.9.2017

Bakgrunn

Status

Metode

Framover

RB går gjennom filene i candidates.

Kevin legg resultatet til i nobsma etterpå

Deretter tenkjer vi oss om

Eitt naturleg neste steg er topp-200 i revidert nowac-missing:

T/K oppdaterer dagens nowac-missing-liste

Eit anna steg er andre korpussamlingar (og då tar vi nytt møte)

Sitemap

On this page