Møte om sørsamisk kmd-prosjekt: 18.9.2017
Til stades: Risten Birje, Kevin Trond
Saker
- Bakgrunn
- Status
- Framover
Bakgrunn
Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide.
Sist hadde vi filer i desse mappene:
words/dictsnobsma/inc/candidates
Input til filene var:
- Snitt av ulike ordbøker
- oppdeling av nob-samansetjingar og generering av sma-samansetjingar
- synonymi-hopping
- og så ein metode til
og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar
koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar:
- [https://github.com/unhammer/evttohus#output-filename-format]
Dette står òg godt forklart i 00_readme.txt i inc/candidates.
Målet er å få nye oppslag i nobsma.
Mappene under inc/ er:
candidates, done1, done2, done3
Under inc
ligg også N_missing_nowac.freq
som inneheld 5017 vanlege substantiv frå NOWAC-korpuset for norsk
som ikkje finst i nobsma, med sme omsetjing
RB har arbeidd ein del med denne, og omsett 82 ord
Status
Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor) er allereie gjort. Done-mappene 1, 2, 3 inneheld 6225 oppslag. Oppslaga i done er allereie lagt inn i src/*.xml (flott!).
Det som står att no er 2661 nob-ord i candidates. RB har sett gjennom listene i {candidates}, og satt + på gode
Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta, men vi bør vurdere om det er vits i å køyre ei 5. køyring)
Candidates-filene inneheld 2661 nob-ord. Her er alle filene, med oversyn over kommentaren til kvar av dei (første linja i fila, der første linje er tom er det ingen kommentar):
tf4-hsl-m0024:candidates trond$ head -1 ?_*
==> A_intersection_multis <==
==> A_intersection_singles <==
+ på gode
==> A_rest <==
+ på gode - ferdig
==> A_syn_ana_00_multis <==
+ på gode
==> A_syn_ana_00_singles <==
+ på gode
==> N_decomplow_ana_00_multis_nob <==
==> N_intersection_multis <==
==> N_intersection_singles <==
+ på gode
==> N_precomplow_ana_00_multis_nob <==
+ på gode
==> N_precomplow_ana_00_singles_nob <==
+ på gode
==> N_rest <==
==> N_syn_ana_00_multis <==
==> N_syn_ana_00_singles <==
==> V_intersection_multis <==
==> V_intersection_singles <==
+ på gode
==> V_rest <==
+ på gode
==> V_syn_multis <==
==> V_syn_singles <==
+ på gode
Her er oversyn over alle filene:
- A_intersection_multis
- A_intersection_singles
- A_rest
- A_syn_ana_00_multis
- A_syn_ana_00_singles
- N_decomplow_ana_00_multis_nob
- N_intersection_multis
- N_intersection_singles
- N_precomplow_ana_00_multis_nob
- N_precomplow_ana_00_singles_nob
- N_rest
- N_syn_ana_00_multis
- N_syn_ana_00_singles
- V_intersection_multis
- V_intersection_singles
- V_rest
- V_syn_multis
- V_syn_singles
13 av dei har +-merker, og er i det minste delvis gått gjennom:
34 N_precomplow_ana_00_multis_nob
27 A_intersection_singles
16 V_intersection_singles
16 N_precomplow_ana_00_singles_nob
15 N_intersection_singles
14 N_syn_ana_00_multis
11 N_rest
6 V_syn_multis
6 A_syn_ana_00_multis
5 V_rest
5 A_syn_ana_00_singles
4 A_rest
1 V_syn_singles
Metode
Jf. 00_readme.txt. Døme ledig:
A_intersection_multis:ledig tovme bargguheapme/guorosnaga/guorus/rabas 60 2 132 0
A_intersection_multis:ledig latjkes bargguheapme/guorosnaga/guorus/rabas 60 19 132 0
A_intersection_multis:ledig gåaroes bargguheapme/guorosnaga 60 102 17 0
A_syn_ana_00_singles:+arbeidsledig barkehts bargguheapme 11 102 33 0
Sjølv om det står bargguheapme i sme-kolonna for “ledig”, er dette ikkje relevant. sme-kolonnen er berre til hjelp, og skal ikkje vere med i arbeidet framover. Målet er å få samsvar mellom nob- og sma-kolonna. Sjølv om vi ikkje hadde hatt arbeidsledig i ei anna fil ville det ha vore riktig å ignorere sme-kolonna.
Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig), men at vi har ein omsetjingskandidat, som det i beste fall er mogleg å seie “ja” til.