GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started, and our Privacy document.
Til stades: Risten Birje, Kevin Trond
Saker
Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide.
Sist hadde vi filer i desse mappene:
words/dictsnobsma/inc/candidates
Input til filene var:
og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar
koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar:
Dette står òg godt forklart i 00_readme.txt i inc/candidates.
Målet er å få nye oppslag i nobsma.
Mappene under inc/ er:
candidates, done1, done2, done3
Under inc
ligg også N_missing_nowac.freq
som inneheld 5017 vanlege substantiv frå NOWAC-korpuset for norsk
som ikkje finst i nobsma, med sme omsetjing
RB har arbeidd ein del med denne, og omsett 82 ord
Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor) er allereie gjort. Done-mappene 1, 2, 3 inneheld 6225 oppslag. Oppslaga i done er allereie lagt inn i src/*.xml (flott!).
Det som står att no er 2661 nob-ord i candidates. RB har sett gjennom listene i {candidates}, og satt + på gode
Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta, men vi bør vurdere om det er vits i å køyre ei 5. køyring)
Candidates-filene inneheld 2661 nob-ord. Her er alle filene, med oversyn over kommentaren til kvar av dei (første linja i fila, der første linje er tom er det ingen kommentar):
tf4-hsl-m0024:candidates trond$ head -1 ?_*
==> A_intersection_multis <==
==> A_intersection_singles <==
+ på gode
==> A_rest <==
+ på gode - ferdig
==> A_syn_ana_00_multis <==
+ på gode
==> A_syn_ana_00_singles <==
+ på gode
==> N_decomplow_ana_00_multis_nob <==
==> N_intersection_multis <==
==> N_intersection_singles <==
+ på gode
==> N_precomplow_ana_00_multis_nob <==
+ på gode
==> N_precomplow_ana_00_singles_nob <==
+ på gode
==> N_rest <==
==> N_syn_ana_00_multis <==
==> N_syn_ana_00_singles <==
==> V_intersection_multis <==
==> V_intersection_singles <==
+ på gode
==> V_rest <==
+ på gode
==> V_syn_multis <==
==> V_syn_singles <==
+ på gode
Her er oversyn over alle filene:
13 av dei har +-merker, og er i det minste delvis gått gjennom:
34 N_precomplow_ana_00_multis_nob
27 A_intersection_singles
16 V_intersection_singles
16 N_precomplow_ana_00_singles_nob
15 N_intersection_singles
14 N_syn_ana_00_multis
11 N_rest
6 V_syn_multis
6 A_syn_ana_00_multis
5 V_rest
5 A_syn_ana_00_singles
4 A_rest
1 V_syn_singles
Jf. 00_readme.txt. Døme ledig:
A_intersection_multis:ledig tovme bargguheapme/guorosnaga/guorus/rabas 60 2 132 0
A_intersection_multis:ledig latjkes bargguheapme/guorosnaga/guorus/rabas 60 19 132 0
A_intersection_multis:ledig gåaroes bargguheapme/guorosnaga 60 102 17 0
A_syn_ana_00_singles:+arbeidsledig barkehts bargguheapme 11 102 33 0
Sjølv om det står bargguheapme i sme-kolonna for “ledig”, er dette ikkje relevant. sme-kolonnen er berre til hjelp, og skal ikkje vere med i arbeidet framover. Målet er å få samsvar mellom nob- og sma-kolonna. Sjølv om vi ikkje hadde hatt arbeidsledig i ei anna fil ville det ha vore riktig å ignorere sme-kolonna.
Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig), men at vi har ein omsetjingskandidat, som det i beste fall er mogleg å seie “ja” til.