GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

Mål

Målet med kmd-prosjektet er å skape framlegg til forvaltningstermar for sør- og lulesamisk. Vi vil gjere det på tre måtar:

Skaffe relevante norskspråklege kandidatar

Med utgangspunkt i nob-sme-parallellkorpuset frå fad1 dreg vi ut norske lemma som har ein høgare frekvens i fad-korpuset enn i eit referansekorpus (nowac). Den resterande lista dannar grunnlag for termar som skal bli lagt til.

Lage kandidatar på smj, sma

Vi slår opp orda i denne lista i nobsmj og nobsma. Vi slår også opp delane i samansetjingar, og der vi kjenner dei ulike delane genererer vi framlegg til tilsvarande samansetjingar for sma og smj.

For smj tar vi utgangspunkt i sme-delen av nob-sme-para, og slår opp i smesmj, eller evt. genererer nye smj med sme2smj-generatoren. Dei resulterande smj- kandidatane leiter vi etter i smj.fst, og i korpus. Viss dei er belagt i relevant kontekst legg vi dei til som nob-smj-omsetjingar, viss ikkje sender vi dei til manuell sjekk.

For sma veit vi ikkje heilt.

Bruke evt. lage nob-smj- og nob-sma-parallellkorpora

Desse korpora vil sannsynlegvis bli for små til eigentleg ordparallellisering, men vi kan setningsparallellisere dei, og slå opp setningskontekst for alle dei norske fad-orda vi finn i parallellkorpuset.

Grunnlagsmateriale

Eksisterande parallellkorpus nob-sme

Til sjuande og sist

vil vi bli sitjande att med ei liste av sentrale norske ord vi rett og slett berre vil ha omsett itil smj, sma. Men før vi kjem så langt skal vi i så stor grad som råd er forsøke å få tak i kandidatpar.