GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Målet med kmd-prosjektet er å skape framlegg til forvaltningstermar for sør- og lulesamisk. Vi vil gjere det på tre måtar:
Med utgangspunkt i nob-sme-parallellkorpuset frå fad1 dreg vi ut norske lemma som har ein høgare frekvens i fad-korpuset enn i eit referansekorpus (nowac). Den resterande lista dannar grunnlag for termar som skal bli lagt til.
Vi slår opp orda i denne lista i nobsmj og nobsma. Vi slår også opp delane i samansetjingar, og der vi kjenner dei ulike delane genererer vi framlegg til tilsvarande samansetjingar for sma og smj.
For smj tar vi utgangspunkt i sme-delen av nob-sme-para, og slår opp i smesmj, eller evt. genererer nye smj med sme2smj-generatoren. Dei resulterande smj- kandidatane leiter vi etter i smj.fst, og i korpus. Viss dei er belagt i relevant kontekst legg vi dei til som nob-smj-omsetjingar, viss ikkje sender vi dei til manuell sjekk.
For sma veit vi ikkje heilt.
Desse korpora vil sannsynlegvis bli for små til eigentleg ordparallellisering, men vi kan setningsparallellisere dei, og slå opp setningskontekst for alle dei norske fad-orda vi finn i parallellkorpuset.
Eksisterande parallellkorpus nob-sme
vil vi bli sitjande att med ei liste av sentrale norske ord vi rett og slett berre vil ha omsett itil smj, sma. Men før vi kjem så langt skal vi i så stor grad som råd er forsøke å få tak i kandidatpar.