Møte om språkteknologi for meänkieli og romska

Dato 1.3.23.

Elina, Lina, Marie, Gunnar, Rickhard, Trond, Baki, Jacob, …

Same møte tok også opp arli og resanderomska, sjå separate referat

Saker

Dette har skjedd
Planar framover, arli
Korpus

Dette har skjedd

Baki og Gunnar arbeter med arli.

Romska

Arli

Språkmodellen för arli är på väg:

Lexikon innehåller 106 ord.

Att göra:

Lexicon från Lexin (Gunnar och Baki scripta in: klassificera ord i lexc-klasser)
Komplettera grammatiken (verb ser ok ut, det samma med substantiv)

Lexikon

Baki ger senaste version til Viggo, och Viggo och Gunnar ser på scripting för att inkorporera dom i språkmodellen.

Slutna ordklasser skal in i sina respektiva filer: src/fst/stems/conjunctions.lexc och så vidare.

Sammansättning: Vi må gå via lexikon R til filen src/fst/compounds.lexc.

Korpus

Proasedyrer

Vi kan bruke same prosedyre for fit, rmn og sju-x-sydlapska. Dei opne tekstane ligg på UiT sin svn-servar:

Det finst prosedyrer for dette:

CorpusTools

Mål: Alla minortetsspråkliga texter publisert på ISOF bör inn i korpus, egentligen också andre offentliga myndigheter. Corpustools har rutiner för att laga parallellkorpusar.

På ISOF ser Jacob på dette. Den som har laga corpustools ved UiT er Børre Gaup.

Upphavsrätt

Texter från offentliga myndigheter i öppna korpusen, fri licens. Andra texter (tex. skönlitteratur) har UiT ett system med kontrakter för. Det finns prosedyrer för parallelltext.

UiT-korpuset är på veg från svn til git, jf. den preliminära korpussidan på git (länkarna är inte operativ, men det kommer).

Framåt:

Trond diskuterer frågan om tilgang med Divvun-gruppa.
Deretter diskusjon med Divvun og Isof (Jacob) om korpus.

romska

I dag har vi 49000 ord rmn-texter (arli).

Balkan Romani NLP Grammar

Page Content