Møte om språkteknologi for meänkieli
Dato 1.3.23.
Elina, Lina, Marie, Gunnar, Rickhard, Trond, Baki, Jacob, …
Same møte tok også opp arli og resanderomska, sjå separate referat
Saker
- Dette har skjedd
- Planar framover, meänkieli
- Korpus
Dette har skjedd
Meänkielidagens seminarium om språkteknologi 27/2 i Stockholm (+online), Teknikken fungerte, alt gjekk bra, god pres
Meänkieli
Vi har en språkmodell med dekningsgrad ca. 82 %.
Prioritering för modellen framåt:
- yaml-testarna: korrigera (ƒ och vänner)
- Stamklassorna för substantiv, olika kasus + korrigera (affixes och phonology)
- Ordförråd, lägga inn ord som fattas
Exempel på ord som “fattas”:
cat test/data/freebound.missing.freq230212.txt |grep mheen
2 tuomioistuimheen -- ordet fattas
2 nimheen -- ordet står i lexicon
1 sukunimheen ordet står i lexidon
1 lumheen -- ordet står i lexikon
1 emättimheen -- ordet fattas
echo nimi+N+Sg+Ill|hdfit
nimi+N+Sg+Ill nimmheen 0,000000
m til mm kommer av gemination 0:m
"Gemination 0:m"
!! **RULE: @RULENAME@**
0:m <=> [.#.|#] Cns:* Vow m _ :a (Dummy:) %> (h) :a ; ! [:a|i2:|%^V:] ;
[.#.|#] Cns:* Vow m _ a: (Dummy:) %> (h) :a :a ; ! [:a|i2:|%^V:] ;
[.#.|#] Cns:* Vow m _ :e (Dummy:) %> (h) :e ;
[.#.|#] Cns:* Vow m _ e: (Dummy:) %> h :e :e ; ! <==== här är katastrofen
[.#.|#] Cns:* Vow m _ :i (Dummy:) %> (h) :i ;
[.#.|#] Cns:* Vow m _ i: (Dummy:) %> h :i :i ;
[.#.|#] Cns:* Vow m _ o (Dummy:) %> (h) :o ;
[.#.|#] Cns:* Vow m _ o: %^HMETA: %> h :o :o ;
[.#.|#] Cns:* Vow m _ :u (Dummy:) %> (h) :u ;
[.#.|#] Cns:* Vow m _ u: (Dummy:) %> h :u :u ;
[.#.|#] Cns:* Vow m _ :y (Dummy:) %> (h) :y ;
[.#.|#] Cns:* Vow m _ y: (Dummy:) %> h :y :y ;
[.#.|#] Cns:* Vow m _ :ä (Dummy:) %> (h) :ä ;
[.#.|#] Cns:* Vow m _ ä: (Dummy:) %> h :ä :ä ;
[.#.|#] Cns:* Vow m _ :ö (Dummy:) %> (h) :ö ;
[.#.|#] Cns:* Vow m _ ö: (Dummy:) %> h :ö :ö ;
För dom här yamlfilerna:
ls test/src/gt-norm-yamls/|sort
N-3nensg-ade_gt-norm.yaml
N-nensg_ade_gt-norm.yaml
N-plade_gt-norm.yaml
N-plill_gt-norm.yaml
N-pline_gt-norm.yaml
N-sgess_gt-norm.yaml
N-sgill_gt-norm.yaml
N-sgine_gt-norm.yaml
N-sgpar_gt-norm.yaml
V-v1_antaa_gt-norm.yaml
Filene ser slik ut:
...
afäärimies+N+Sg+Ill: afäärimieheen
eusmies+N+Sg+Ill: eusmieheen
frahtimies+N+Sg+Ill: frahtimieheen
hakkomies+N+Sg+Ill: hakkomieheen
ikämies+N+Sg+Ill: ikämieheen
...
Korpus
Prosedyrer
Vi kan bruke same prosedyre for fit, rmn og sju-x-sydlapska. Dei opne tekstane ligg på UiT sin svn-servar:
Det finst prosedyrer for dette:
Mål: Alla minortetsspråkliga texter publisert på ISOF bör inn i korpus, egentligen också andre offentliga myndigheter. Corpustools har rutiner för att laga parallellkorpusar.
På ISOF ser Jacob på dette. Den som har laga corpustools ved UiT er Børre Gaup.
Upphavsrätt
Texter från offentliga myndigheter i öppna korpusen, fri licens. Andra texter (tex. skönlitteratur) har UiT ett system med kontrakter för. Det finns prosedyrer för parallelltext.
UiT-korpuset är på veg från svn til git, jf. den preliminära korpussidan på git (länkarna är inte operativ, men det kommer).
Framåt:
- Trond diskuterer frågan om tilgang med Divvun-gruppa.
- Deretter diskusjon med Divvun og Isof (Jacob) om korpus.
fit
fit: I dag har vi 475797 ord i korpus.