Tornedalen Finnish NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-fit

Møte om språkteknologi for meänkieli

Dato 1.3.23.

Elina, Lina, Marie, Gunnar, Rickhard, Trond, Baki, Jacob, …

Same møte tok også opp arli og resanderomska, sjå separate referat

Saker

Dette har skjedd

Meänkielidagens seminarium om språkteknologi 27/2 i Stockholm (+online), Teknikken fungerte, alt gjekk bra, god pres

Meänkieli

Vi har en språkmodell med dekningsgrad ca. 82 %.

Prioritering för modellen framåt:

  1. yaml-testarna: korrigera (ƒ och vänner)
  2. Stamklassorna för substantiv, olika kasus + korrigera (affixes och phonology)
  3. Ordförråd, lägga inn ord som fattas

Exempel på ord som “fattas”:

cat test/data/freebound.missing.freq230212.txt |grep mheen
   2 tuomioistuimheen -- ordet fattas
   2 nimheen -- ordet står i lexicon
   1 sukunimheen ordet står i lexidon
   1 lumheen -- ordet står i lexikon
   1 emättimheen  -- ordet fattas

echo nimi+N+Sg+Ill|hdfit
nimi+N+Sg+Ill    nimmheen    0,000000

m til mm kommer av gemination 0:m

"Gemination 0:m"
!! **RULE: @RULENAME@**
0:m <=> [.#.|#] Cns:* Vow m _  :a (Dummy:) %> (h) :a ;   ! [:a|i2:|%^V:] ;
        [.#.|#] Cns:* Vow m _ a:  (Dummy:) %> (h) :a :a ;  ! [:a|i2:|%^V:] ;
        [.#.|#] Cns:* Vow m _  :e (Dummy:) %> (h) :e ;
        [.#.|#] Cns:* Vow m _ e:  (Dummy:) %> h :e :e ;  ! <==== här är katastrofen
        [.#.|#] Cns:* Vow m _  :i (Dummy:) %> (h) :i ;
        [.#.|#] Cns:* Vow m _ i:  (Dummy:) %> h :i :i ;
        [.#.|#] Cns:* Vow m _ o   (Dummy:) %> (h) :o ;
        [.#.|#] Cns:* Vow m _ o:  %^HMETA: %> h :o :o ;
        [.#.|#] Cns:* Vow m _  :u (Dummy:) %> (h) :u ;
        [.#.|#] Cns:* Vow m _ u:  (Dummy:) %> h :u :u ;
        [.#.|#] Cns:* Vow m _  :y (Dummy:) %> (h) :y ;
        [.#.|#] Cns:* Vow m _ y:  (Dummy:) %> h :y :y ;
        [.#.|#] Cns:* Vow m _  :ä (Dummy:) %> (h) :ä ;
        [.#.|#] Cns:* Vow m _ ä:  (Dummy:) %> h :ä :ä ;
        [.#.|#] Cns:* Vow m _  :ö (Dummy:) %> (h) :ö ;
        [.#.|#] Cns:* Vow m _ ö:  (Dummy:) %> h :ö :ö ;

För dom här yamlfilerna:

ls test/src/gt-norm-yamls/|sort
N-3nensg-ade_gt-norm.yaml
N-nensg_ade_gt-norm.yaml
N-plade_gt-norm.yaml
N-plill_gt-norm.yaml
N-pline_gt-norm.yaml
N-sgess_gt-norm.yaml
N-sgill_gt-norm.yaml
N-sgine_gt-norm.yaml
N-sgpar_gt-norm.yaml
V-v1_antaa_gt-norm.yaml

Filene ser slik ut:

...
    afäärimies+N+Sg+Ill: afäärimieheen
    eusmies+N+Sg+Ill: eusmieheen
    frahtimies+N+Sg+Ill: frahtimieheen
    hakkomies+N+Sg+Ill: hakkomieheen
    ikämies+N+Sg+Ill: ikämieheen
...

Korpus

Prosedyrer

Vi kan bruke same prosedyre for fit, rmn og sju-x-sydlapska. Dei opne tekstane ligg på UiT sin svn-servar:

Det finst prosedyrer for dette:

CorpusTools

Mål: Alla minortetsspråkliga texter publisert på ISOF bör inn i korpus, egentligen också andre offentliga myndigheter. Corpustools har rutiner för att laga parallellkorpusar.

På ISOF ser Jacob på dette. Den som har laga corpustools ved UiT er Børre Gaup.

Upphavsrätt

Texter från offentliga myndigheter i öppna korpusen, fri licens. Andra texter (tex. skönlitteratur) har UiT ett system med kontrakter för. Det finns prosedyrer för parallelltext.

UiT-korpuset är på veg från svn til git, jf. den preliminära korpussidan på git (länkarna är inte operativ, men det kommer).

Framåt:

  1. Trond diskuterer frågan om tilgang med Divvun-gruppa.
  2. Deretter diskusjon med Divvun og Isof (Jacob) om korpus.

fit

fit: I dag har vi 475797 ord i korpus.

Sitemap

Debugging site.pages:

URL: /assets/css/style.css - Title:

URL: /HInsertion.html - Title:

URL: /Links.html - Title:

URL: /fit.html - Title: Meänkieli (Tornedalen Finnish) language model documentation

URL: /index-header.html - Title: Meänkieli documentation

URL: / - Title: Meänkieli documentation

URL: /isof/ - Title: Kurs i lexc og twolc for Isof, april 2022

URL: /isof/timeplan.html - Title: Oversikt over kurset

URL: /meetings/230301.html - Title: Møte om språkteknologi for meänkieli

URL: /src-cg3-dependency.cg3.html - Title: C O M M O N S Á M I D E P E N D E N C Y G R A M M A R

URL: /src-cg3-disambiguator.cg3.html - Title: Disambiguator for Meänkieli

URL: /src-cg3-functions.cg3.html - Title:

URL: /src-fst-morphology-affixes-abbreviations.lexc.html - Title: Documenting the morphological tags for Meänkieli abbreviations

URL: /src-fst-morphology-affixes-acronyms.lexc.html - Title: Documenting Meänkieli acronym morphology

URL: /src-fst-morphology-affixes-adjectives.lexc.html - Title: Documenting the file for Meänkieli adjective morphology

URL: /src-fst-morphology-affixes-nouns.lexc.html - Title: Meänkieli noun morphology

URL: /src-fst-morphology-affixes-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-affixes-pronouns.lexc.html - Title:

URL: /src-fst-morphology-affixes-propernouns.lexc.html - Title: Meänkieli propernoun morphology

URL: /src-fst-morphology-affixes-symbols.lexc.html - Title: Symbol affixes

URL: /src-fst-morphology-affixes-verbs.lexc.html - Title: Meänkieli verbs

URL: /src-fst-morphology-phonology.twolc.html - Title: Meänkieli twolc file

URL: /src-fst-morphology-root.lexc.html - Title: Meänkieli morphological transducer

URL: /src-fst-morphology-stems-adjectives.lexc.html - Title: Meänkieli adjectives

URL: /src-fst-morphology-stems-adverbs.lexc.html - Title: Meänkieli adverbs

URL: /src-fst-morphology-stems-conjunctions.lexc.html - Title: Meänkieli conjunctions

URL: /src-fst-morphology-stems-fit-abbreviations.lexc.html - Title: File containing meänkieli abbreviations

URL: /src-fst-morphology-stems-fit-acronyms.lexc.html - Title: Meänkieli aacronyms

URL: /src-fst-morphology-stems-fit-propernouns.lexc.html - Title: Meänkieli propernouns

URL: /src-fst-morphology-stems-interjections.lexc.html - Title: Meänkieli interjections

URL: /src-fst-morphology-stems-nouns.lexc.html - Title: Noun stems for Meänkieli

URL: /src-fst-morphology-stems-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-stems-postpositions.lexc.html - Title: Meänkieli postpositions

URL: /src-fst-morphology-stems-prepositions.lexc.html - Title: Meänkieli prepositions

URL: /src-fst-morphology-stems-pronouns.lexc.html - Title: Meänkieli pronouns

URL: /src-fst-morphology-stems-subjunctions.lexc.html - Title: Meänkieli subjunctions

URL: /src-fst-morphology-stems-verbs.lexc.html - Title: Documenting the file for meänkieli verbs

URL: /src-fst-phonetics-txt2ipa.xfscript.html - Title:

URL: /src-fst-transcriptions-transcriptor-abbrevs2text.lexc.html - Title:

URL: /src-fst-transcriptions-transcriptor-numbers-digit2text.lexc.html - Title: Number transcriptions

URL: /test-diary.html - Title: Test diary

URL: /tools-grammarcheckers-grammarchecker.cg3.html - Title:

URL: /tools-tokenisers-tokeniser-disamb-gt-desc.pmscript.html - Title: Tokeniser for fit

URL: /tools-tokenisers-tokeniser-gramcheck-gt-desc.pmscript.html - Title: Grammar checker tokenisation for fit

URL: /tools-tokenisers-tokeniser-tts-cggt-desc.pmscript.html - Title: TTS tokenisation for smj

URL: /tyolista.html - Title: Työlista = Arbetslista

Root items:

URL: /HInsertion.html - Title: Hinsertion

URL: /Links.html - Title: Links

URL: /fit.html - Title: Meänkieli (Tornedalen Finnish) language model documentation

URL: /index-header.html - Title: Meänkieli documentation

URL: / - Title: Meänkieli documentation

URL: /isof/ - Title: Kurs i lexc og twolc for Isof, april 2022

URL: /src-cg3-dependency.cg3.html - Title: C O M M O N S Á M I D E P E N D E N C Y G R A M M A R

URL: /src-cg3-disambiguator.cg3.html - Title: Disambiguator for Meänkieli

URL: /src-cg3-functions.cg3.html - Title: Src-cg3-functions.cg3

URL: /src-fst-morphology-affixes-abbreviations.lexc.html - Title: Documenting the morphological tags for Meänkieli abbreviations

URL: /src-fst-morphology-affixes-acronyms.lexc.html - Title: Documenting Meänkieli acronym morphology

URL: /src-fst-morphology-affixes-adjectives.lexc.html - Title: Documenting the file for Meänkieli adjective morphology

URL: /src-fst-morphology-affixes-nouns.lexc.html - Title: Meänkieli noun morphology

URL: /src-fst-morphology-affixes-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-affixes-pronouns.lexc.html - Title: Src-fst-morphology-affixes-pronouns.lexc

URL: /src-fst-morphology-affixes-propernouns.lexc.html - Title: Meänkieli propernoun morphology

URL: /src-fst-morphology-affixes-symbols.lexc.html - Title: Symbol affixes

URL: /src-fst-morphology-affixes-verbs.lexc.html - Title: Meänkieli verbs

URL: /src-fst-morphology-phonology.twolc.html - Title: Meänkieli twolc file

URL: /src-fst-morphology-root.lexc.html - Title: Meänkieli morphological transducer

URL: /src-fst-morphology-stems-adjectives.lexc.html - Title: Meänkieli adjectives

URL: /src-fst-morphology-stems-adverbs.lexc.html - Title: Meänkieli adverbs

URL: /src-fst-morphology-stems-conjunctions.lexc.html - Title: Meänkieli conjunctions

URL: /src-fst-morphology-stems-fit-abbreviations.lexc.html - Title: File containing meänkieli abbreviations

URL: /src-fst-morphology-stems-fit-acronyms.lexc.html - Title: Meänkieli aacronyms

URL: /src-fst-morphology-stems-fit-propernouns.lexc.html - Title: Meänkieli propernouns

URL: /src-fst-morphology-stems-interjections.lexc.html - Title: Meänkieli interjections

URL: /src-fst-morphology-stems-nouns.lexc.html - Title: Noun stems for Meänkieli

URL: /src-fst-morphology-stems-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-stems-postpositions.lexc.html - Title: Meänkieli postpositions

URL: /src-fst-morphology-stems-prepositions.lexc.html - Title: Meänkieli prepositions

URL: /src-fst-morphology-stems-pronouns.lexc.html - Title: Meänkieli pronouns

URL: /src-fst-morphology-stems-subjunctions.lexc.html - Title: Meänkieli subjunctions

URL: /src-fst-morphology-stems-verbs.lexc.html - Title: Documenting the file for meänkieli verbs

URL: /src-fst-phonetics-txt2ipa.xfscript.html - Title: Src-fst-phonetics-txt2ipa.xfscript

URL: /src-fst-transcriptions-transcriptor-abbrevs2text.lexc.html - Title: Src-fst-transcriptions-transcriptor-abbrevs2text.lexc

URL: /src-fst-transcriptions-transcriptor-numbers-digit2text.lexc.html - Title: Number transcriptions

URL: /test-diary.html - Title: Test diary

URL: /tools-grammarcheckers-grammarchecker.cg3.html - Title: Tools-grammarcheckers-grammarchecker.cg3

URL: /tools-tokenisers-tokeniser-disamb-gt-desc.pmscript.html - Title: Tokeniser for fit

URL: /tools-tokenisers-tokeniser-gramcheck-gt-desc.pmscript.html - Title: Grammar checker tokenisation for fit

URL: /tools-tokenisers-tokeniser-tts-cggt-desc.pmscript.html - Title: TTS tokenisation for smj

URL: /tyolista.html - Title: Työlista = Arbetslista

Directory items:

URL: /isof/timeplan.html - Title: Oversikt over kurset

URL: /meetings/230301.html - Title: Møte om språkteknologi for meänkieli