North Sami NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-sme

Page Content

Oversyn

Her er eit oversyn over fst-ane som skal bli kompilert og eigenskapane deira.

Analysatorar

           
alias *.fst FST synlege Usynlege Merknader Status
- analyser-raw-gt-desc alle bortsett frå MWE MWE MWE blir berre brukt i preprosessoren, aldri i fst-samanhang -
- analyser-dict-gt-desc NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma), vN, Coll, Use/NGminip, Allegro (sme) Sem/-taggar, OLang/*, MWE v1-vN - N = 24 NGminip må testast
- analyser-dict-gt-desc-mobile 1) NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma), vN, Coll, Use/NGminip, Allegro (sme) Sem/-taggar, OLang/*, MWE v1-vN - N = 24 NGminip må testast
smX-norm.fst analyser-gt-norm NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma), Coll, vN Sem/-taggar, OLang/*, MWE, Use/NGminip, Allegro (sme) v1-vN - N = 24 NGminip må testast
- analyser-oahpa-gt-norm NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma), Coll Sem/-taggar, OLang/*, MWE, Use/NGminip, Allegro (sme), vN v1-vN - N = 24. Fst for testing, parallell til generatoren NGminip må testast

analyser-dict-gt-desc-mobile er kompilert med orthography/spellrelax-mobile-keyboard.regex i tillegg til den vanlege spellrelax.regex.

Morfologisk analyse presentert på web vs. til disambiguering:

         
alias *.fst FST synlege Usynlege Status
smX-site.fst (smX.fst) analyser-gt-desc Err/Orth, Err/Lex, +vN Sem/-taggar Ferdig
smX-dis.fst analyser-disamb-gt-desc Err/Orth, Err/Lex, Sem/-taggar, Allegro +vN Ferdig

Generatorar

       
alias *.fst FST obligatoriske valgfrie
ismX generator-gt-desc - IV, TV, vN, Coll, Allegro (sme), Use/NGminip, NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma)
ismX.norm generator-gt-norm - IV, TV, vN, Coll, Allegro (sme), Use/NGminip, NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma)
- generator-dict-gt-norm NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma), vN, Coll, Use/NGminip, Allegro (sme) IV, TV
- generator-oahpa-gt-norm NomAg (sme), G3 (sme), G7 (sme), Hom1 (sma), Hom2 (sma), Coll IV, TV, vN, Allegro (sme), Use/NGminip
- generator-oahpa-gt-restr_GG = generator-oahpa-gt-norm + Allegro men strengar med Use/NG og Dial/-GG skal ikke med i kompileringa (sme)
- generator-oahpa-gt-restr_KJ = generator-oahpa-gt-norm + Allegro men strengar med Use/NG og Dial/-KJ skal ikke med i kompileringa (sme)
- generator-oahpa-gt-restr_SH = generator-oahpa-gt-norm men strengar med Use/NG og Dial/-SH skal ikke med i kompileringa (sma)
- generator-oahpa-gt-restr_L = generator-oahpa-gt-norm men strengar med Use/NG og Dial/-L skal ikke med i kompileringa (sma)

Dialekt-fst-ane er no implementerte. Dei må testast slik at vi veit at dei fungerer som dei skal.

Ferdige FST-ar

   
FST-namn Tag-merknader m.m.
analyser-mt-apertium-desc.sma Sem/-tagger for sme-sma, filtrert mot bidix (gjort på Apertium-sida)
analyser-mt-apertium-desc.smj Sem/-tagger for sme-smj, filtrert mot bidix (gjort på Apertium-sida)
generator-mt-apertium-norm uten Sem/tagger
analyser-mt-gt-desc.sma GT-taggar
analyser-mt-gt-desc.smj –”–
generator-mt-gt-norm –”–
analyser-mt-gt-desc grunnlag for .sma og .smj
analyser-raw-gt-desc testa, verkar ok
analyser-dict-gt-desc testa, verkar ok
analyser-dict-gt-desc-mobile testa, verkar ok
analyser-gt-norm testa, verkar ok
analyser-oahpa-gt-norm testa, verkar ok
analyser-gt-desc testa, verkar ok
analyser-disamb-gt-desc testa, verkar ok
generator-gt-desc testa, verkar ok
generator-gt-norm testa, verkar ok
generator-dict-gt-norm testa, verkar ok
generator-oahpa-gt-norm testa, verkar ok
generator-oahpa-gt-norm-dial_$DIAL testa, verkar ok

Dette burde vera alle fst-ar for alle formål som gjeld meir enn eitt språk.

Korleis kompilere i langs/sme

./configure

Eksempel på parameterverdiar:./configure --enable-dicts etc.

(Shell-)skript som manglar

Notatar framover

  1. Sme til nyinfra
  2. Nyinfra-namn i /opt/smi etc.
  3. vurdering av 4x sme-lex
  4. Ny vurdering av error-greina (sme-L1 + sme-L2?)