Mansi NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-mns

mns meeting

Agenda:

status

Grammar

Jack been working on participles.

Test results (coverage etc)

coverage

slightly up

yaml tests

лыӈкве+V+Act+Ind+Prs+ScSg2+OcPl3: [лыганын, лыган]

Arcphonemes slip through:

Test 0: Verb - ловиньтаӈкве (Lexical/Generation)
------------------------------------------------
[  1/172][FAIL] тотуӈкве+V+Inf => Unexpected results: тот{VU}уӈкве
[  2/172][FAIL] тотуӈкве+V+Act+Ind+Prs+ScSg1 => Unexpected results: тот{VU}э̄гум
[  3/172][FAIL] тотуӈкве+V+Act+Ind+Prs+ScSg2 => Unexpected results: тот{VU}э̄гын

Test 1: Verb - ловиньтаӈкве (Surface/Analysis)
----------------------------------------------
[ 80/183][FAIL] тотнӯвув => Missing results: тотуӈкве+V+Act+Cond+ScPl1
[ 84/183][FAIL] тотнӯвлум => Missing results: тотуӈкве+V+Act+Cond+ScSg1+OcSg3
[ 86/183][FAIL] тотнӯвлын => Missing results: тотуӈкве+V+Act+Cond+ScSg2+OcSg3

This is a twolc error.

To repeat, in lang-mns, do:

sh test/yaml-check.sh

Then, the second error message (and many more) contains this `{VU}´ error.

TODO for Csilla: Correct yaml files.

Grammar

Participles

There are participle forms in the yaml forms, but not case inflected ones. Csilla knew about locatives (cf. Chrestomatie, one ex), but not other ones. Rombandeeva has examples, but no systematic treatment.

Problem: Participle: -н, but then -нэ. Should the -нэ be seen as a variety of the suffix, but a case form?1

Oc3 Desicion: We remove the 3 in OcSg3, OcDu3, OcPl3. OC participle: Next meeting

Missing wordforms

There are 11000 stems in the lexicon and 16000 unique wordforms in LS without an analyisis.

These two should meet. How to do that:

Make a tergo lists of 16000 for large-scale addition to the lexicon.

Luima_Seripos_2013-2017.missing.list.240408 # repeated and unsorted

TODO:

  1. Run the missing list through the russian analyser and find baseforms(jaska)
  2. Evaluate these as loandwords and add where appropriate
  3. Redo a new missing list, sort a tergo and give to Csilla

Missing pronouns

cat test/data/Other\ personal\ pronouns.txt grep “: “ cut -d”:” -f2 hfst-tokenise -cg tools/tokenisers/toke” ?” cut -d’”’ -f2 sort uniq

амкем , амким , накин , амкимн , амккем , наӈкен , амке̄мт , амкинам , наӈккен , нэ̄нкин , тавке̄т , амкимтыл , амкинамн , амкке̄мт , ма̄нке̄в , ма̄нкивт , ма̄нкиюв , на̄нке̄н , на̄нкинн , на̄нкинт , наӈке̄нт , наӈкиа̄н , нэ̄нке̄н , нэ̄нкинн , тавкэ̄тэ , акинамтыл , ма̄нке̄вт , ма̄нкиювн , ма̄нкке̄в , ме̄нкемнт , на̄нке̄нт , на̄нкинан , на̄нкке̄н , наӈкиа̄нн , наӈкинныл , наӈкинтыл , наӈкке̄нт , нэ̄нке̄нт , нэ̄нкке̄н , та̄нке̄нл , тавкитэ̄н , тавкитэ̄т , амкинамныл , ма̄нкивныл , ма̄нкина̄в , ме̄нкеме̄н , ме̄нкиме̄н , на̄нкинныл , наӈкина̄нт , нэ̄нкина̄н , нэ̄нкинныл , та̄нкке̄нл , тавкитэ̄лн , таквина̄тэ , тэ̄нкетэ̄н , тэ̄нкитэ̄н , ма̄нкина̄вн , ма̄нкина̄вт , ма̄нкиювтыл , ма̄нкмювныл , ме̄нкиме̄нн , ме̄нкиме̄нт , ме̄нккеме̄н , на̄нкина̄нт , наӈкиа̄нныл , наӈкина̄нын , наӈкинынныл , та̄нке̄нылт , та̄нкиянылн , та̄нкиянылт , таквитэ̄ныл , таквитэ̄тыл , тэ̄нкетэ̄нт , тэ̄нкитэ̄нн , тэ̄нкитэ̄нт , тэ̄нккетэ̄н , наӈкина̄нтыл , наӈкина̄ны̄н , нэ̄нкиа̄нныл , таквина̄тэ̄н , таквина̄тэ̄т , ма̄нкина̄вныл , ма̄нкина̄втыл , ме̄нкиме̄нныл , ме̄нкиме̄нтыл , ме̄нкина̄ме̄н , на̄нкина̄нныл , на̄нкина̄нтыл , на̄нкина̄нынн , наӈкина̄ны̄нт , нэ̄нкина̄нныл , нэ̄нкина̄нынн , та̄нкина̄нылн , та̄нкина̄нылт , та̄нкмянылныл , тэ̄нкина̄тэ̄н , тэ̄нкитэ̄нныл , тэ̄нкитэ̄нтыл , наӈкина̄нынныл , та̄нкина̄наныл , таквина̄тэ̄ныл , таквина̄тэ̄тыл , тэ̄нкина̄тэ̄нн , тэ̄нкина̄тэ̄нт , ме̄нкина̄ме̄нын , на̄нкина̄нынныл , на̄нкина̄нынтыл , наӈкина̄ны̄нтыл , нэ̄нкина̄нынныл , нэ̄нкина̄нынтыл , та̄нкина̄нанылн , ме̄нкина̄ме̄нныл , ме̄нкина̄ме̄нтыл , та̄нкина̄ны̄лныл , та̄нкина̄ны̄лтыл , тэ̄нкина̄тэ̄нныл , тэ̄нкина̄тэ̄нтыл , та̄нкина̄наны̄лныл , та̄нкина̄наны̄лтыл

New yaml forthcoming (Trond).

speller suggesting mechanism

Trond still does not have his perl in place, we postpone.

plans ahead

Now and onwards:

  1. Wrap up work decided today
  2. Work on lexicon and grammar
  3. Test the yamls

After next meeting:

  1. Look at suggestion mechanism
  2. Look at milestones for speller beta version
  3. And, not to forget, more fst work

next meeting

February 16th, 1300 Norwegian time?

Appendix: The Rombandeeva files

We will return to the OC forms of participles at the next meeting

#Present participle
    тотуӈкве+V+PrsPrc: тотнэ
    тотуӈкве+V+PrsPrc+PxSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум not found
    тотуӈкве+V+PrsPrc+PxSg2: [тотнэн, тотнэ̄н]
>>
#Present participle
    тотуӈкве+V+PrsPrc: тотнэ
    тотуӈкве+V+Nar/Qot+ScSg1: [тотнэм, тотнэ̄м] <== not fiction
    тотуӈкве+V+Nar/Qot+ScSg2: [тотнэн, тотнэ̄н] <== not fiction

autossani = OcSg+PxSg1
autoissani = OcPl+PxSg1

my apple eating+PrsPtc+OSg+PxSg1
my apples eating+PrsPtc+OPl+PxSg1

yml тотуӈкве+V+RMB+ScSg1+OcSg3: тотнэ̄лум <== like this

The Sc and Oc way:
xxx  тотуӈкве+V+PrsPrc+ScSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум  found
xxx  тотуӈкве+V+ScSg1+OcSg: тотнэ̄лум <== like this

The Px and Oc way:
xxx  тотуӈкве+V+PrsPrc+PxSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум  found
xxx  тотуӈкве+V+PrsPrc+PxSg1+OSg: тотнэ̄лум <== or like this

The Rombandeeva way:
xxx  тотуӈкве+V+PrsPrc+ScSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум  found
xxx  тотуӈкве+V+PrsPrc+RBD+ScSg1+OcSg: тотнэ̄лум <== or like this


Today (2024-02-08); Different forms with identical tags: Cannot be.
yml  тотуӈкве+V+PrsPrc+PxSg1: тотнэ̄лум
yml  тотуӈкве+V+PrsPrc+PxSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум not found

Decided: OcSg3, OcDu3, OcPl3 ==> remove the 3.


This is an argument for e.g. OcSg, not OcSg3
Thus either: +OcSg, +OcDu, +OcPl
or: +Oc +Sg, +Oc +Du, +Oc +Pl
for the subject: +Sg1, ..., +Pl3

mun    mun+Pron+Pers+Sg1+Nom    0,000000
autoni    auto+N+Pl+Nom+PxSg1    0,000000

myv>
палан    паламс+V+Ind+Prs+ScSg1    ok, subjconj
палатан    паламс +V +Ind +Prs +ScSg1 +OcSg2   also this is subjconj
мон    мон+Pron+Pers+Sg1+Nom    0,000000
палан    пала+N+Pl+Nom+PxSg1    0,000000


    Ха̄льӯс-н яласа-нэ-м ма̄гсыл ма̄шина э̄ри
    Berezovo+Lat to.go.frequently+PrsPrc+PxSg1 in.order.to car need
    A car is needed for me in order to travel to Berezovo.
    
    Ам школа а̄стла-нэ-м юи-па̄л-т ле̄ккар-ыг ханищтахтуӈкве таӈх-эгум
    I school complete-PrsPrc+PxSg1 after-loc doctor-trs study.inf want-1Sg
    After finishing (secondary) school I'd like to study to be a doctor.


#Present participle, single object
    тотуӈкве+V+PrsPrc+PxSg1: тотнэ̄лум
    тотуӈкве+V+PrsPrc+PxSg2: тотнэ̄лн
    
    тотуӈкве+V+Act+Ind+Prs+ScSg1: тотэ̄гум
    тотуӈкве+V+Act+Ind+Prs+ScSg1+OcSg3: тотылум
    тотуӈкве+V+Act+Ind+Prs+ScSg1+OcDu3: тотыягум
    тотуӈкве+V+Act+Ind+Prs+ScSg1+OcPl3: тотыянум