mns meeting
- Time: Feb 8th 2024
- Present: Csilla, Jaska, Trond
Agenda:
- status
- Test results (coverage etc)
- Missing wordforms
-
speller suggesting mechanism
- plans ahead
- next meeting
status
Grammar
Jack been working on participles.
Test results (coverage etc)
coverage
slightly up
yaml tests
лыӈкве+V+Act+Ind+Prs+ScSg2+OcPl3: [лыганын, лыган]
Arcphonemes slip through:
Test 0: Verb - ловиньтаӈкве (Lexical/Generation)
------------------------------------------------
[ 1/172][FAIL] тотуӈкве+V+Inf => Unexpected results: тот{VU}уӈкве
[ 2/172][FAIL] тотуӈкве+V+Act+Ind+Prs+ScSg1 => Unexpected results: тот{VU}э̄гум
[ 3/172][FAIL] тотуӈкве+V+Act+Ind+Prs+ScSg2 => Unexpected results: тот{VU}э̄гын
Test 1: Verb - ловиньтаӈкве (Surface/Analysis)
----------------------------------------------
[ 80/183][FAIL] тотнӯвув => Missing results: тотуӈкве+V+Act+Cond+ScPl1
[ 84/183][FAIL] тотнӯвлум => Missing results: тотуӈкве+V+Act+Cond+ScSg1+OcSg3
[ 86/183][FAIL] тотнӯвлын => Missing results: тотуӈкве+V+Act+Cond+ScSg2+OcSg3
This is a twolc error.
To repeat, in lang-mns, do:
sh test/yaml-check.sh
Then, the second error message (and many more) contains this `{VU}´ error.
TODO for Csilla: Correct yaml files.
Grammar
Participles
- V_U takes both participles
- V_A takes only one
There are participle forms in the yaml forms, but not case inflected ones. Csilla knew about locatives (cf. Chrestomatie, one ex), but not other ones. Rombandeeva has examples, but no systematic treatment.
Problem: Participle: -н, but then -нэ. Should the -нэ be seen as a variety of the suffix, but a case form?1
Oc3 Desicion: We remove the 3 in OcSg3, OcDu3, OcPl3. OC participle: Next meeting
Missing wordforms
There are 11000 stems in the lexicon and 16000 unique wordforms in LS without an analyisis.
These two should meet. How to do that:
Make a tergo lists of 16000 for large-scale addition to the lexicon.
Luima_Seripos_2013-2017.missing.list.240408 # repeated and unsorted
TODO:
- Run the missing list through the russian analyser and find baseforms(jaska)
- Evaluate these as loandwords and add where appropriate
- Redo a new missing list, sort a tergo and give to Csilla
Missing pronouns
| cat test/data/Other\ personal\ pronouns.txt | grep “: “ | cut -d”:” -f2 | hfst-tokenise -cg tools/tokenisers/toke” ?” | cut -d’”’ -f2 | sort | uniq |
амкем , амким , накин , амкимн , амккем , наӈкен , амке̄мт , амкинам , наӈккен , нэ̄нкин , тавке̄т , амкимтыл , амкинамн , амкке̄мт , ма̄нке̄в , ма̄нкивт , ма̄нкиюв , на̄нке̄н , на̄нкинн , на̄нкинт , наӈке̄нт , наӈкиа̄н , нэ̄нке̄н , нэ̄нкинн , тавкэ̄тэ , акинамтыл , ма̄нке̄вт , ма̄нкиювн , ма̄нкке̄в , ме̄нкемнт , на̄нке̄нт , на̄нкинан , на̄нкке̄н , наӈкиа̄нн , наӈкинныл , наӈкинтыл , наӈкке̄нт , нэ̄нке̄нт , нэ̄нкке̄н , та̄нке̄нл , тавкитэ̄н , тавкитэ̄т , амкинамныл , ма̄нкивныл , ма̄нкина̄в , ме̄нкеме̄н , ме̄нкиме̄н , на̄нкинныл , наӈкина̄нт , нэ̄нкина̄н , нэ̄нкинныл , та̄нкке̄нл , тавкитэ̄лн , таквина̄тэ , тэ̄нкетэ̄н , тэ̄нкитэ̄н , ма̄нкина̄вн , ма̄нкина̄вт , ма̄нкиювтыл , ма̄нкмювныл , ме̄нкиме̄нн , ме̄нкиме̄нт , ме̄нккеме̄н , на̄нкина̄нт , наӈкиа̄нныл , наӈкина̄нын , наӈкинынныл , та̄нке̄нылт , та̄нкиянылн , та̄нкиянылт , таквитэ̄ныл , таквитэ̄тыл , тэ̄нкетэ̄нт , тэ̄нкитэ̄нн , тэ̄нкитэ̄нт , тэ̄нккетэ̄н , наӈкина̄нтыл , наӈкина̄ны̄н , нэ̄нкиа̄нныл , таквина̄тэ̄н , таквина̄тэ̄т , ма̄нкина̄вныл , ма̄нкина̄втыл , ме̄нкиме̄нныл , ме̄нкиме̄нтыл , ме̄нкина̄ме̄н , на̄нкина̄нныл , на̄нкина̄нтыл , на̄нкина̄нынн , наӈкина̄ны̄нт , нэ̄нкина̄нныл , нэ̄нкина̄нынн , та̄нкина̄нылн , та̄нкина̄нылт , та̄нкмянылныл , тэ̄нкина̄тэ̄н , тэ̄нкитэ̄нныл , тэ̄нкитэ̄нтыл , наӈкина̄нынныл , та̄нкина̄наныл , таквина̄тэ̄ныл , таквина̄тэ̄тыл , тэ̄нкина̄тэ̄нн , тэ̄нкина̄тэ̄нт , ме̄нкина̄ме̄нын , на̄нкина̄нынныл , на̄нкина̄нынтыл , наӈкина̄ны̄нтыл , нэ̄нкина̄нынныл , нэ̄нкина̄нынтыл , та̄нкина̄нанылн , ме̄нкина̄ме̄нныл , ме̄нкина̄ме̄нтыл , та̄нкина̄ны̄лныл , та̄нкина̄ны̄лтыл , тэ̄нкина̄тэ̄нныл , тэ̄нкина̄тэ̄нтыл , та̄нкина̄наны̄лныл , та̄нкина̄наны̄лтыл
New yaml forthcoming (Trond).
speller suggesting mechanism
Trond still does not have his perl in place, we postpone.
plans ahead
Now and onwards:
- Wrap up work decided today
- Work on lexicon and grammar
- Test the yamls
After next meeting:
- Look at suggestion mechanism
- Look at milestones for speller beta version
- And, not to forget, more fst work
next meeting
February 16th, 1300 Norwegian time?
Appendix: The Rombandeeva files
We will return to the OC forms of participles at the next meeting
#Present participle
тотуӈкве+V+PrsPrc: тотнэ
тотуӈкве+V+PrsPrc+PxSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум not found
тотуӈкве+V+PrsPrc+PxSg2: [тотнэн, тотнэ̄н]
>>
#Present participle
тотуӈкве+V+PrsPrc: тотнэ
тотуӈкве+V+Nar/Qot+ScSg1: [тотнэм, тотнэ̄м] <== not fiction
тотуӈкве+V+Nar/Qot+ScSg2: [тотнэн, тотнэ̄н] <== not fiction
autossani = OcSg+PxSg1
autoissani = OcPl+PxSg1
my apple eating+PrsPtc+OSg+PxSg1
my apples eating+PrsPtc+OPl+PxSg1
yml тотуӈкве+V+RMB+ScSg1+OcSg3: тотнэ̄лум <== like this
The Sc and Oc way:
xxx тотуӈкве+V+PrsPrc+ScSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум found
xxx тотуӈкве+V+ScSg1+OcSg: тотнэ̄лум <== like this
The Px and Oc way:
xxx тотуӈкве+V+PrsPrc+PxSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум found
xxx тотуӈкве+V+PrsPrc+PxSg1+OSg: тотнэ̄лум <== or like this
The Rombandeeva way:
xxx тотуӈкве+V+PrsPrc+ScSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум found
xxx тотуӈкве+V+PrsPrc+RBD+ScSg1+OcSg: тотнэ̄лум <== or like this
Today (2024-02-08); Different forms with identical tags: Cannot be.
yml тотуӈкве+V+PrsPrc+PxSg1: тотнэ̄лум
yml тотуӈкве+V+PrsPrc+PxSg1: [тотнэм, тотнэ̄м] # if тотнэ̄лум not found
Decided: OcSg3, OcDu3, OcPl3 ==> remove the 3.
This is an argument for e.g. OcSg, not OcSg3
Thus either: +OcSg, +OcDu, +OcPl
or: +Oc +Sg, +Oc +Du, +Oc +Pl
for the subject: +Sg1, ..., +Pl3
mun mun+Pron+Pers+Sg1+Nom 0,000000
autoni auto+N+Pl+Nom+PxSg1 0,000000
myv>
палан паламс+V+Ind+Prs+ScSg1 ok, subjconj
палатан паламс +V +Ind +Prs +ScSg1 +OcSg2 also this is subjconj
мон мон+Pron+Pers+Sg1+Nom 0,000000
палан пала+N+Pl+Nom+PxSg1 0,000000
Ха̄льӯс-н яласа-нэ-м ма̄гсыл ма̄шина э̄ри
Berezovo+Lat to.go.frequently+PrsPrc+PxSg1 in.order.to car need
A car is needed for me in order to travel to Berezovo.
Ам школа а̄стла-нэ-м юи-па̄л-т ле̄ккар-ыг ханищтахтуӈкве таӈх-эгум
I school complete-PrsPrc+PxSg1 after-loc doctor-trs study.inf want-1Sg
After finishing (secondary) school I'd like to study to be a doctor.
#Present participle, single object
тотуӈкве+V+PrsPrc+PxSg1: тотнэ̄лум
тотуӈкве+V+PrsPrc+PxSg2: тотнэ̄лн
тотуӈкве+V+Act+Ind+Prs+ScSg1: тотэ̄гум
тотуӈкве+V+Act+Ind+Prs+ScSg1+OcSg3: тотылум
тотуӈкве+V+Act+Ind+Prs+ScSg1+OcDu3: тотыягум
тотуӈкве+V+Act+Ind+Prs+ScSg1+OcPl3: тотыянум