North Sami NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-sme

Begrense generering av NPx?

Dokumentert i korpus, oktober 2014

Laura/Lenes skjønnlitterært korpus og NT - oversikt

76 tilfeller med diminutiv Nom PxSg1 er holdt utenfor da de ikke lager problemer for å identifisere feilstavinger. De blir heller ikke generert i Norm. | - | Nom Sg | Pl | Acc Sg | Pl | Gen Sg | Pl | Ill Sg | Pl | Loc Sg | Pl | Com Sg | Pl | Ess | — | — | — | — | — | — | — | — | — | — | — | — | — | — | Sg1 | 52 | 20 | 51 | 33 | 35 | 12 | 15 | 3 | 37 | 13 | 20 | 5 | - | Sg2 | 21 | - | 76 | 26 | 25 | 5 | 15 | 2 | 27 | 3 | 9 | - | - | Sg3 | 14 | - | 426 | 254 | 194 | 75 | 229 | 25 | 211 | 37 | 174 | 57 | 6 | Du1 | - | - | 1 | 1 | - | 1 | 1 | - | - | - | - | 1 | -
| Du2 | - | - | - | - | - | 1 | - | 1 | - | - | - | - | - | Du3 | - | - | 12 | 15 | 9 | 1 | 3 | - | 4 | 2 | 4 | - | - | Pl1 | 44 | 1 | 21 | 12 | 27 | 7 | 3 | 2 | 12 | 4 | - | 6 | -
| Pl2 | 12 | - | 11 | 30 | 13 | 21 | 2 | 7 | 12 | 11 | 3 | 4 | - | Pl3 | - | - | 50 | 101 | 17 | 25 | 5 | 19 | 22 | 26 | 5 | 16 | -

Laura/Lenes skjønnlitterært korpus og NT - nominativ og essiv

| - | Nom Sg | Nom Pl | Ess | — | — | — | — | Sg1 | (52) 36 Kin, 16 Human | 20 Human (Bare NT) ustit, oskuguoibmi, ráhkis | - | Sg2 | (21) Kin | - | - | Sg3 | (14) Human, Kin | - | (6) Property, Kin, Event, Human | Pl1 | (44) Kin, Human. 1 Abstraction: doaivu (NT) | (1) Human: ráhkis (Bare NT) | - | Pl2 | (12) Kin, Human | - | - | Pl3 | - | - | -

I andre bibelske tekster finnes essiv PxSg1: illu, áhkká, PxPl1: oapmi, ávki, PxSg2: bálvaleaddji, opmodat, orrunsadji, vovdna, mánná, gievravuohta PxPl2: áhčči
I andre tekster: Sg3: bargu, vuođđu, dovddaldat, namma Pl3: ovddasvástádus, ávki, oassi

News 280214 - nominativ og essiv

123 tilfeller med diminutiv Nom PxSg1 er holdt utenfor. | - | Nom Sg | Nom Pl | Ess | — | — | — | — | Sg1 | 74: Kin, Human. 4 suohpal, váibmu, čoavji | horti, ráhkis | - | Sg2 | 38 Kin. eallingeardi, boahtteáigi | - | - | Sg3 | 17 Kin. | - | - | Du1 | - | - | - | Du2 | - | - | - | Du3 | - | - | - | Pl1 | 14 Kin. eatnanhearrá, hearrá, ráhkis, ustit, mátki, giella, eatnigiella, identitehta, kultuvra, eallifilosofiija, vuoiŋŋalašvuohta, váttisvuohta | 1 máddu | - | Pl2 | - | - | - | Pl3 | 1 Kin: eadni | - | -

Diskusjon om NPx i Divvun/fst - fra mai 2012, før siste versjon av Divvun

I første omgang kan vi se på Nom+Px i 3.p. Her er det PxSg3 som er plagsom fordi den skygger for feil stadieveksling i SgLoc:

sme$ dsmeNorm 
lávka+N+Sg+Nom+PxSg3
lávka+N+Sg+Nom+PxSg3    lávkas


lávka+N+Sg+Nom+PxDu3
lávka+N+Sg+Nom+PxDu3    lávkaska


lávka+N+Sg+Nom+PxPl3
lávka+N+Sg+Nom+PxPl3            lávkaset


lávka+N+Sg+Loc
lávka+N+Sg+Loc    lávkkas

Sammallahti/Nickel skriver om bruken fra s. 502:

Eksoforiske og endoforiske px viser til noe som er utenfor setninga, og det gjelder fremfor alt slektskapsbenevnelser.

Px i nominativ kommer inn i denne gruppa. 1. person har slike som lottážan (fugl), lieđážan (blomst), med diminutiv. Finnes det uten diminutiv?

Eksempel med PxSg3 fra korpuset: Dat láhttii aivve dego áhččis.

De aller fleste av Nom Px 3.pers ellers er skrivefeil eller dårlig disambiguering.

FORSLAG:

Begrense nominativformene for 3. (og 2.) person til slektskapsbenevnelser, (og da har vi på langt nær løst problemet med SgLoc.)

Diskusjonsinnspill fra Lene på mail fra 29. sept 2011, om NPx i VD

Vi har fjerna NPx fra Vuosttaš Digisánit, men for å dekke ordformene i ungdomsbøkene vi har lagt til grunn, kan det være behov for å legge til noen typer. Her er setningene det gjelder fra bøkene, og en liten analyse av materialet.

Mii válddiimet eret buot NPx:id VD:s, muhto orru leamen dárbu lasihit muhtum hámiid, dušše substantiivvaide (ovdal mis lea adjektiivvaide maid)

Dás leat ovdamearkkat dáin girjjiin:

Sárá beaivegirji, Čábbámus iđitguovssu, Mu ártegis eallin:

Molsaeavttut:

  1. eat váldde NPx:id mielde
  2. addit buot NPx:id buot substantiivvaide (102 lassehámi juohke substantiivii)
  3. addit buot NPx:id buot substantiivvaide, muhto ráddjejuvvon fst:s: lea sáhka ráddjet px fst-leksinonain, nu ahte dušše fuolkenamahusat ožžot olles px-paradigma (102 lassehámi), eará sánit ožžot buot earret NomSg3, NomDu3, NomPl3 (82 lassehámi)
  4. mearkut sániid dict-fiillas main galgá leat px - omd olbmuid, elliid, rumašlahtuid…

vuolábeal listu lea dien dáfus miellagiddevaš:

  1. olbmot: ohppiidis, nieiddažan, eatnis, olbmásis, eadnát, mánážan, áhčistis, áhččán, áhčán
  2. eallit: bussážan, lottážan,
  3. rumašlahttu: soajáidis, sojiidat, vuovttaidis, baksamiiddis, sallasis, salastis, mielastis, čalmmiidis, vuovttaidan liđiidat (šattu rumašlahttu :-)
  4. maid sáhttá oamastit ja gos sáhttá orodit: dálus, ruovttuidasaset, lanjat, latnjasis, vovnnastis,
  5. abstrávttat: čiegusvuođaidan, dáidagiinnis, bárttiidan