Kven Finnish NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-fkv

fkv-kokous 17.12.2019

Paikalla: Aili, Thomas, Trond

Asialista

Syksyn seminaari Tromssan museossa

Hyvin meni. Hyvä että painostettiin se, kuinka tärkeä on tehdä kielen revitalisaatiota nyt kun meillä on vielä vanhimmat kväänin kielen puhujat elossa.

Priorisointi: Analysaattori, sanakirja, …

Työtehtävät: sanakirja, korpus, por-analysaattori, muut analysaattorit

Esim. niin:

  1. sanakirja (+ uudet sanat analysaattoriin)
    1. lisätä nob-sanoja
    2. lisätä fkv-sanoja
    3. parantaa keskeisten nob-sanojen artikkeleitä (esim. på, i, ville, like, …)
  2. korpus
    1. kerätä tekstejä
    2. rinnastaa tekstejä
  3. por-analysaattori

Kenen tarpeiden mukaan mennään? Ketkä käyttävät ressursseja?

KI:n kääntäjät (Aili, Mari)

OmegaT-ohjelman käyttö:

[https://omegat.org] ja painaa “Get started”. Näin voidaan tehdä fkv:lle.

Jos sanakirjatyö tarkoittaa ` “lisätä nob -> fkv-termipareja” ` niin järkevää olisi aloittaa korpus-työllä.

Käännösmuisteista: rinnakkaistekstit OmegaT (.tmx):

[https://giellalt.uit.no/tm/TranslationMemory.html]

Käytännön kysymykset

että ja mutta

etten, ettet
mutta, muttei 
Tuomas:fkv thomas$ ufkv
ette
ette	ette+CS

closed.lexc:

LEXICON Subjunction
##  @LEXNAME@ -leksikossa on tärkeimmät sanat (koska, että, jos, ..)

koska subj ;
ette+Dial/Jok:että subj ;
ette+Dial/Var:että subj ;
ette+Dial/Por:ette subj ;
siksi subj ;

LEXICON Conjunction
##  @LEXNAME@ -leksikossa on vain pari sanaa. joko - tai
mutta cctag ;
mut cctag ;

ette

LEXICON Conjunction
tahi cctag ;
mutta cctag ;
mutta+CC:mutte CSpers ; ! uus

LEXICON Subjunction
ette+Dial/Var:että subj ;
ette+Dial/Por:ette subj ;
ette+CS+Dial/Por:ette CSpers ; ! uus
siksi subj ;

LEXICON CSpers ! uus
 +Sg1:%>n K ;
 +Sg2:%>t K ;
 +Sg3:%>i K ;
 +Pl1:%>m^A K ;
 +Pl2:%>tt^A K ;
 +Pl3:%>i K ;

###  kuten nyt:
LEXICON cctag 
 +CC: # ;
LEXICON subj
 +CS: # ;

Toinen mahdollisuus olisi:

ette+CS+Sg1:etten K ;
ette+CS+Sg2:ettet K ;
ette+CS+Sg3:ettei K ;
ette+CS+Pl1:ettemä K ;
ette+CS+Pl2:ettett^A K ;
ette+CS+Pl3:ettei K ;

mutte+CC+Sg1:mutten K ;
mutte+CC+Sg2:muttet K ;
mutte+CC+Sg3:muttei K ;
mutte+CC+Pl1:muttema K ;
mutte+CC+Pl2:muttett^A K ;
mutte+CC+Pl3:muttei K ;

Suomen analysaattori:

että	ette+CS

etten	ettei+CS+Neg+Act+Sg1
etten	etten+Pcle+CS

ettet	ettei+CS+Neg+Act+Sg2
ettet	ettet+Pcle+CS

etteivät	ettei+CS+Neg+Act+Pl3
etteivät	etteivät+Pcle+CS

Korpustyö

Selitys tässä

[https://giellalt.uit.no/ling/corpus_conversion.html]

Työsuunnitelma:

  1. Järjestää kaikki rinnakkaistekstit
  2. Lisätä ne freecorpus-kansioon ja tehdä metadatoja
  3. rinnastaa ne
  4. Sen jälkeen päivitetään Korp-ia.

Miten lisätä tekstit

  1. lisäys:
    1. laitaa alkuperäinen fkv ` freecorups/orig/fkv (esim fkvfiili.doc) `
    2. laitaa alkuperäinen nob ` freecorups/orig/nob (esim nobfiili.doc) `
  2. Kummassakin ajaa kommenot ` convert2xml `
  3. editoida ` fkvfiili.doc.xsl ` ja ` nob.fiili.doc.xsl `
  4. ajaa ` convert2xml ` uudestaan

Tulos näkyy sen jälkeen tässä:

[http://gtweb.uit.no/f_korp/?mode=parallel#parallel_corpora=fkv]

Seuraava kokous

Joulun jälkeen.