Kven Finnish NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-fkv

Viikkokokous

Agenda

Tilannepäivitykset

Analysaattori

Kaksi n-ää

*N+N+

eli ei näin:

LEXICON n_22odd !!= * @CODE@  meininki
+N: x_22odd ;

LEXICON x_22odd !!= * @CODE@  meininki
+N: strong-v-stem ;
+N:%^WG weak-v-stem ;

Ne ovat luultavasti nyt poissa. Pidetään mielessä.

Projekti X (N ja A X-ään) on edelleen työn alla.

Fkvnob

*Mikä on lemma-gen-diff.xfst.txt? *Villahousut lyhenivät *Mikä dokumentaatiokieli sanakirjassa?

fkvnob fst:ssä? Siinä on ollut edistys:

 cat  ~/main/words/dicts/fkvnob/src/*l|grep '<l '|tr '<' '>'  | cut -d">" -f3|ufkv|grep '?'|wc -l
     248

Nobfkv

Testaus

yaml-tiedostot ovat saaneet uuden kodin: test/src/gt-norm-yamls/ Villahousut ovat poissa:

Generoivatko substantiivit itsensä?

status: 54 “ei”:

asentohuonet,asumahuonet,auvain,elläin,filee,hirsihuonet,hohtimet,hohđin,hođin,häppee,höyhen,idee,ilmivalkkee,jääkarfuu,jääkarhuu,karfuu,karhuu,karkkee,ketunrauđat,kiuas,kokkoontumishuonet,kokkoushuonet,kotielläin,kuninkas,kuolain,kuuđain,laiđun,lattuu,luistin,mattafillerit,morssiin,noviisihuonet,oopperahuonet,porstuu,rassuu,rauhankirkonmenot,ruis,rukkoushuonet,ruumishuonet,rämmee,sairashuonet,seuraava,sierain,syyspimmee,tervet,uistin,vierashuonet,vikaatheenvarsi,viljat,viranomainen,väävitoolit,yöpymähuonet,yđin,äärrytys,

Esimerkki virheistä:

noviisihuonet+N+Sg+Nom  noviisihuoneđet
oopperahuonet+N+Sg+Nom  oopperahuoneđet
porstuu+N+Sg+Nom    porstuue
rassuu+N+Sg+Nom rassuue
noviisihuonet+N+Pl+Nom  noviisihuonetheet
oopperahuonet+N+Pl+Nom  oopperahuonetheet
hohtimet+N+Pl+Nom   hohtimet+N+Pl+Nom   +?

Verbeistä tämmöinen raportti:

kuumeta+V+Inf   kuumeta+V+Inf   +?
nakata+V+Inf    nakata+V+Inf    +?
nuoreta+V+Inf   nuoreta+V+Inf   +?

Ymmärrämme miksi:

kuumeta
kuumeta kuumeta+V

nakata
nakata  nakata+V

nuoreta
nuoreta nuoreta+V

Yamlit:

M-all (substantiivit) ja U-all (verbit) tehtiin näin:

cat test/src/gt-norm-yamls/N-*|head -11 > test/src/gt-norm-yamls/M-all_gt-norm.yaml
tail +11 test/src/gt-norm-yamls/N-*|grep -v '=='  >> test/src/gt-norm-yamls/M-all_gt-norm.yaml

cat test/src/gt-norm-yamls/V-*|head -11 > test/src/gt-norm-yamls/U-all_gt-norm.yaml
tail +11 test/src/gt-norm-yamls/V-*|grep -v '=='  >> test/src/gt-norm-yamls/U-all_gt-norm.yaml

Tekniset jutut

Meili

Meilit Kaisalle (svn + Sjur). Trond katsoo.

SVN-konfliktit

svn st

C tiedo.sto

Jos viis veisaat sisällöstä:

Yleisneuvot:

Työtehtävät

Dokumentaatio:

Analysaattori:

Lista

Partisiipit

ovat verbejä:

affixes/verbs.lexc viittaa +PrtPtc:n kautta adjektiiveihin (komp) ja substantiiveihin (sijamuodot) x_21-menetelmän avulla

a_21, n_21 -> x_21

Leksikalisoidut partisiipit (esim mahtava) ovat (sanakirjan takia) adjektiiveja.

Katsotaan partisiippeja (kesäkuussa)

Sanakirja

Onko sana sanakirjassa? siis katso dokumentaatiosta:

Työn kulku

*fkvnob-sanakirja, esimerkit: Pirjo *fkvnob-sanakirja, fkv-oikoluku: Pirjo (tehty?) *fkvnob-sanakirja, nob-oikoluku: Tove *sanakirjan kääntäminen: Ciprian *nobfkv-työ: Tove, muut *nob-artikkelien siivoaminen: Tove, muut *puuttuvien nob-sanojen lisääminen: Trond, Tove, pedagogit *kääntäminen: Pirjo, muut

Tekstit

*T-tekstien kerääminen: KI *P-tekstien lisääminen korpukseen: Mervi, Børre, … *Aikamatka-tekstien lisääminen korpukseen: Mervi, Børre, … *Uusien teksteistä tulevien sanojen lisääminen sanakirjaan ja fst: hen:

Korpus

Hae freecorpus:

svn checkout https://gtsvn.uit.no/freecorpus

Kaikki tekstit ovat tässä:

freecorpus/orig/fkv/inc/pirjo

Ne pitää luokkitella

Luokitus:

freecorpus/orig/sme/

perusjako on 5 ryhmää: admin bible facta ficti laws news

Alaryhmät: admin: facta: ficti: news: rk

sme: facta:

L97S            klemetti.blogspot.com   other_files     skuvlahistorja2     skuvlahistorja4     skuvlahistorja6
finnmarksloven      nav.no          skuvlahistorja1     skuvlahistorja3     skuvlahistorja5

Tehtävä:

Siirtää inc-tiedostot kuusikkoon (admin, facta, news, …)

mkdir admin/ki

svn add admin/ki

svn ci -m “instituutin admin-tekstit” admin/ki

svn mv inc/pirjo/kainun_institutti/ferdige_oversettelser/kainun_institutti_aaninayttely_kvensk_og_samisk.doc admin/ki

svn ci -m “moved file” inc/pirjo/kainun_institutti/ferdige_oversettelser/kainun_institutti_aaninayttely_kvensk_og_samisk.doc admin/ki

mkdir ../nob/admin/ki

svn mv inc/pirjo/kainun_institutti/kainun_institutti_aaninayttely_kvensk_og_samisk.doc ../nob/admin/ki

svn ci -m “moved orig nob file” inc/pirjo/kainun_institutti/kainun_institutti_aaninayttely_kvensk_og_samisk.doc ../nob/admin/ki

Jokaiseen doc-tiedostoon file.doc pitää olla rinnakkais-tiedosto file.doc.xsl. Siinä pitää lukea kaikki meta-tiedot.

Prosessi on selitetty korpusmanuaalissa.

Käyttöliittymä:

[http://gtweb.uit.no/f_korp/]

Muut asiat

*Seuraava kokous elokuussa *Tarvittaessa adhoc-kokous