Kven Finnish NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-fkv

Møte, Börselv 29.9.15

Hilde, Mari, Sindre, Anna-Kaisa, Trond

Innholdsfortegnelse:

  1. Gjøreliste og prioriteringer fremover
  2. Oversikt fra forrige møte
  3. Oversikt over hvor vi står og forskjellige tester
  4. Appendix

GJØRELISTE og prioriteringer fremover

	!! Korpus

Språktinget

Retteprogram

Norsk-Kvensk ordbok

Kvensk-Norsk ordbok

Analysator

Oversikt over prosjektene

For brukerne

  1. nobfkv
  2. korjausohjelma
  3. fkvnob

Grunnmateriale

  1. analysaatori
  2. korpus
  3. rinnakkaiskorpus

Oversikt fra forrige møte:

Analysator

Gruppe 2: Trond, Lena, Sindre, Anna Kaisa

Retteprogram

Språkopplæring

Ordbok

kvensk-norsk ordbok

Korpusarbeid

norsk-kvensk ordbok

Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin

Puohi (fra en norsk frekvensordbok)

Hvordan sjekke ordene?

Felles for begge ordbøker

 "<Se>"
	"se" Pron Pers Sg Nom
"<tuli>"
	"tulla" V Act Ind Prt Sg3
"<.>"
	"."

[https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3]

less src/morphology/root.lexc

Andre ting gjort siden sist:

Oversikt over hvor vi står og forskjellige tester

Analysator, hvor mye av korpuset klarer analysatoren vår?:

Topp-ti manglande av 90,1%:

 184 Porsangi
  46 olkhoon
  46 oikheen
  45 siittä
  42 institutti-Kvensk
  34 Varengin
  30 miitä
  30 elläimile
  29 Pohjas-Ruijassa
  28 mihiin

Montako sanaa:

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l

Millaiset sanat ovat aidosti virheitä?

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|sort|uniq -c|sort -nr|head -30

Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)

Jos haluaa YAML-testata pelkästään teittyjä YAML:eita (esim. pelkästään adjektiivit), voi siirtää kaikki muuta YAML:it pois folderista /main/langs/fkv/test/src/gt-norm-yamls/ , tehdä “make check”, ja muista siirtää ne takas sen jälkeen tai svn up.

Check_lemma (alle grunnformene)

Tre sentrale adjektiv er feil:

Adjektiva er ikkje like godt dekka som substantiva:

hyvä+A+Pl+Par
hyvä+A+Pl+Par	hyvi
hyvä+A+Pl+Par	hyvväi

cat src/morphology/stems/adjectives.lexc |grep a_21|tr ':' ' '|cut -d" " -f1|sed 's/$/+A+Pl+Par/'|dfkv|see

Vi klare nominativ av alle substantiv! De (16) verban som fortsatt mangle er ikke ofte bruke verb.

Missing list for ordbok

*Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?

cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|unob|cut -f2|cut -d"+" -f1|nobfkv|less
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|nobfkv|grep '?'|cut -f1|ufkv|grep '?'|cut -f1|sort|uniq -c|sort -nr|less

Oversikt til slutt i referatet.

Tiltak: Sjå på denne og fylle ut.

Spellchecker feil?

less test/data/typos.txt
echo " se on kväänitten asia" | preprocess --corr=test/data/typos.txt

see tools/spellcheckers/fstbased/hfst/words.default.txt 
see tools/spellcheckers/fstbased/hfst/strings.default.txt 
see tools/spellcheckers/fstbased/hfst/editdist.default.txt

1) Notater fra siste møte:

Analysator

Gruppe 2: Trond, Lena, Sindre, Anna Kaisa

Retteprogram

Språkopplæring

Ordbok

kvensk-norsk ordbok

Korpusarbeid

norsk-kvensk ordbok

Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin

Puohi (fra en norsk frekvensordbok)

Hvordan sjekke ordene?

Felles for begge ordbøker

 "<Se>"
	"se" Pron Pers Sg Nom
"<tuli>"
	"tulla" V Act Ind Prt Sg3
"<.>"
	"."

[https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3]

less src/morphology/root.lexc

Andre ting gjort siden sist:

*Fulle paradigmer i ordboka! *Korpusintegrasjon i ordboka. *Lagt til nye ord i ordboka. *Begynt å få user feedback fra Ruijan Kaiku *Språkkafe!

2) Oversikt over hvor vi står, Testing

Analysator, hvor mye av korpuset klarer analysatoren vår?:

Topp-ti manglande av 90,1%:

 184 Porsangi
  46 olkhoon
  46 oikheen
  45 siittä
  42 institutti-Kvensk
  34 Varengin
  30 miitä
  30 elläimile
  29 Pohjas-Ruijassa
  28 mihiin

Montako sanaa:

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l

Millaiset sanat ovat aidosti virheitä?

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|usme|grep '?'|cut -f1|sort|uniq -c|sort -nr|head

Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)

Check_lemma (alle grunnformene)

Tre sentrale adjektiv er feil:

Adjektiva er ikkje like godt dekka som substantiva:

hyvä+A+Pl+Par
hyvä+A+Pl+Par	hyvi
hyvä+A+Pl+Par	hyvväi

Vi klare nominativ av alle substantiv! De få (16) verban som mangle er overhode ikke ofte bruke verb.

Missing list for ordbok

*Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?

cat test/data/dict_nobfkv_user_log_150929.txt grep False cut -f1 nobfkv grep ‘?’ cut -f1 ufkv grep ‘?’ cut -f1 sort uniq -c sort -nr less

Oversikt til slutt i referatet.

Tiltak: Sjå på denne og fylle ut.

Spellchecker feil?

X

3) GJØRELISTE og prioriteringer fremover

Korpus

Språktinget?

Retteprogram

Norsk-Kvensk ordbok

Kvensk-Norsk ordbok

X

Analysator

Appendix

Missing fkvnob:

  10 ihan
   8 vaatheet
   8 sivu
   8 myös
   8 meila
   7 puuhaa
   7 pitä
   7 keitellä
   7 alottaat
   7 None
   6 lajela
   6 festivaalin
   6 asia
   5 suanto
   5 siili
   5 sammaa
   5 pyy
   5 pykkään
   5 puuha
   5 pian
   5 paussin
   5 osoittheen
   5 melkein
   5 lähte
   5 kävellä
   5 kuinka
   5 jotain
   5 ittesti
   5 fuonet
   5 ajjat

Missing nobfkv

  36 gratulerer
  19 gratulere
  16 liker
  14 norge
  13 jeg
  12 heter
  12 gratulerer med dagen
  12 burde
  11 tror
  11 hoved
  11 din
  11 både
  11 Gratulerer
  10 lunsj
  10 har
  10 hallo
  10 grønlandske
   9 tusen takk
   9 jeg er
   9 informasjon
   9 ha
   9 bamse
   8 nyte
   8 leilighet
   8 flott
   8 fikk
   7 samfunn
   7 oppleve
   6 ønsker
   6 uansett
   6 sønn
   6 sliten
   6 slem
   6 prosjekt
   6 oppføre
   6 nei
   6 nasjonal
   6 medfødt
   6 lenke
   6 klem
   6 jeg heter
   6 inngang
   6 hade
   6 foredrag
   6 drift
   6 bo
   5 våken
   5 utvalg
   5 utstilling
   5 studie
   5 snyte
   5 salg
   5 oppmerksomhet
   5 offentlig
   5 mist
   5 levne
   5 kott
   5 kose
   5 gøy
   5 god natt
   5 flertall
   5 enten
   5 ekte
   5 bygge
   5 broderi
   5 anbefale
   5 Velkommen
   5 Hallo
   4 vesen
   4 travel
   4 temperatur
   4 tema
   4 takk for oss
   4 sverige
   4 stadig
   4 service
   4 oppf
   4 omalle
   4 nitti
   4 mosjon
   4 krise
   4 hei jeg heter
   4 hadde
   4 god dag
   4 får
   4 forestilling
   4 fantastisk
   4 er
   4 ekspert
   4 drikking på gang
   4 dessverre
   4 bøttekott
   4 bolig
   4 balle
   3 å ha
   3 wc
   3 vårt
   3 vanhaa
   3 valp
   3 vagina
   3 utgang
   3 unik
   3 tygge
   3 tromsø
   3 trampe
   3 tisse
   3 til lykke
   3 talosvankka
   3 søppel
   3 synonym
   3 symaskin
   3 stigen
   3 speider
   3 soldat
   3 skamme
   3 sjark
   3 sarpsborg
   3 regering
   3 projekt
   3 produsere
   3 pizza
   3 oversikt
   3 ovenfor
   3 oslo
   3 oppvekst
   3 oppskift
   3 oppmerksom
   3 opplæring
   3 nordlys
   3 nittenhundre
   3 nasjonale
   3 møttes
   3 mormor
   3 milepæl
   3 mett
   3 metsi
   3 meny
   3 meitemark
   3 lykke til
   3 los
   3 lilla
   3 lar
   3 landsby
   3 lafte
   3 kun
   3 kraftig
   3 kompis
   3 kalkun
   3 kalender
   3 jakte
   3 insekt
   3 innerst
   3 innen
   3 ifølge
   3 høflig
   3 hurra
   3 hilsen
   3 handel
   3 hadet
   3 ha det bra
   3 gømme
   3 gi ut
   3 følelse
   3 friste
   3 fotograf
   3 finnmark
   3 feig
   3 eksistere
   3 eik
   3 dusje
   3 do
   3 diskutere
   3 det er sant
   3 deres
   3 caldera
   3 båten
   3 brakk
   3 blid
   3 bleie
   3 bidra
   3 bestikk
   3 arrangement
   3 and
   3 ananas
   3 aktivitet
   3 God natt