Finite state and Constraint Grammar based analysers, proofing tools and other resources
View the project on GitHub giellalt/lang-fkv
Møte, Börselv 29.9.15
Hilde, Mari, Sindre, Anna-Kaisa, Trond
Innholdsfortegnelse:
!! Korpus
Gruppe 2: Trond, Lena, Sindre, Anna Kaisa
Korpusarbeid
Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin
Puohi (fra en norsk frekvensordbok)
Felles for begge ordbøker
"<Se>"
"se" Pron Pers Sg Nom
"<tuli>"
"tulla" V Act Ind Prt Sg3
"<.>"
"."
[https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3]
less src/morphology/root.lexc
Topp-ti manglande av 90,1%:
184 Porsangi
46 olkhoon
46 oikheen
45 siittä
42 institutti-Kvensk
34 Varengin
30 miitä
30 elläimile
29 Pohjas-Ruijassa
28 mihiin
Montako sanaa:
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l
Millaiset sanat ovat aidosti virheitä?
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|sort|uniq -c|sort -nr|head -30
Jos haluaa YAML-testata pelkästään teittyjä YAML:eita (esim. pelkästään adjektiivit), voi siirtää kaikki muuta YAML:it pois folderista /main/langs/fkv/test/src/gt-norm-yamls/ , tehdä “make check”, ja muista siirtää ne takas sen jälkeen tai svn up.
Tre sentrale adjektiv er feil:
Adjektiva er ikkje like godt dekka som substantiva:
hyvä+A+Pl+Par
hyvä+A+Pl+Par hyvi
hyvä+A+Pl+Par hyvväi
cat src/morphology/stems/adjectives.lexc |grep a_21|tr ':' ' '|cut -d" " -f1|sed 's/$/+A+Pl+Par/'|dfkv|see
Vi klare nominativ av alle substantiv! De (16) verban som fortsatt mangle er ikke ofte bruke verb.
*Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|unob|cut -f2|cut -d"+" -f1|nobfkv|less
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|nobfkv|grep '?'|cut -f1|ufkv|grep '?'|cut -f1|sort|uniq -c|sort -nr|less
Oversikt til slutt i referatet.
Tiltak: Sjå på denne og fylle ut.
less test/data/typos.txt
echo " se on kväänitten asia" | preprocess --corr=test/data/typos.txt
see tools/spellcheckers/fstbased/hfst/words.default.txt
see tools/spellcheckers/fstbased/hfst/strings.default.txt
see tools/spellcheckers/fstbased/hfst/editdist.default.txt
1) Notater fra siste møte:
Gruppe 2: Trond, Lena, Sindre, Anna Kaisa
Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin
Puohi (fra en norsk frekvensordbok)
Felles for begge ordbøker
fkvdis "Se tuli."
"<Se>"
"se" Pron Pers Sg Nom
"<tuli>"
"tulla" V Act Ind Prt Sg3
"<.>"
"."
[https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3]
less src/morphology/root.lexc
*Fulle paradigmer i ordboka! *Korpusintegrasjon i ordboka. *Lagt til nye ord i ordboka. *Begynt å få user feedback fra Ruijan Kaiku *Språkkafe!
Topp-ti manglande av 90,1%:
184 Porsangi
46 olkhoon
46 oikheen
45 siittä
42 institutti-Kvensk
34 Varengin
30 miitä
30 elläimile
29 Pohjas-Ruijassa
28 mihiin
Montako sanaa:
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l
Millaiset sanat ovat aidosti virheitä?
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|usme|grep '?'|cut -f1|sort|uniq -c|sort -nr|head
SUBSTANTIV: FAILS - 44 / 2758
VERB: FAILS - 66 / 2786
ADJEKTIV: FAILS - 709 / 2227
Tre sentrale adjektiv er feil:
Adjektiva er ikkje like godt dekka som substantiva:
hyvä+A+Pl+Par
hyvä+A+Pl+Par hyvi
hyvä+A+Pl+Par hyvväi
Vi klare nominativ av alle substantiv! De få (16) verban som mangle er overhode ikke ofte bruke verb.
*Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?
cat test/data/dict_nobfkv_user_log_150929.txt | grep False | cut -f1 | nobfkv | grep ‘?’ | cut -f1 | ufkv | grep ‘?’ | cut -f1 | sort | uniq -c | sort -nr | less |
Oversikt til slutt i referatet.
Tiltak: Sjå på denne og fylle ut.
X
X
Missing fkvnob:
10 ihan
8 vaatheet
8 sivu
8 myös
8 meila
7 puuhaa
7 pitä
7 keitellä
7 alottaat
7 None
6 lajela
6 festivaalin
6 asia
5 suanto
5 siili
5 sammaa
5 pyy
5 pykkään
5 puuha
5 pian
5 paussin
5 osoittheen
5 melkein
5 lähte
5 kävellä
5 kuinka
5 jotain
5 ittesti
5 fuonet
5 ajjat
Missing nobfkv
36 gratulerer
19 gratulere
16 liker
14 norge
13 jeg
12 heter
12 gratulerer med dagen
12 burde
11 tror
11 hoved
11 din
11 både
11 Gratulerer
10 lunsj
10 har
10 hallo
10 grønlandske
9 tusen takk
9 jeg er
9 informasjon
9 ha
9 bamse
8 nyte
8 leilighet
8 flott
8 fikk
7 samfunn
7 oppleve
6 ønsker
6 uansett
6 sønn
6 sliten
6 slem
6 prosjekt
6 oppføre
6 nei
6 nasjonal
6 medfødt
6 lenke
6 klem
6 jeg heter
6 inngang
6 hade
6 foredrag
6 drift
6 bo
5 våken
5 utvalg
5 utstilling
5 studie
5 snyte
5 salg
5 oppmerksomhet
5 offentlig
5 mist
5 levne
5 kott
5 kose
5 gøy
5 god natt
5 flertall
5 enten
5 ekte
5 bygge
5 broderi
5 anbefale
5 Velkommen
5 Hallo
4 vesen
4 travel
4 temperatur
4 tema
4 takk for oss
4 sverige
4 stadig
4 service
4 oppf
4 omalle
4 nitti
4 mosjon
4 krise
4 hei jeg heter
4 hadde
4 god dag
4 får
4 forestilling
4 fantastisk
4 er
4 ekspert
4 drikking på gang
4 dessverre
4 bøttekott
4 bolig
4 balle
3 å ha
3 wc
3 vårt
3 vanhaa
3 valp
3 vagina
3 utgang
3 unik
3 tygge
3 tromsø
3 trampe
3 tisse
3 til lykke
3 talosvankka
3 søppel
3 synonym
3 symaskin
3 stigen
3 speider
3 soldat
3 skamme
3 sjark
3 sarpsborg
3 regering
3 projekt
3 produsere
3 pizza
3 oversikt
3 ovenfor
3 oslo
3 oppvekst
3 oppskift
3 oppmerksom
3 opplæring
3 nordlys
3 nittenhundre
3 nasjonale
3 møttes
3 mormor
3 milepæl
3 mett
3 metsi
3 meny
3 meitemark
3 lykke til
3 los
3 lilla
3 lar
3 landsby
3 lafte
3 kun
3 kraftig
3 kompis
3 kalkun
3 kalender
3 jakte
3 insekt
3 innerst
3 innen
3 ifølge
3 høflig
3 hurra
3 hilsen
3 handel
3 hadet
3 ha det bra
3 gømme
3 gi ut
3 følelse
3 friste
3 fotograf
3 finnmark
3 feig
3 eksistere
3 eik
3 dusje
3 do
3 diskutere
3 det er sant
3 deres
3 caldera
3 båten
3 brakk
3 blid
3 bleie
3 bidra
3 bestikk
3 arrangement
3 and
3 ananas
3 aktivitet
3 God natt